GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。

因为这一次,GLM-5直接把开源AI也拽进了长任务时代

瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,完成700次工具调用、800次上下文切换之后……

它直接用JavaScript,从零手搓了一个Game Boy Advance(GBA)模拟器!

外观渲染画面是这样的:

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

屏幕里是这样的:

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

在没有渲染情况下的动态效果如下:

要知道,这对于AI来说,是一个绝对无法取巧的工程任务。

因为GBA模拟器涉及到了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序等任务。

哪怕一条指令遵循出错,或者一次文件写入偏差,整个项目就会在几个小时后崩盘。

并且GLM-5面对的还是无并行、无任何参考代码、关闭网络搜索的那种。

即便如此,从视频给出的结果中我们也不难发现,GLM-5确实是发挥非常稳定:

  • 工具调用稳定:第700次和第一次在语法、格式、准确度上没有差异;
  • 指令遵循持久:上下文即使切换了800次,依旧遵守Meta-Prompt的规范、约定和流程;
  • 工作判断稳定:GLM-5知道自己什么时候该测试、信息记录、切换策略等;
  • 上下文够可靠:每次上下文清空后,GLM-5能从笔记和文件中准确恢复工作状态。

这也难怪不少网友在看完之后直呼:

它(GLM-5)可以制作精美的CAD模型!

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

并且目前GLM-5的评测结果也已出炉,在权威榜单Artificial Analysis中,直接到了与Claude Opus 4.5比肩的水平。

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

在业内公认的主流基准测试中,GLM-5的编程能力也是实现了与Claude Opus 4.5对齐:

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

并且在衡量模型经营能力的Vending Bench 2中,GLM-5取得了开源第一的成绩:

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

但毕竟Claude Opus是闭源,护城河一下子被GLM-5这个开源模型给端掉,也是引得不少网友欢呼:

感谢开源!

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

那么GLM-5这位开源界的第一位“全栈架构师”,还有什么样的实力?

接下来,一波深度实测开源版Opus级别的模型,走起~

已经有人申请上架App Store了

我们的测试将在Claude Code中调用GLM-5 API的方式展开。

因此,我们第一个测试就是做最考验模型的逻辑闭环能力的游戏——要求GLM-5从零生成一个3D版大富翁

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

接下来,我们直接来看下效果:

可以看到,面对如此复杂的需求,GLM-5稳稳地把所有功能都实现了出来。

若是Prompt更加精细,我们就可以得到一个OpenClaw对战的《龙虾版3D大富翁》

而且已经有用户使用GLM-5做了个学术版“抖音”,并且提交上架苹果App Store!

10余款APP都要上架了(showcase.z.ai):

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

实测继续。

这一次,我们要测试GLM-5对复杂物理规律描述的理解能力,请听Prompt:

创建一个玻璃十二面体,每个面是一个遮罩,显示中央相同旋转基底环结的不同设计(看起来像拼贴/滤镜)。应用一些细微的泛光效果。在它外面再加一层大约两倍大小的第二层(透明)玻璃壳,并让每个面透过时改变内部玻璃的外观成不同类型,比如透过外层的某一面,整个内壳看起来像是染色玻璃、彩绘玻璃或线框等,仅供参考。使用 three.js,……

GLM-5依旧是精准地捕捉到了Prompt中的关键词,生成的HTML文件打开后,一个光影交错的十二面体悬浮在空中。

除此之外,包括像全栈类型任务,例如制作一个完整、有设计感的电商网站,GLM-5也是可以拿捏。

以及有人也用GLM-5手搓了个3D版可交互的《我的世界》!

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

开源,Win Again

GLM-5的出现,不论是从实测还是网友们的反响来看,都在标志一件事情:

开源大模型完成了一次从助手到独立工程师的质变。

以前,我们用AI是写一句Prompt,但需要不断地去做调试的工作;但现在,用GLM-5可以是给它一个目标,然后去喝咖啡,偶尔回来看看它有没有跑偏。

更宏观地来看,这对于SaaS行业来说,也可能是一场风暴。

毕竟就在前几天,随着Claude Opus等具备长任务能力的闭源模型展现威力,国外市场已经出现了恐慌。

例如当时金融数据服务商FactSet最惨盘中暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。

Fortune和CNBC报道称,SaaS软件类股票遭到抛售,投资者担心,如果AI能现场手搓一个CRM系统,谁还去买年费软件。

虽然黄仁勋安抚说AI会增强现有工具,但GLM-5的实测表现告诉我们:重塑或许已经在发生。

更重要的是,之前这种能力是闭源巨头的特权。现在,GLM-5把这把钥匙交到了所有开发者手里。

或许这次开源模型24小时不间断自己跑代码只是一个起点,未来会更长、更快、更好、更强。

Two More Things

GLM其实从4.5版本开始就死磕AI编程这件事,现在这个国产AI的coding套餐在国内外也是相当火爆;这次智谱一上来就限售,外国网友们都是在“求”的状态。

以及,智谱公司的大楼,现在也是成了个打卡点

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

开头我们提到的GBA模拟器,由于GLM-5一直在跑,程序员小哥哥下班打车是这样的:Agent乘客 GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器

项目地址:
* GitHub:https://github.com/zai-org/GLM-5
* Hugging Face:https://huggingface.co/zai-org/GLM-5
* ModelScope:https://modelscope.cn/models/ZhipuAI/GLM-5
* GameBoy Advance体验:https://e01.ai/gba


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/21229

(0)
上一篇 2026年2月12日 下午2:37
下一篇 2026年2月12日 下午3:39

相关推荐

  • 从破折号到数据源:ChatGPT标点偏好背后的AI训练数据溯源

    近期,OpenAI首席执行官山姆·奥特曼亲自宣布ChatGPT修复了过度使用破折号的问题,这一看似细微的更新引发了广泛关注。为何一个标点符号的调整能成为AI领域的热点事件?这背后折射出的是大语言模型训练数据、人类反馈强化学习(RLHF)机制以及AI文本生成“数字指纹”等深层次议题。 破折号在ChatGPT输出中的泛滥,已成为用户识别AI生成文本的显著标志。在…

    2025年11月16日
    19700
  • 苹果与谷歌达成AI深度合作:Gemini将成苹果AI新大脑,Siri迎来革命性升级

    谷歌市值首次突破4万亿美元,这一历史性时刻的背后,是一则引爆科技圈的新闻:苹果与谷歌正式宣布达成一项多年期深度合作协议。 根据协议,苹果未来的基础AI模型将基于谷歌的Gemini模型和云技术构建,这包括即将推出的Apple Intelligence平台,以及今年晚些时候将迎来革命性升级的Siri。 消息一出,迅速占据各大科技媒体头条,并引发了行业内的广泛讨论…

    2026年1月13日
    16800
  • GenMimic突破:从AI生成视频到机器人零样本模仿,人形机器人迎来动作学习新范式

    在《黑客帝国》中,Neo通过脑机接口瞬间掌握功夫的场景曾让无数观众惊叹。如今,这一科幻想象正通过伯克利、纽约大学和约翰・开普勒林茨大学联合研究团队提出的GenMimic方法,在机器人领域迈出实质性步伐。这项研究不仅解决了人形机器人如何零样本执行生成视频中人类动作的核心问题,更开辟了机器人动作学习的新路径。 研究团队构建的完整技术框架包含三个关键创新:GenM…

    2025年12月6日
    20800
  • 从Clawdbot到Moltbot:AI项目爆火背后的商标风波与Agent自主进化启示录

    短短几天时间,“大龙虾”Clawdbot便已火遍全网。其热度趋势图几乎呈直线上升,GitHub星标数在25日已接近7万,目前已达7.5万,堪称“原地起飞”。Clawdbot的热度甚至一度超越了Claude Code。然而,正所谓“人红是非多”,AI项目也不例外。在爆火的同时,Clawdbot在短短几天内经历了一场“改名风波”。27日下午,官方宣布Clawdb…

    2026年1月29日
    35900
  • 4KAgent:多智能体协同的通用图像超分辨率框架,突破传统模型局限

    图像超分辨率技术作为计算机视觉领域的重要研究方向,长期以来面临着处理复杂退化图像和跨领域应用的挑战。传统方法通常在特定数据集上表现优异,但面对真实世界中的噪声、模糊、压缩损伤以及AI生成图像、遥感影像、生物医学图像等多样化场景时,往往难以兼顾通用性与高质量输出。近期,由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大…

    2025年11月21日
    18600