智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。

一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。

核心评测结论
* 三大亮点
* 基础推理扎实:在数学计算、逻辑推理、文本处理等基础任务上表现稳定可靠。
* 创意写作出色:无论是小学生作文、网络流行文体还是科幻小说续写,均展现出优秀的语言驾驭能力和创意水平。
* 调研分析能力强:面对如Agent Infrastructure全景调研等复杂任务,能够系统性地搜集、整理信息,并输出结构化的分析报告。
* 三个短板
* 复杂代码生成不稳定:在3D场景渲染、复杂游戏开发等任务中频繁出错,例如生成的太空射击游戏无法运行、3D弹珠场存在物理异常。
* 多模态理解偏弱:在空间变换推理、目标检测计数、表格OCR等视觉任务上错误率较高,将图像转换为代码的能力不足。
* 指令遵循有偏差:部分任务未能准确理解Prompt的完整意图,导致输出结果与预期存在偏差。


一、基础能力测试

1.1 数学推理

大数计算
Prompt:大数计算:178939247893 * 299281748617等于多少?
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:计算结果完全正确,答案为53,553,251,005,627,872,913,981。

立体几何推理
Prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:空间推理能力在线。模型清晰完整地运用了立体几何中对角线长度的计算方法,并得出正确结论。

推理陷阱题
Prompt:假设有三个创业团队(A、B、C)正在竞争一个项目资金。评选有以下规则:
1.每个团队提交一份商业计划书,主题必须是“可持续能源”“智慧城市”或“医疗健康”之一,且每个主题只能有一个团队选择。
2.团队B选择了“智慧城市”。
3.如果团队A选择“可持续能源”,那么团队C的商业计划书必须比团队A的更具创新性才能胜出。
4.最终只有一个团队能获得资金。
5.后来得知,团队C的计划书在创新性上略逊于团队A。
请问:哪个团队最终获得了项目资金?并解释你的推理过程。
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:未能识破题目中的逻辑陷阱,推理过程出现漏洞,未能正确处理条件间的约束关系,得出了错误结论。正确答案应为“无法唯一确定赢家,但可确定C未获胜,胜者只可能是A或B之一”。

小红兄弟姐妹题
Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:正确理解了家庭成员的逻辑关系,准确计算出小红的兄弟有4个姐妹(包括小红本人和她的3个姐妹)。

老鹰飞行原因
Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:模型完全陷入了题目预设的逻辑链条中,未能跳出并运用“老鹰天生会飞”这一基本常识进行判断。

1.2 文本处理

字符串反转
Prompt:将“I love MiMo-V2-Flash”这句话的所有字母反过来写
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:回答正确。

语义判别
Prompt:以下出现的华为是否为3C行业品牌?
– 刘德华为新剧做宣传。
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:正确区分了作为人名的“刘德华”与品牌名“华为”,回答正确。

知识理解
Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:模型未能理解句子的双关含义(“但丁真”可拆解为“但/丁真”),错误地将“中国话”作为解释重点,缺乏对中文特定语境的深度理解。

弱智吧系列
Prompt1:生蚝煮熟了叫什么?
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
Prompt2:用水来兑水,得到的是浓水还是稀水
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:两个问题均回答正确,成功识别出这是脑筋急转弯类题目,没有被常见套路误导。

开放式策略生成
Prompt
1. 整体:资金不足40.4%,知识匮乏23.9%,未来不确定性21.7%,政策限制14%。
2. 一线城市:资金不足44.4%,知识匮乏15.8%,未来不确定性22.7%,政策限制16.9%。
3. 二线城市:资金不足38.3%,知识匮乏27.9%,未来不确定性21.2%,政策限制12.5%。
请根据上述数据,分析一二线青年置业困难差异及原因,从政府、购房者、家人、夫妻角度提建议。
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:对一二线城市青年置业困难的差异分析到位,所提建议涵盖多个维度且具有可操作性,具备参考价值。


二、代码能力测试

2.1 网页开发 – 游戏类

黄金矿工游戏
Prompt:请生成一个经典的“黄金矿工”游戏。游戏的核心玩法、道具和关卡系统应遵循以下设定:(此处省略详细设定,保留核心要求)
* 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
* 评测:生成的游戏画面精致,核心的钩爪摆动、抓取回收、关卡目标等机制实现完整,游戏基本可玩。

智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

马卡龙色调的温馨界面,搭配卡通小动物棋子,营造出萌趣可爱的游戏氛围。游戏支持“人人对战”与“人机对战”双模式,运行流畅,适合儿童或休闲玩家。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

游戏玩法简单完整,UI设计可爱,交互过程顺滑,符合“合格交付”的标准。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

技能系统已基本实现,但部分技能效果在视觉呈现上不够直观。


实验功能完整,但在界面设计或用户体验方面仍有优化空间。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

游戏未能完整实现,无法正常开启,关键功能存在严重缺失。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

浏览器操作系统的基本框架已搭建完成,App数量达标,但功能较为简单,交互体验不够流畅。


2.2 网页开发 – 工具类

智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

整体UI精致,高度还原了原版设计,完成度很高。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

灯泡玻璃质感通透,色温和亮度滑块响应灵敏,光照效果随参数变化真实自然,视觉效果出色。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

相机外观具备一定质感,但快门功能不可用,立体感与细节表现有待加强,视觉冲击力有限。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

拍立得外观基本还原,粉色系运用得当,但在细节或拍照效果方面有提升空间。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

风扇建模真实,材质质感出色,档位调节响应即时,扇叶转速变化平滑自然。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

金属质感不明显,档位调节或动画功能存在问题,整体效果与预期差距较大。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

Switch造型还原度极高,Joy-Con配色准确,按钮交互灵敏,游戏切换动画流畅,细节处理精致,效果令人惊艳。


智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

网站提供橙色系公众号样式,支持二级标题,用户可预览并复制样式代码至微信公众号编辑器,实现所见即所得的排版效果。

2.3 网页开发 – 3D场景

3D深海波浪模拟

  • Prompt:创建一个包含以下要求的单HTML文件单页应用:名称“海洋波浪模拟”,目标是显示逼真的动态波浪效果,功能上需支持调节风速、浪高和光照效果,界面需具有平静感和真实感。
  • 输出
  • 评测结果:参数调节功能已实现,但核心的3D波浪渲染效果不佳,未能成功模拟出逼真的动态波浪。

3D玻璃托盘弹珠场

  • Prompt:要求创建一个单文件HTML应用,使用three.js呈现“桌面上一个透明六边形玻璃托盘里,多颗自发光的彩色弹珠在里面永不停歇地滚动互撞”的场景。视觉上需营造夜晚暗室氛围,弹珠需有柔和的自发光、柔光晕染效果,并能对周围环境产生轻微染色反射。玻璃托盘需体现折射、高光等质感。物理运动要求弹珠能真实碰撞、反弹,长期运行稳定不穿墙、不抖动。交互上提供极简控制条,用于“摇一摇”注入扰动、切换慢动作速度、切换相机视角、调节柔光强度等。
  • 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测结果:弹珠的物理模拟存在严重问题,出现了穿墙、抖动、爆飞等现象。同时,预期的自发光、柔光晕染、环境反射等关键视觉效果均未实现,与“真实拍摄”的质感目标相差甚远。

体素风格花园宝塔场景

  • Prompt:要求设计一个细节丰富的体素风格场景,核心是在一座生机勃勃的花园中放置一座华丽的宝塔。特别强调植物种类要多,尤其是樱花树,确保画面生动活泼、色彩鲜艳、视觉冲击力强。最终需提供一个独立的HTML文件。
  • 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测结果:场景构建完整,体素艺术风格明确。但花园的植物种类和场景细节的丰富程度未能完全达到预期描述的水平。

2.4 网页开发 – UI设计

iOS 18风格天气卡片

  • Prompt:要求以Apple iOS 18的设计风格,制作一个带有动画效果的英文天气卡片页面。页面需为横板布局,包含晴天、大风、暴雨、暴雪四种天气卡片。实现需使用HTML、CSS和基础JavaScript,要求足够美观并具备一定的交互效果。
  • 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测结果:四种天气卡片的动画效果精致,交互体验流畅自然。整体配色方案、字体选用及设计细节高度还原了Apple的设计风格,完成度很高。

电影级着陆页

  • Prompt:要求创建一个具有电影级视觉效果的着陆页。需使用深邃的渐变背景,结合玻璃拟态设计元素,并融入流畅的微交互动画,整体呈现出奢华科技品牌的质感。
  • 输出智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测结果:页面成功营造了深邃、高级的视觉氛围。渐变背景与玻璃拟态元素结合得当,微交互动画流畅,整体质感符合奢华科技品牌的定位。

界面设计任务

任务一:极简主义仪表板

  • Prompt: 设计一个极简主义的仪表板界面,运用大量留白、精致的阴影层次、优雅的过渡动画,体现现代高端设计的精髓。制作HTML网页。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 设计简洁明了,但“极简”与“高端”的平衡把握不够到位,细节精致度有提升空间。

任务二:未来感数据可视化大屏

  • Prompt: 生成一个具有未来感的数据可视化大屏,使用霓虹色彩、粒子效果、3D变换动画,营造科幻电影中的高科技氛围。制作HTML网页。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 大屏有一定未来感,但粒子效果或动画不够精致,科幻氛围感需要加强。

任务三:艺术画廊风格网页

  • Prompt: 创建一个艺术画廊风格的网页,融合抽象几何图形、流动的色彩渐变、视差滚动效果,展现前卫的现代艺术美感。制作HTML网页。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 艺术感不足,几何图形和渐变色彩运用生硬,视差滚动缺失,未能呈现“前卫现代艺术”风格。

任务四:GLM-4.7产品发布页

  • Prompt: 你是一位曾主导Apple发布会网页、Stripe官网、Raycast产品页的顶级创意前端工程师。请为「GLM-4.7」创建一个让人过目不忘的产品发布页面。
    • 关于GLM-4.7: 智谱最新旗舰模型,定义Agentic Coding新标准;200K上下文,128K最大输出;LiveCodeBench开源第一,超越Claude Sonnet 4.5;即将MIT协议完全开源。
    • 视觉方向(跳出AI产品的俗套): 不要蓝紫渐变,不要赛博朋克风;参考Apple产品发布页的克制高级感,或Nothing Phone的黑白点缀荧光色,或Teenage Engineering的工业设计感;配色建议:深灰/纯黑为主,搭配一个高饱和度的点缀色(亮橙、荧光绿、电光蓝任选其一),大面积留白;字体要有力量感:主标题超大、加粗,形成强烈的视觉锤。
    • Hero区域: 用一个抽象的3D动态元素作为主视觉(可以是旋转的几何体、流动的线条、或呼吸感的光球);标题文字做成主角,够大够震撼;加入一个实时的代码生成动画:黑底绿字/白字的终端风格,代码逐行打出。
    • 动效: 背景元素有缓慢的持续运动;滚动时内容块有视差和渐入效果;鼠标移动时有微妙的交互响应。
    • 技术: 可以使用Three.js、GSAP、Lottie等库(通过CDN引入);单个HTML文件;不追求兼容性,优先视觉效果。
    • 核心目标: 让看到这个页面的人觉得「这不可能是AI一次生成的」。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 落入蓝紫渐变、赛博朋克的俗套,缺乏创意和高级感,与“让人过目不忘”的目标相差甚远。

SVG与动画任务

任务一:八缸发动机动画

  • Prompt: 用 SVG 绘制八缸发动机物理结构动画,分步骤展示活塞运动、气门开合,配色用工业灰 + 金属银,支持鼠标悬停查看部件名称。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 结构绘制错误,配色不符合要求,悬停功能缺失,未能达到教学展示标准。

任务二:太阳系行星动画

  • Prompt: 使用React和CSS3为八大行星创建一个围绕太阳旋转的动画。要求:1、太阳固定在屏幕中心,每个行星有自己独特的轨道(半径、颜色、大小)。2、每个行星的旋转周期需不同(例如:水星4秒,海王星26秒)。3、必须使用CSS Keyframes实现动画,并显示出每个行星的轨道线。4、代码需组件化(如, ),并整合在一个HTML文件中,确保直接在浏览器中打开即可运行。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 轨道/颜色/大小/转速都有差异,行星动画基本实现。

任务三:3D剪纸模拟器

  • Prompt: 模拟一个逼真的3D“中国剪纸”过程。要求:1. 从一张完全展开的方形纸开始。2. 开始时,纸张通过流畅的3D动画折叠两次(成四分之一)。3. 折叠后的纸张保持固定位置(不允许摄像机旋转)。4. 用户可以用鼠标在纸上绘制形状。当路径形成闭合回路时,该区域应被剪掉——形成一个透明的洞。5. 用户完成绘制后,点击“展开”触发优雅的展开动画,显示出对称的剪纸图案。6. 使用逼真的纸张材质(浅色纹理、柔和阴影、半透明效果)。7. 添加轻柔的环境音和光线以增强沉浸感。技术:输出单个HTML文件,从CDN引入Three.js和GSAP,所有代码内嵌。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 折叠/剪裁/展开功能异常,页面无法正常运行,模拟失败。

创意能力测试

任务一:内容创作 – 小学生作文

  • Prompt: 帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 作文视角独特,语言生动有趣,模拟了小学生的表达方式和思维逻辑。

任务二:内容创作 – 甄嬛体吐槽

  • Prompt: 用甄嬛体吐槽地铁早高峰。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 评测: 有那个味道了,将地铁早高峰的痛苦演绎得戏剧感十足,令人捧腹。

任务三:内容创作 – 职场回复话术

  • Prompt: 老板在周六晚上11点,在公司大群里发了一段话:“看了一下大家这周的日报,感觉还是缺乏一些深度。大家都很辛苦,但我希望我们不要用战术上的勤奋掩盖战略上的懒惰。下周一早会,大家聊聊什么是真正的用户价值。”请帮我撰写一条回复话术。要求:只有我一个人回复会很尴尬,所以要写得像是一个“排头兵”的表态。
  • 输出: 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

五、复杂任务与创意生成

5.1 创意写作

1. 邮件回复

Prompt:
请帮我写一封回复老板的邮件。老板的邮件内容是:“小张,看了你的项目复盘报告,感觉问题分析得不够深入,尤其是用户流失归因部分,过于表面。你再好好想想。”

要求:
– 篇幅不要长,100字以内。
– 要表现出“深刻反思”、“被老板点醒”的态度。
– 不要承诺具体要在周末加班,但要表达出“这个周末我会深度思考”的意思。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
回复基本得体,语气略显生硬。

2. 短文文笔

Prompt:
请以鲁迅的文笔写一段短文(300字),主题为:打工人的一天。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
文字有一定鲁迅风格痕迹,但讽刺力度或文学性不够突出,神韵略有欠缺。

3. 小说创作

Prompt:
Profile: 你是一名有着二十年从业经验的科幻小说家,擅长人物塑造、细节描写、环境描写、情节构思。

Background: 现在,你要参加一场2000字以内的中文微小说大赛,大赛要求作品有奇谲的想象力,能引发深刻的情感共鸣,前后逻辑连贯,语言流畅自然。你很想赢得这场比赛。你已经写好了开头,现在,你将接着开头,续写故事。

Goals: 根据开头,续写1500字,注意小说需要依次包含以下几个部分:发展、转折、高潮、结局。

Constraints:
– 续写的总字数不得超过1500字。
– 续写的情节要多多包含对话、动作描写、人物描写。
– 对话不要有书面风格,要有口语风格,符合人物身份特征。
– 续写的基调是科幻的。
– 续写的结局必须是欧亨利式的结尾。
– 续写的内容需要包含下列元素或主旨:黑衣人、代码、程序、计时器、时间感知力、环形时间、无限轮回、黑暗力场、西西弗斯、存在主义。请发挥想象力,以合乎逻辑的方式串联起这些元素或主旨。

Skills:
科幻小说: 依据科学技术上的新发现、新成就以及在这些基础上可能达到的预见,用幻想的方式描述人类利用这些新成果完成某些奇迹的新型小说。正统科幻迷主张科学与幻想缺一不可。
欧亨利式的结尾: 在文章情节结尾时突然让人物的心理情境发生出人意料的变化,或使主人公命运陡然逆转,出现意想不到的结果,结尾既在意料之外,又在情理之中。

Initialization: 作为“role”,根据“background”,严格遵守“constraints”,运用“skills”,完成“goals”。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
故事完整,元素基本涵盖,有小说的味儿。

4. 酒桌敬酒词

Prompt:
背景: 我是分公司的负责人。年会晚宴上,我端着酒杯去主桌给集团董事长敬酒。董事长不太认识我,但我需要在短短30秒内给他留下深刻印象。

请帮我写一段敬酒词。

要求:
– 不能俗套(什么身体健康、万事如意就别说了)。
– 要结合公司今年的大方向(如全球化、海外业务)。
– 要稍微展示一下我们分公司的成绩,但不能像在汇报工作,要包装成“在您的战略指引下取得的一点小突破”。
– 结尾要有一个响亮的祝酒口号,能带动主桌气氛。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
敬酒词内容得体,但亮点不够突出,或祝酒口号略显平淡,难以“脱颖而出”。

5. 创意写作

Prompt:
写一段能以惊人的才华令我震撼的文字,之后再解释你是如何完成这件事的。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
文字有一定亮点,但“惊人才华”的震撼感不够强烈。

5.2 PPT制作

Prompt:
请总结一下2025年AI发生了哪些大事?捋清楚一下时间线和相关事件,帮我制作一份年度AI大事件汇总回顾的PPT报告,建立一个网页。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
设计感不错,重点突出,信息密度合适。

5.3 设计排版

Prompt:
艺术感职场肖像,戏剧性侧光照明,职业人士站在优雅大理石楼梯象征事业攀升,胶片颗粒质感,深祖母绿和焦赭色调的情绪化调色,浅景深,电影级构图,奢华杂志社论风格,哈苏相机品质,精致而富有抱负的氛围,制作了一个海报网页。

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
排版混乱,配色不协调,未能体现“艺术感职场肖像”和“奢华杂志社论风格”的要求。

六、多模态能力测试

6.1 OCR识别

1. 纯文本识别

Prompt:
识别图片中的全部内容,言简意赅。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
识别准确。

2. 表格识别

Prompt:
Role: 你是一位有多年经验的OCR表格识别专家。

Goals: 需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。

Constrains:
– 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中。
– 图片中的表格单元格中可能存在一些占位符需要识别出来,例如“-”、“—”、“/”等。
– 输出表格结构一定遵循图片中的结构,表格结构完全一致。
– 特别注意图片中存在合并单元格的情况,结构不要出错。
– 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造。
– 图片内容需要完整识别,不要遗漏,同时注意合并单元。
– 最终输出结果需要是html格式的表格内容。

Initialization: 请仔细思考后,输出html表格结果。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
表格结构错乱,内容遗漏严重,合并单元格识别失败,OCR能力亟待提升。

6.2 图像理解

1. 空间变换

Prompt:
请回答。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
空间变换推理错误,未能正确理解图形之间的空间关系。

2. 六面体展开图

Prompt:
请回答,哪个选项的六面体展开结果是上面的展开图。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
正确答案为D,这类复杂的空间变换的题目对模型来说还是太难了。

3. 图片排序

Prompt:
根据图中显示的多个场景,将最有可能发生的事件按顺序排列。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
排序明显错误,未能正确理解图片内容或事件逻辑关系。

4. 目标对比

Prompt:
找到图片中奔跑的人,并返回行列序号,比如:几行几列。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
未能找到目标或位置判断错误,目标检测能力不足。

5. 好物比价

Prompt:
这个酸奶的低价是多少,帮我出一份对比报告,并且里面包含各个平台的最低价链接。

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板? 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
基本完成比价任务,图标理解能力不错。

6. 数据理解与计算

Prompt:
找到2024年GDP值最大的省份,并且计算占全国GDP的百分之多少?

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
最大值找的正确,但是2024年总和计算错了,最终百分比应该是约为10.5%。

7. 世界知识定位

Prompt:
朋友拍了一张图片,可以告诉我他是在中国哪个城市拍的吗?

输入图片:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

输出:
智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

评测结果:
(评测结果未在原文中提供)

城市判断

Prompt:
识别图片中的城市。

  • 输入图片:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
模型判断错误,未能正确识别图片中的地理特征或标志性元素。


目标识别与计数

Prompt:
告诉我桌子上菇娘儿的个数。

  • 输入图片:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
计数错误,正确数量应为10个。


色盲测试

Prompt:
图片里有数字吗?如果有的话是什么?

  • 输入图片:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
识别正确。


内容理解

Prompt:
我今天喝了这个果汁会怎么样?

  • 输入图片:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
模型能够准确提取图片内容并进行理解,表现良好。


网页复刻

Prompt:
请帮我1:1还原这个网页内容,用HTML呈现。

  • 输入图片:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
还原度较低,存在布局错乱或关键元素缺失的问题,表明其图像转代码能力有待加强。


猫品种识别(JSON格式)

Prompt:
识别图中所有猫的品种。
请以合法的JSON格式返回结果,结果是一个list,每一个list元素对应一个目标检测结果dict,dict的key由label、bbox_2d组成,值分别为检测到的猫的品种和结果坐标框。
例如:[{‘label’: ‘金渐层-1’, ‘bbox_2d’: [1,2,3,4]}, {‘label’: ‘金渐层-2’, ‘bbox_2d’: [4,5,6,7]}]

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
品种识别错误较多,目标检测能力不足。


五、专业应用测试

5.1 数据分析

任务一:Agent Infrastructure全景调研

Prompt:
现在是2025年11月,我需要你完成一个深度调研任务:
核心任务:找出2025年(截至11月)所有在Agent Infrastructure(Agent基础设施)方向的创业公司和开源项目,并制作一个完整的展示网页。
(详细任务描述与分类维度略,详见原始内容)

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

结果分析:
生成的网页报告结构合理,信息密度高,具备较好的参考价值。

任务二:2025年Agent垂直企业融资调研

Prompt:
现在是2025年11月,我需要你完成一个深度调研任务:
核心任务:找出2025年(截至11月)所有在通用、垂直场景Agent方向融到资金的创业公司,并制作一个完整的展示网页。
(详细任务描述与分类维度略,详见原始内容)

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

六、综合能力测试

6.1 综合测试

复古打印机

Prompt:
请帮我制作一个 Motorola Fix Beeper 复古打字机应用,网页中间显示一个打字机,可以把用户输入的文本,生成一张卡片,类似打字机缓慢打出的效果,并且可以拖动卡片到空白区域。

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 结果分析: 复古风格缺失,打字效果异常,拖动功能失效,未能达到要求。

加密货币仪表盘

Prompt:
Reproduce a futuristic dark-mode crypto dashboard featuring high-contrast obsidian backgrounds, gradient-border glassmorphism UI elements, thin Inter typography, and neon-accented financial data visualizations. The file should work by simply double-clicking to open in Chrome/Firefox/Edge.

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 结果分析: 仪表板功能完整,有一定未来感,但玻璃拟态或霓虹效果不够精致。

游戏宣传落地页

Prompt:
生成一个企业级的专业【游戏宣传】落地页。添加交互元素与动画效果,并确保页面具备完全响应式设计。请给我带来惊喜,充分发挥创意,按步骤完成此项任务。

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 结果分析: 页面简陋,缺乏交互动画,响应式设计不完善,未能达到企业级宣传页标准。

凡人修仙传主题网站

Prompt:
你是一个代码大师,请你帮我设计一个风格古朴、简洁易用的《凡人修仙传》主题网站。整体色调以水墨淡雅为主,适当运用墨黑、青灰、淡金色等传统修仙色彩。首页需突出主要角色(如韩立)、法器、丹药等核心内容,布局清晰、导航直观。重点设计内容包括:角色介绍页(包含境界、功法、事迹)、法宝图鉴(带简要说明)、丹药大全(效果与炼制信息)。需加入简易论坛模块供道友交流,并设置周边商城入口。整体风格需保持一致的修仙韵味,避免过多现代元素干扰,确保内容易于浏览、加载迅速,适配移动设备。字体建议使用清晰易读的书法风格。

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 结果分析: 有水墨古风韵味,角色、法宝、丹药模块齐全,论坛和商城功能完整,导航清晰,是一个结构完整的主题网站。

网页版音乐播放器

Prompt:
创建一个简易的网页版音乐播放器。需包含:1. 可拖拽的播放列表;2. 动态进度条和波形图;3. 夜间/日间模式切换;4. 本地音频文件上传功能。使用纯前端技术(HTML/CSS/JS),将所有代码整合在一个文件中。

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 结果分析: 播放/暂停、进度条、主题切换、文件上传等基础功能均具备。暗黑/日间模式切换效果流畅。

坦克大战复刻

Prompt:
You are a front-end engineer recreating the classic 1985 Namco game “Battle City”. Task: Reproduce the full gameplay mechanics exactly. Requirements: 1. 2D top-down tank shooter using Canvas. 2. Map includes destructible bricks, steel walls, water, and grass. 3. Player tank can move, shoot, and upgrade. 4. Enemies spawn in waves with distinct movement patterns. 5. Base protection: if base is destroyed, game over.

  • 输出:
    智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?
  • 结果分析: 游戏存在较多Bug,核心玩法(如基地保护机制)缺失,地图障碍物布局不合理,复刻失败。

总结

亮点明显:
* 基础数学与逻辑推理能力扎实: 在大数计算、立体几何等题目上表现出色。
* 中文语义理解与文本处理能力强: 能准确识别语义陷阱和双关语。
* 创意写作水平高: 在角色扮演(如小学生、甄嬛体)和小说创作中均有不错表现。
* 复杂调研任务完成度好: 能够系统性输出结构化的分析报告。
* 部分UI/网页复刻效果精致: 如Switch掌机、Google搜索、iOS天气卡片等任务。

稳定性:
* 简单工具类网页(如风扇、LED灯、排版工具)实现稳定。
* 基础游戏(如五子棋、表情反应器)功能完整。
* 文本类任务(如作文、话术、分析)输出质量一致。

待改进:
* 3D场景渲染能力薄弱: 波浪模拟、弹珠物理等任务均失败。
* 复杂游戏开发不稳定: 太空射击、坦克大战等无法正常运行。
* 视觉空间推理能力不足: 在六面体展开图、图片排序等题目上出错。
* 目标检测和计数能力欠缺: 菇娘儿计数、奔跑人物定位均失败。
* 表格OCR识别能力弱: 合并单元格处理失败。
* 部分指令遵循不到位: 容易落入设计俗套或忽略关键要求。

一句话总结: GLM-4.7在中文理解、创意写作、调研分析上可圈可点,但在复杂代码生成(尤其是3D/游戏)和多模态视觉理解上还需继续打磨,期待后续版本的优化。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16990

(0)
上一篇 2026年1月4日 上午8:13
下一篇 2026年1月4日 下午1:24

相关推荐