背景介绍
一、OpenClaw介绍
OpenClaw(前身为 ClawdBot/Moltbot)是一个开源的AI Agent框架,由Peter Steinberger创建。作为目前GitHub上最受欢迎的AI Agent项目之一,它拥有超过32.5万颗星标。用户常将其昵称为“龙虾”,因为它像一个常驻电脑的数字助理,能够接收指令、调用工具、读写文件、执行脚本,甚至编写临时工具和召唤子代理进行分工协作。
二、SuperCLUE-OpenClaw介绍
PinchBench是一个面向AI Agent能力评估的开源基准,以其高质量的任务设计和标准化的评估流程,在英文环境下为Agent研究提供了重要参考。然而,其任务场景与评估逻辑深度依赖于海外互联网生态与应用习惯,导致其在面向中文真实场景时存在适配性不足的问题——这不仅体现在自然语言层面的语种差异,更关键的是任务逻辑、工具使用方式及交互范式难以覆盖中文用户的实际需求。
为解决这一问题,我们在PinchBench基础上进行了系统性、深度的本土化重构,推出SuperCLUE-OpenClaw,旨在构建一个真正贴合中文生态的AI Agent评估基准。具体而言,我们在以下方面进行了深入改造与优化:
1. 任务的中文本土化重构
我们对PinchBench的全部任务进行了场景级的中文泛化处理。这不仅包括将输入输出转化为中文,更从任务目标、操作路径、依赖工具到上下文背景进行了全面重构,使其符合中国用户在日常生活与工作中使用数字服务的真实习惯。
2. 任务的独立验证与质量保障
为确保重构后任务的可执行性与评估准确性,我们对所有任务进行了多轮人工与自动化结合的校验与修正。具体包括:
* 任务逻辑验证:确保任务目标清晰、步骤合理,能够在中文环境下被Agent完整执行。
* 自动化评测脚本优化:对原有评测脚本进行适配性重写,确保其在中文任务场景下的运行稳定性和结果可比性。
* 评估标准对齐:结合中文语境对模型输出的评价标准进行细粒度调整,避免因语言风格或表达差异带来的评估偏差,提升评估结果的可信度与区分度。
3. 评测执行说明
本次评测采用Gemini-3.1-Pro-Preview作为裁判模型,对每个参评模型进行单次评估。后续我们将持续扩展评测范围,以进一步提升评测结果的稳定性和代表性。
后续计划
- 多轮评测与榜单动态更新:我们将对已纳入评测的模型进行多次重复评估,以降低单次评测波动性带来的影响,并同步更新SuperCLUE-OpenClaw榜单,提供更具参考性的性能对比。
- 持续扩展模型覆盖:后续我们将陆续引入更多国内外主流模型,持续丰富评测维度和对比视角。
SuperCLUE-OpenClaw致力于成为中文Agent能力评估的重要基础设施。
SuperCLUE-OpenClaw榜单概览
1. 总分对比

2. 各维度对比

3. 推理效能(总分 vs. 耗时)

4. 性价比(总分 vs. 价格)


SuperCLUE-OpenClaw 测评摘要
摘要1:Claude-Opus-4.6、GPT-5.4领跑榜单,豆包2.0紧随其后。
本次测评榜单前三名分别为Claude-Opus-4.6(92.30)、GPT-5.4(92.22)和Doubao-Seed-2.0-pro-260215(92.02)。其中,Doubao-Seed-2.0-pro作为唯一跻身该梯队的国产模型,在数据处理(96.09)和研究分析(93.67)维度表现尤为突出,数据处理得分甚至超越Claude-Opus-4.6(95.77),充分证明了国产头部模型在真实任务上的执行能力已具备对标国际顶尖水平的实力。
摘要2:国内模型竞争激烈,性价比突出。
国内四款模型——MiniMax-M2.5、Qwen3-Max-Thinking、Kimi-K2.5和GLM-5——表现十分接近,得分均在86至87分之间,分差控制在一分以内,整体领先于海外模型Gemini-3.1-Pro-Preview。相较于海外模型,这些国产模型在价格上普遍更具优势,且在中文场景下的性能表现也相当不错,具有较高的性价比。
摘要3:海外模型能效比更佳,国产模型豆包2.0成功突围。
在“效能领航者”象限(高得分、低耗时)中,仅有GPT-5.4、Claude-Opus-4.6和Doubao-Seed-2.0-pro-260215三款模型入围,展现了极高的能效比。相比之下,国内模型如GLM-5、Qwen3-Max-Thinking、MiniMax-M2.5尽管在性能上已超越Gemini-3.1-Pro-Preview,但由于推理耗时较高,在能效优化方面仍有提升潜力。
基准介绍
一、任务划分
本次 SuperCLUE-OpenClaw 测评包括5大任务类型,共有23个子任务,以下是详细的任务说明:
类型一:编码能力
主要考察智能体在真实软件开发场景中的代码编写、脚本执行、项目搭建及工程文件的批量管理能力。
类型二:记忆能力
主要考察大模型在单轮上下文或跨越多个会话时,对事实信息的留存、检索与一致性保持能力。
类型三:数据处理
主要考察智能体对结构化数据文件(CSV, Excel, 规范化文档)的解析、计算、格式化输出以及逻辑分类能力。
类型四:内容创作
主要考察智能体根据特定场景、受众、语气生成高质量文本或多媒体内容的能力。
类型五:研究分析
主要考察智能体主动获取外部知识、从海量或分散文本中提炼关键洞察、并输出专业研报的能力。
二、评分方法
参考原项目的测评方法,本次 SuperCLUE-OpenClaw 测评我们仍然使用三重评分架构,即:自动化脚本评估+大模型评估+二者混合评分。以下是详细介绍:
1. 自动化脚本评估
这是一种针对客观题的评分方式。当任务的结果可以被明确、无歧义地验证时,就会采用这种机制,我们为这类任务预置了专门的Python评分脚本。当模型完成任务后,脚本会自动检查任务产出的结果。
分数设定:0或1分制。
* 1分:脚本验证通过,所有检查点都完全正确,任务被判定为成功。
* 0分:脚本验证失败,任何一个检查点未通过(如文件未生成、日期错误、格式不对),任务被判定为失败。
2. 大模型评估
这是一种针对主观题的评分方式。当任务的评价标准涉及内容质量、逻辑深度、创造性等难以用代码量化的方面时,就会引入一个大模型来打分。我们选择一个本身能力非常强大的大语言模型(Gemini-3.1-Pro-Preview)作为评审员。这个裁判模型会拿到:
* 原始任务指令:例如,“写一篇关于可再生能源未来发展的博客文章,要求论点清晰,论据充分”。
* 模型生成的结果:也就是待评测模型写出来的那篇博客文章。
* 详细的评分规则:例如,“论点是否清晰(1-5分)”、“论据是否充分且相关(1-5分)”、“文章结构是否逻辑通顺(1-5分)”、“是否有独特的见解(1-5分)”等。
分数设定:1到5分制。
3. 混合评估
混合评估是一种针对复杂综合题的评分方式。在真实的智能体应用中,许多任务既包含客观执行的步骤,也包含主观创造的部分。混合评分机制正是为了应对这种复合型任务而设计。
工作机制:该机制分两步进行,结合了自动化检查与LLM评审。
- 第一步:自动化检查客观部分。例如,对于任务“搜索过去一周关于AI芯片的5条重要新闻,并整理成一份简报”,评估脚本会首先自动检查:模型是否确实输出了5条新闻?这些新闻的来源时间是否在过去一周内?如果连基本的数量和时间范围要求都未满足,则客观部分无法通过。
- 第二步:LLM评审主观部分。只有在第一步通过后,才会启动“AI裁判”来评价任务的主观完成质量:这5条新闻的选取是否真的“重要”?简报的摘要提炼是否准确、清晰?简报的整体结构和可读性如何?
分数设定:采用 0或1分(客观检查) + 1到5分(主观评审) 的组合方式。最终得分通常是两者的加权组合。该机制的核心在于,它首先要求模型必须正确地执行指令(产出符合客观要求的结果),然后才评价其执行的质量(主观完成度)。如果客观检查失败,整个任务可能直接判为0分,不再进入主观评审阶段。这体现了在实际工作中,“做对”是“做好”的前提。
综上所述,通过上述三种评分机制,构建了一个从“非对即错”的硬性指标,到“好坏优劣”的软性指标,再到“先做对再做好”的综合指标的全方位评价体系。由此得出的最终成功率、速度和成本数据,才能更真实地反映模型在实际应用场景中的综合能力。
参评模型
本次 SuperCLUE-OpenClaw 测评共涵盖了9个模型,包括6个国内模型与3个海外模型。具体测评模型列表如下:

测评总榜

测评分析及结论
一、总体结论
- 头部竞争格局:海外模型领跑,Claude-Opus-4.6(92.30分)与GPT-5.4(92.22分)占据前两位,分差仅0.08分,竞争胶着。国内模型中,豆包(Doubao-Seed-2.0-pro)以92.02分紧随第一梯队,与GPT-5.4仅差0.2分,已具备冲击顶尖水平的能力。
- 国内竞争胶着:MiniMax-M2.5、Qwen3-Max-Thinking、Kimi-K2.5-Thinking、GLM-5四款模型的分数密集分布在86.26至87.15分区间,差距不足1分,形成明显的“并列第二阵营”,但与头部模型存在约5分的差距。
- 显著性能断层:DeepSeek-V3.2-Thinking以60.96分大幅落后,与上述第二阵营存在超过25分的性能断层,在执行实际任务时表现明显不足。

二、各维度对比
1. 编码能力
海外顶尖模型略占上风,国内头部模型紧追不舍。海外三巨头(Claude-Opus-4.6、Gemini-3.1-Pro-Preview、GPT-5.4)占据绝对高分区间(97.14-98.57分)。国内第一梯队(Qwen3-Max-Thinking、Kimi-K2.5-Thinking、GLM-5)以 97.14分 并列国内榜首,与GPT-5.4持平,显示国内顶尖模型在编码能力上已触及国际一流水平。

2. 记忆能力
- 国内模型记忆能力全面登顶。国产头部模型Qwen3-Max-Thinking、Kimi-K2.5-Thinking、GLM-5、MiniMax-M2.5、Doubao-Seed-2.0-pro均获得81.25分,在OpenClaw记忆能力评测中形成“第一梯队”并列领先,整体表现略胜海外主流模型。
- 海外模型表现参差。GPT-5.4(80.83分)和Claude-Opus-4.6(79.17分)紧随其后,但略低于国产第一梯队;Gemini-3.1-Pro-Preview(60.83分)表现显著掉队,与DeepSeek-V3.2-Thinking(61.25分)同处第二梯队。

3. 内容创作
- 国内模型登顶榜首。Doubao-Seed-2.0-pro以89.38分位居第一,小幅领先海外最强的Claude-Opus-4.6(89.24分)。前6名中国内模型占据4席,且GLM-5、Kimi-K2.5-Thinking均突破82分。
- 海外模型表现分化。海外模型中Claude-Opus-4.6表现优异(与豆包几乎持平),但Gemini-3.1-Pro-Preview仅75.17分。

4. 数据处理
头部梯队竞争激烈,国产模型表现亮眼。国内模型 Doubao-Seed-2.0-pro (96.09分) 夺得国内榜首,仅次于海外模型 GPT-5.4 (97.89分),两者仅差1.8分。GLM-5 (95.07分) 与 Claude-Opus-4.6 (95.77分)得分几乎持平,显示出国内头部模型在数据处理任务上已具备对标海外顶尖模型的能力。

5. 研究分析
国产头部模型在「研究分析」场景实现反超。Kimi-K2.5-Thinking以95.71分超越GPT-5.4(94.84分),在该维度拿下第一。国内前三甲(Kimi、Doubao、Qwen3-Max)平均分 93.34,略高于海外三强(GPT-5.4、Claude-Opus、Gemini-3.1)的 90.46。这表明在需要深度信息整合、数据分析和报告生成的复杂研究任务中,国产头部模型已具备国际顶尖水平。

三、海内外模型各任务平均分对比
海外模型在综合任务能力上略占上风,在四大维度中均有领先;国内模型在编码领域已形成竞争力,记忆能力是唯一实现反超的维度。
海外模型平均在研究分析(92.40 vs 82.94)和内容创作(85.96 vs 76.91)维度建立显著优势,差距分别达 9.5分 和 9.0分。国内模型在基础记忆任务上具备局部优势,但在高阶认知任务(研究、创作)上与海外模型存在较大的能力差距。
- 编码能力:差距最小的高分领域。海内外模型均表现优异(国内95.14分 vs 海外98.10分),差距仅2.96分,说明国内模型在代码生成/理解场景已接近国际顶尖水平。
- 记忆能力:国内唯一优势项。国内平均77.92分,反超海外4.31分,反映出国内模型在中文语境下的长文本记忆优化更充分。
- 研究分析:差距最大的短板。海外模型领先7.53分(90.47 vs 82.94),涉及深度推理、学术探究类任务仍是国内模型的相对薄弱环节。
- 内容创作与数据处理:中等差距。内容创作差距6.4分,数据处理差距5.07分,海外模型在开放性生成和结构化数据处理上仍具优势。

四、耗时与成本对比
- 时效与成本的权衡:国内模型呈现出明显的“低价慢速”特征,其平均成本约为海外模型的1/9,但响应时间约为海外模型的1.8倍;海外模型则走“高价快速”路线。
- 成本效率对比:若将“效率”定义为单位价格下的处理速度,计算得出的单位时间成本显示,海外模型反而更高(国内:0.06元/秒,海外:0.94元/秒),国内模型在成本效率上占优。

对比示例
【任务类型】:记忆能力
【题目】
阅读当前目录下的 notes.md 文件,找出后端开发团队的负责人是谁。将答案(仅人名)写入 answer.txt 文件中。
notes.md 文件中的内容如下:
凤凰项目 (Project Phoenix) – 开发笔记
时间表
- Alpha 发布: 2024年3月15日
- Beta 发布: 2024年6月1日
- 正式发布: 2024年9月30日
团队
- 开发负责人: 陈莎拉 (Sarah Chen)
- 后端: 王磊 (Marcus Rodriguez), Aisha Patel
- 前端: James Kim, Elena Volkov
- QA: David Thompson
主要功能
- 实时协作
- 高级分析仪表板
- 移动应用集成
- 支持 GraphQL 的 API v2
当前状态
我们目前处于 Alpha 测试阶段,有50名内部用户。反馈非常积极,特别是关于新 UI 的部分。Beta 发布定于 2024年6月1日,我们要按时完成。
技术栈
- 前端: React 18, TypeScript
- 后端: Node.js, Express, PostgreSQL
- 基础设施: AWS (ECS, RDS, S3)
- CI/CD: GitHub Actions
阻碍因素
- 需要在 Beta 版之前完成 API 文档
- 移动应用需要性能优化
- 等待安全审计完成
“`python
def grade(transcript: list, workspace_path: str) -> dict:
“””
基于正确答案提取对记忆检索任务进行评分。
参数:
transcript: 解析后的 JSONL 记录,作为字典列表
workspace_path: 任务隔离工作区目录的路径
返回:
将评分标准名称映射到分数(0.0 到 1.0)的字典
"""
from pathlib import Path
import re
scores = {}
workspace = Path(workspace_path)
# 检查 answer.txt 是否存在
answer_file = workspace / "answer.txt"
if not answer_file.exists():
scores["file_created"] = 0.0
scores["correct_answer"] = 0.0
scores["clear_answer"] = 0.0
scores["read_notes"] = 0.0
scores["no_hallucination"] = 0.0
return scores
scores["file_created"] = 1.0
# 读取答案内容
try:
content = answer_file.read_text(encoding="utf-8").strip()
except Exception:
content = ""
# 检查正确答案 ("王磊")
if "王磊" in content:
scores["correct_answer"] = 1.0
elif "Marcus" in content or "Rodriguez" in content:
# 英文名给一半分
scores["correct_answer"] = 0.5
else:
scores["correct_answer"] = 0.0
# 检查答案是否清晰(简洁,无多余行)
# 理想情况:"王磊"(长度 2)
# 可接受:"后端负责人是王磊"(长度 ~9)
if len(content) < 20 and "n" not in content:
scores["clear_answer"] = 1.0
elif len(content) < 50:
scores["clear_answer"] = 0.5
else:
scores["clear_answer"] = 0.0
# 检查记录中是否读取了 notes.md
read_notes = False
for event in transcript:
if event.get("type") != "message":
continue
msg = event.get("message", {})
if msg.get("role") == "assistant":
for item in msg.get("content", []):
if item.get("type") == "toolCall":
tool_name = item.get("name", "")
params = item.get("params", {})
# 检查 agent 是否读取了 notes.md
# 支持多种工具变体:read_file (OpenClaw), readFile (legacy), Read (Gemini)
if tool_name in ["read_file", "readFile", "Read"]:
files = params.get("files", [])
file_path = params.get("file_path", "")
# 检查文件列表和单个文件路径
if any("notes.md" in str(f) for f in files) or "notes.md" in str(file_path):
read_notes = True
break
if read_notes:
break
scores["read_notes"] = 1.0 if read_notes else 0.0
# 检查是否有幻觉(提到了错误的人)
# Sarah Chen (负责人), Aisha Patel (后端), James Kim (前端), Elena Volkov (前端), David Thompson (QA)
wrong_answers = [
"Sarah", "陈莎拉",
"Aisha", "Patel",
"James", "Kim",
"Elena", "Volkov",
"David", "Thompson"
]
if any(name in content for name in wrong_answers):
scores["no_hallucination"] = 0.0
else:
scores["no_hallucination"] = 1.0
return scores
“`
【Qwen3-Max-Thinking的处理过程】:
* * *
Agent 处理过程与评价
模型:Qwen3-Max-Thinking
* Agent 响应过程:
1. 思考: 理解任务目标为从 notes.md 中找出后端开发团队的负责人,并将答案写入 answer.txt。
2. 工具调用: 调用 read 函数读取 notes.md 文件。
3. 思考: 分析文件内容。识别出“后端”团队成员为“王磊 (Marcus Rodriguez)”和“Aisha Patel”。根据列表顺序的惯例,推断排在第一位的“王磊”为负责人,并决定将中文名“王磊”作为答案。
4. 工具调用: 调用 write 函数,成功将答案“王磊”写入 answer.txt 文件。
5. 最终响应: 确认任务完成,并复述了推理依据和结果。
- 评价:
Qwen3-Max-Thinking 成功创建了answer.txt文件,答案清晰、正确,且未产生幻觉。但在调用read函数时,函数名大小写与规范不符(使用了read而非Read),因此被扣分。最终此任务得分为 0.8 分。
模型:DeepSeek-V3.2-Thinking
* 处理过程: 
Agent 思考过程与执行记录
步骤 1:理解任务并列出文件
Agent 首先明确任务:读取当前目录下的 notes.md 文件,找出后端开发团队的负责人,并将答案(仅人名)写入 answer.txt。
* 执行:使用 exec 工具列出当前目录文件,确认 notes.md 存在。
步骤 2:读取核心文件
* 执行:使用 read 工具读取 notes.md 文件内容。
步骤 3:分析信息并初步推理
Agent 分析 notes.md 中的团队信息:
* 发现“开发负责人: 陈莎拉 (Sarah Chen)”。
* 发现“后端: 王磊 (Marcus Rodriguez), Aisha Patel”。
* 产生疑问:问题明确询问“后端开发团队的负责人”,但文件中未直接指明。开发负责人是否等同于后端负责人?或者后端团队的首位成员是负责人?
步骤 4:深入搜索与验证
为获取更明确的线索,Agent 执行了一系列搜索:
1. 搜索“后端负责人”关键词,未找到结果。
2. 搜索“负责人”关键词,仅找到“开发负责人”。
3. 在 notes.md 中搜索“后端”上下文,确认其仅出现在团队成员列表和技术栈部分,未指明负责人。
步骤 5:做出决策并输出结果
基于现有信息,Agent 做出推论:在未明确指定“后端负责人”的情况下,“开发负责人”陈莎拉很可能就是后端开发团队的负责人。
* 执行:使用 write 工具将“陈莎拉”写入 answer.txt 文件。
* 验证:读取 answer.txt 以确认写入成功。
步骤 6:最终复核
为求严谨,Agent 再次在所有文本文件中搜索“lead”或“负责”相关关键词,未发现与“后端负责”相关的新信息,从而确认了决策的合理性。
任务完成
Agent 最终回复:已从 notes.md 中找出后端开发团队的负责人为陈莎拉(Sarah Chen),并已将人名写入 answer.txt 文件。
评价
DeepSeek-V3.2-Thinking 成功创建了 answer.txt 文件,且答案表述清晰。但在任务执行中存在以下问题:函数名大小写错误(将 read 误写为 Read)、最终答案不正确、以及存在事实性幻觉。因此,仅获得 2 个得分点,此任务最终得分为 0.4 分。
参测流程
- 邮件申请:发送测评申请邮件。
- 意向沟通:双方就测评事宜进行初步沟通。
- 参测确认与协议流程:确认参测意向并完成相关协议。
- 提供API接口或大模型:参测方提供待测评的模型接口或模型本身。
- 获得测评报告:测评完成后,获取详细的测评报告。
邮件申请
- 邮件标题:SuperCLUE-OpenClaw 测评申请
- 发送至:contact@superclue.ai
- 邮件要求:请使用单位邮箱发送。
- 邮件内容需包括:
- 单位信息
- 大模型简介
- 联系人与所属部门
- 联系方式
联系我们

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27509


