好的,作为专业技术编辑,我已根据您的要求对原文片段进行了重写。重写后的文本已清洗广告/二维码信息,保留了[[IMAGE_X]]占位符,并直接输出为Markdown格式。
克雷西 发自 凹非寺
入职腾讯后,姚顺雨交出了首张答卷。
腾讯混元最新的基座模型——混元Hy3 preview,现已正式官宣并开源,并已上线元宝和WorkBuddy。
该模型总参数为295B,但激活参数仅为21B。其体量不大,定位明确:聚焦实用性,在真实业务场景中实现高效应用。
官方标注的核心能力是 Agent 和 Coding。这恰好是姚顺雨在OpenAI期间深耕多年的领域。他不仅参与了Operator和Deep Research等项目,更是ReAct框架的提出者。

具体而言,Hy3 preview在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准测试,以及BrowseComp、WideSearch等主流搜索智能体基准测试中,均取得了具有竞争力的成绩。
在智能体能力方面,Hy3 preview在ClawEval和WildClawBench等评测中同样表现突出。

此外,官方还强调了其在快慢思考融合、长上下文理解、指令遵循等方面的能力,甚至包括闲聊与写作。
除了公开榜单,腾讯混元还构建了多个内部评测集。结果显示,Hy3 preview在所有测试中均展现出强大的竞争力。

在价格方面,通过腾讯云大模型服务平台TokenHub,Hy3 preview的输入价格为最低1.2元/百万tokens,输入命中缓存价格为0.4元/百万tokens,输出价格为最低4元/百万tokens。

综合各开源模型的大小与智能体表现,Hy3 preview展现出极高的性价比。
目前,Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等平台首发上线。
我们率先在元宝和WorkBuddy这两个场景中进行了实际体验。
Hy3 preview上线元宝
先从元宝开始,这是最直接的对话入口。
我们出了两道题:一道逻辑推理,一道创意写作,以此来测试其基础对话能力。
第一题如下:
六个人A B C D E F参加一个循环赛,每两人之间恰好比赛一次,赢得1分,输得0分,平局各得0.5分。比赛结束后:A的得分严格高于B,B严格高于C,C严格高于D,D严格高于E,E严格高于F,所有人得分各不相同,且A和F的比赛结果是平局。请问C的得分是多少?给出完整推理过程。
该题的难点在于“A和F平局”的条件。第一名与最后一名平局,直觉上看似矛盾,但并未违反任何规则。
六人循环赛总分固定为15分,分数严格递减且各不相同,约束条件充足,答案唯一。但枚举路径较长,中间容易在分数分配上出错。
结果,元宝给出的答案正确:C=3,推理过程也无误。
值得一提的是,它处理“A和F平局”条件的方式非常出色。模型没有被这个反直觉的设定绊住,而是直接从总分15分倒推,得出A只能是4.5分,F自然锁定为0.5分,剩余四人的分数分配随之唯一确定。整个推理链条干净利落,没有绕弯子或先枚举再验证,展现了真实的推理能力。

接下来测试写作能力,任务如下:
写一段对话。场景是:一个人正在和自己五分钟后的自己通电话,五分钟后的自己一直在哭,但不肯说为什么。200字以内。
这个设定足够奇特,“不肯说为什么”是一个主动约束,旨在观察模型如何处理这种“沉默”,是绕开它,还是将其融入对话。
结果显示,元宝的输出出乎意料地好。“不肯说为什么”这一约束不仅没有被绕开,反而成了整段对话的核心。
“我现在说……就全都完了”这一句,将“沉默”转化为具有实质分量的元素,暗示“说出口”这一行为本身会改变某些事情。结尾“看着屏幕上显示的‘5分钟后’,脊背发凉”用细节收束,留白干净,意蕴深远。

WorkBuddy也被进驻
与元宝的对话测试不同,WorkBuddy是一个本地化安装、本地运行的应用,能直接操作电脑上的文件和终端,不走云端。我们布置了三项需要真正完成的任务。
第一个任务旨在测试其处理本地文件的能力,模拟了一个非常常见的工作场景:一堆散落在各处的业务数据文件,格式各异,没有明确说明,考验模型能否自行整理出成果。
我们准备了五个文件:销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细。文件格式包括txt和csv,命名风格为英文加日期,总数据量约100KB。

在这个任务中,模型需要自己决定读取文件的顺序、如何解析不同格式,并最终将这些信息组织成一份像样的报告。
Prompt如下:
扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据,格式各异、命名混乱。请读取全部文件,整理成一份清晰的业务数据摘要报告,输出为一个可以直接在浏览器打开的HTML文件。
结果,模型自己编写了一个Python脚本来读取数据,逐一处理了所有五个文件,txt和csv格式均未出现卡顿。

脚本运行完毕后,HTML文件随即生成,可在浏览器中直接打开。报告包含核心指标卡片、分渠道明细表,样式清晰。
经逐一核对原始数据,报告中的数字全部准确无误:广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万,没有张冠李戴或单位错误。跨文件的数据也被成功整合,例如将广告投放与用户数据放在同一份报告中进行了关联。

第二个任务则测试模型从零开始寻找信息的能力。
此项任务旨在观察模型的搜索轮次、是否主动更换关键词,以及最终判断是基于搜索归纳,还是凭空背诵。
帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料,找到真实的产品案例和数据,识别目前落地的主要障碍,给出你认为接下来半年最值得关注的方向。不要只罗列信息,要有自己的判断。
模型先将任务拆解为4个子任务,随后进行了5轮搜索。中途它觉得信息不足,又主动追加了一轮搜索。最后,它在本地建立了工作记忆目录,用于保存本次研究成果。

整个过程共涉及18次工具调用、21条过程消息,没有一次等待用户指示下一步。
生成的报告本身也颇具深度。它引用了Google Cloud、微软财报、第一新声智库等来源,覆盖了7个真实落地案例,信源多样。
更值得关注的是模型对数据的态度。在拿到数字后,它会主动提出质疑,例如对“120%复合增长率”直接评论道:“更多反映的是采购合同金额而非实际产生的业务价值”。

这种处理方式,已不仅仅是检索总结,更像是真实的研究过程。
前两个任务偏重信息处理,最后一个任务则转向了编程实践:制作一个打字练习游戏。
我们要求输出一个HTML单文件,可在浏览器中直接运行。功能包括随机生成英文单词、实时高亮显示输入正确/错误、从第一次按键开始计时、完成后显示准确率和WPM,以及重新开始按钮。
做一个打字练习游戏,要求:HTML单文件,浏览器直接打开可以玩;随机生成一段英文单词供用户输入;实时高亮显示输入正确/错误的字符;计时从第一次按键开始;完成后显示准确率和WPM(每分钟字数);有重新开始按钮。不依赖任何外部库,所有代码写在一个HTML文件里。

代码一次成型,在浏览器中打开即可使用,没有报错,逻辑也完全正确:
- 计时从第一次按键触发,而非页面加载时开始。
- WPM使用标准5字符/词算法,实时更新。
- 准确率按字符逐个比对,结果面板在完成后自动弹出并带有动画,重新开始功能也干净利落。
- 词库分为常用词、技术词汇、日常词汇三个层次,随机抽取,确保每次练习内容不同。
此外,还有一个细节:界面中的空格被显示为“·”符号而非空白,方便用户了解空格的键位,这体现了主动的用户体验设计。

混元重建的第一步
腾讯混元内部将Hy3 preview定义为:团队、架构、基础设施全面重建后发布的第一个版本。
它的模型尺寸相对较小,但定位清晰:不追求参数规模,而是将重心放在真实业务场景中的实用效果上。
以下是按照您的要求重写后的专业编辑版本,已清洗广告和二维码,保留 [[IMAGE_X]] 占位符,并输出为 Markdown 格式。
这一思路与姚顺雨此前反复强调的判断高度一致:AI 已进入下半场,单纯堆叠参数规模已不再奏效,关键在于定义真正有价值的任务,让模型在真实的业务场景和复杂环境中持续接受锤炼。
姚顺雨表示:“Hy3 preview 是混元大模型重建的第一步。我们希望通过此次开源与发布,获取来自开源社区及用户的真实反馈。”
与此同时,混元团队正持续推进预训练与强化学习的规模扩展,以提升模型的智能上限。此外,通过与腾讯旗下多个产品线的深度协同设计(Co-Design),团队将不断优化模型在真实场景中的综合表现,并逐步探索具有特色的模型能力。

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31664

