入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

好的，作为专业技术编辑，我已根据您的要求对原文片段进行了重写。重写后的文本已清洗广告/二维码信息，保留了[[IMAGE_X]]占位符，并直接输出为Markdown格式。

克雷西发自凹非寺

入职腾讯后，姚顺雨交出了首张答卷。

腾讯混元最新的基座模型——混元Hy3 preview，现已正式官宣并开源，并已上线元宝和WorkBuddy。

该模型总参数为295B，但激活参数仅为21B。其体量不大，定位明确：聚焦实用性，在真实业务场景中实现高效应用。

官方标注的核心能力是 Agent 和 Coding。这恰好是姚顺雨在OpenAI期间深耕多年的领域。他不仅参与了Operator和Deep Research等项目，更是ReAct框架的提出者。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

具体而言，Hy3 preview在SWE-Bench Verified、Terminal-Bench 2.0等主流代码智能体基准测试，以及BrowseComp、WideSearch等主流搜索智能体基准测试中，均取得了具有竞争力的成绩。

在智能体能力方面，Hy3 preview在ClawEval和WildClawBench等评测中同样表现突出。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

此外，官方还强调了其在快慢思考融合、长上下文理解、指令遵循等方面的能力，甚至包括闲聊与写作。

除了公开榜单，腾讯混元还构建了多个内部评测集。结果显示，Hy3 preview在所有测试中均展现出强大的竞争力。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

在价格方面，通过腾讯云大模型服务平台TokenHub，Hy3 preview的输入价格为最低1.2元/百万tokens，输入命中缓存价格为0.4元/百万tokens，输出价格为最低4元/百万tokens。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

综合各开源模型的大小与智能体表现，Hy3 preview展现出极高的性价比。

目前，Hy3 preview已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等平台首发上线。

我们率先在元宝和WorkBuddy这两个场景中进行了实际体验。

Hy3 preview上线元宝

先从元宝开始，这是最直接的对话入口。

我们出了两道题：一道逻辑推理，一道创意写作，以此来测试其基础对话能力。

第一题如下：

六个人A B C D E F参加一个循环赛，每两人之间恰好比赛一次，赢得1分，输得0分，平局各得0.5分。比赛结束后：A的得分严格高于B，B严格高于C，C严格高于D，D严格高于E，E严格高于F，所有人得分各不相同，且A和F的比赛结果是平局。请问C的得分是多少？给出完整推理过程。

该题的难点在于“A和F平局”的条件。第一名与最后一名平局，直觉上看似矛盾，但并未违反任何规则。

六人循环赛总分固定为15分，分数严格递减且各不相同，约束条件充足，答案唯一。但枚举路径较长，中间容易在分数分配上出错。

结果，元宝给出的答案正确：C=3，推理过程也无误。

值得一提的是，它处理“A和F平局”条件的方式非常出色。模型没有被这个反直觉的设定绊住，而是直接从总分15分倒推，得出A只能是4.5分，F自然锁定为0.5分，剩余四人的分数分配随之唯一确定。整个推理链条干净利落，没有绕弯子或先枚举再验证，展现了真实的推理能力。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

接下来测试写作能力，任务如下：

写一段对话。场景是：一个人正在和自己五分钟后的自己通电话，五分钟后的自己一直在哭，但不肯说为什么。200字以内。

这个设定足够奇特，“不肯说为什么”是一个主动约束，旨在观察模型如何处理这种“沉默”，是绕开它，还是将其融入对话。

结果显示，元宝的输出出乎意料地好。“不肯说为什么”这一约束不仅没有被绕开，反而成了整段对话的核心。

“我现在说……就全都完了”这一句，将“沉默”转化为具有实质分量的元素，暗示“说出口”这一行为本身会改变某些事情。结尾“看着屏幕上显示的‘5分钟后’，脊背发凉”用细节收束，留白干净，意蕴深远。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

WorkBuddy也被进驻

与元宝的对话测试不同，WorkBuddy是一个本地化安装、本地运行的应用，能直接操作电脑上的文件和终端，不走云端。我们布置了三项需要真正完成的任务。

第一个任务旨在测试其处理本地文件的能力，模拟了一个非常常见的工作场景：一堆散落在各处的业务数据文件，格式各异，没有明确说明，考验模型能否自行整理出成果。

我们准备了五个文件：销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细。文件格式包括txt和csv，命名风格为英文加日期，总数据量约100KB。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

在这个任务中，模型需要自己决定读取文件的顺序、如何解析不同格式，并最终将这些信息组织成一份像样的报告。

Prompt如下：

扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据，格式各异、命名混乱。请读取全部文件，整理成一份清晰的业务数据摘要报告，输出为一个可以直接在浏览器打开的HTML文件。

结果，模型自己编写了一个Python脚本来读取数据，逐一处理了所有五个文件，txt和csv格式均未出现卡顿。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

脚本运行完毕后，HTML文件随即生成，可在浏览器中直接打开。报告包含核心指标卡片、分渠道明细表，样式清晰。

经逐一核对原始数据，报告中的数字全部准确无误：广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万，没有张冠李戴或单位错误。跨文件的数据也被成功整合，例如将广告投放与用户数据放在同一份报告中进行了关联。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

第二个任务则测试模型从零开始寻找信息的能力。

此项任务旨在观察模型的搜索轮次、是否主动更换关键词，以及最终判断是基于搜索归纳，还是凭空背诵。

帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料，找到真实的产品案例和数据，识别目前落地的主要障碍，给出你认为接下来半年最值得关注的方向。不要只罗列信息，要有自己的判断。

模型先将任务拆解为4个子任务，随后进行了5轮搜索。中途它觉得信息不足，又主动追加了一轮搜索。最后，它在本地建立了工作记忆目录，用于保存本次研究成果。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

整个过程共涉及18次工具调用、21条过程消息，没有一次等待用户指示下一步。

生成的报告本身也颇具深度。它引用了Google Cloud、微软财报、第一新声智库等来源，覆盖了7个真实落地案例，信源多样。

更值得关注的是模型对数据的态度。在拿到数字后，它会主动提出质疑，例如对“120%复合增长率”直接评论道：“更多反映的是采购合同金额而非实际产生的业务价值”。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

这种处理方式，已不仅仅是检索总结，更像是真实的研究过程。

前两个任务偏重信息处理，最后一个任务则转向了编程实践：制作一个打字练习游戏。

我们要求输出一个HTML单文件，可在浏览器中直接运行。功能包括随机生成英文单词、实时高亮显示输入正确/错误、从第一次按键开始计时、完成后显示准确率和WPM，以及重新开始按钮。

做一个打字练习游戏，要求：HTML单文件，浏览器直接打开可以玩；随机生成一段英文单词供用户输入；实时高亮显示输入正确/错误的字符；计时从第一次按键开始；完成后显示准确率和WPM（每分钟字数）；有重新开始按钮。不依赖任何外部库，所有代码写在一个HTML文件里。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

代码一次成型，在浏览器中打开即可使用，没有报错，逻辑也完全正确：

计时从第一次按键触发，而非页面加载时开始。
WPM使用标准5字符/词算法，实时更新。
准确率按字符逐个比对，结果面板在完成后自动弹出并带有动画，重新开始功能也干净利落。
词库分为常用词、技术词汇、日常词汇三个层次，随机抽取，确保每次练习内容不同。

此外，还有一个细节：界面中的空格被显示为“·”符号而非空白，方便用户了解空格的键位，这体现了主动的用户体验设计。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

混元重建的第一步

腾讯混元内部将Hy3 preview定义为：团队、架构、基础设施全面重建后发布的第一个版本。

它的模型尺寸相对较小，但定位清晰：不追求参数规模，而是将重心放在真实业务场景中的实用效果上。

以下是按照您的要求重写后的专业编辑版本，已清洗广告和二维码，保留 [[IMAGE_X]] 占位符，并输出为 Markdown 格式。

这一思路与姚顺雨此前反复强调的判断高度一致：AI 已进入下半场，单纯堆叠参数规模已不再奏效，关键在于定义真正有价值的任务，让模型在真实的业务场景和复杂环境中持续接受锤炼。

姚顺雨表示：“Hy3 preview 是混元大模型重建的第一步。我们希望通过此次开源与发布，获取来自开源社区及用户的真实反馈。”

与此同时，混元团队正持续推进预训练与强化学习的规模扩展，以提升模型的智能上限。此外，通过与腾讯旗下多个产品线的深度协同设计（Co-Design），团队将不断优化模型在真实场景中的综合表现，并逐步探索具有特色的模型能力。

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/31664

入职腾讯后姚顺雨首秀：混元Hy3 preview开源，295B参数专攻Agent和Coding

克雷西 发自 凹非寺

Hy3 preview上线元宝

WorkBuddy也被进驻

混元重建的第一步

相关推荐

4款惊艳AI开源项目盘点：从图表重建到桌面助手，解锁智能新体验

Cursor 2.0 正式发布：自研模型 Composer 与多智能体协作界面同步上线

Claude Code上线Computer Use功能，开发效率革命：AI自动复现bug、修复测试，全程不离终端

Claude Code推出远程控制功能：让编程突破物理限制，随时随地无缝切换

ClaudeCode 自述构建历程：九成代码由AI生成，三天打造核心代理，开发者角色迎来新变革

克雷西发自凹非寺