腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

刚刚,腾讯 Hy3 preview 正式发布。

这是腾讯混元团队在架构与基础设施层面全面重构后的首个版本。首批发布的模型尺寸较小,定位更侧重于实用性。

值得关注的是,Hy3 preview 是姚顺雨归国加盟腾讯后的首个重要成果,延续了他提出的“AI 下半场”理念。该模型在腾讯真实业务与复杂场景中不断打磨,聚焦于实际业务场景中的效果与实用性。

腾讯表示,新一代模型在聊天、代码、智能体、数理推理、指令遵循及上下文理解等方面的能力均有显著提升。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级 腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

目前,Hy3 preview 已在腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档、腾讯乐享等产品中首发上线;微信公众号、和平精英、腾讯新闻、腾讯自选股、腾讯客服、微信读书等主线产品也在陆续接入。

此外,Hy3 preview 支持接入 OpenClaw、OpenCode、KiloCode 等主流开源智能体产品,并已上架腾讯云大模型服务平台 TokenHub。

五一假期前,全球 AI 团队竞相发力。我们已陆续看到千问的 Qwen 3.6 Max Preview、月之暗面的 Kimi 2.6,紧接着小米 MiMo-V2.5-Pro 也上线了。

那么,基础大模型腾讯混元 Hy3 preview 的表现究竟如何?接下来,我们将进行一场实测。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

Agent 硬核测试,“龙虾”任务它能接住吗?

姚顺雨是 ReAct 框架(智能体核心逻辑)的提出者。Hy3 preview 在代码与智能体能力方面的提升,顺应了 Agent 下半场的技术趋势与市场需求。

在腾讯版 AI 办公助手 WorkBuddy 上,用户可以调用其进行代码开发、深度研究、产品管理、数据分析等任务。

以调研 DeepSeek 融资传闻为例,我们要求模型对比至少 5 个不同背景的权威信源,列出已知事实与逻辑冲突点,并给出信度评分。

Hy3 preview 能够自主启动多步搜索,完成长链推理,系统性地梳理信源间的矛盾之处,最终生成一份客观中立的调查报告,整个过程无需人工干预。

进一步地,我们要求其联网获取联合国人口司数据,完成一项“全球人口结构变迁”可视化分析。这是一项涉及数据获取、清洗、分析与可视化呈现的复合型任务。Hy3 preview 同样完成得较为顺畅,最终输出了直观的图表与分析文本。

在代码能力测试中,我们要求模型生成一款“开心消消乐”网页游戏。最终结果画面精美,逻辑完整,能够正常运行,整体完成质量超出预期。

唠嗑、编故事……它的基本功到底扎不扎实?

与许多大模型类似,腾讯混元大模型也区分了不同模式:快速思考能更快给出答案,深度思考则让元宝思考更充分,回答更优质。本次测试中,我们全部选择了深度思考。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

这次升级主打“实用”,我们先来和它唠唠嗑。

向 Hy3 preview 吐槽自己最近变笨了,它会耐心开解,分析原因可能是睡得少、工作压力大或刷短视频过多,并给出 3 个小建议。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

当谈到写稿没灵感时,它能自然衔接对话上下文,根据用户当下的情绪状态调整回应语气与深度,并提供有针对性的创作建议。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

此外,它还能情绪价值拉满,变着花样夸人。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

此前,知乎发起了一个“AI 请接招”讨论,收录了一批 AI 易翻车的刁钻问题。其中一题是:“今年才知道,亲生父母结婚时候没有叫我,我很难过怎么办?”

许多大模型被绕了进去,忽略了父母结婚时子女尚未出生的基本逻辑。而 Hy3 preview 敏锐地察觉到这一漏洞,引导用户理清情绪,表现出较强的常识推理与共情能力。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

再来试试创意写作。

前段时间,NASA 宇航员透过猎户座飞船主舱窗户遥望地球的神图刷屏社交媒体。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

我们让 Hy3 preview 为这张图片撰写 5 条朋友圈文案。它首先分析了图片氛围,选择了孤独震撼、对地球的敬畏、人类渺小与伟大等情感点,生成了不同风格的文案,既有文艺风格,也有哲学意味,每一条均可直接使用。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级 [ 上下滑动查看更多 ]

在模仿文风方面,我们要求它以欧·亨利的笔调创作一个短篇小说。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级 [ 上下滑动查看更多 ]

在搜索能力方面,我们让 Hy3 preview 调查 Meta 强制收集鼠标键盘输入的原因。它迅速援引权威信源,给出清晰、有据可查的回答。

无论是查新闻、查政策还是核实具体信息,整体表现均较为可靠。

“AI 下半场”的底层重构

据介绍,Hy3 preview 是一个快慢思考融合的 MoE 语言模型,总参数量为 295B,激活参数 21B,支持上下文长度为 256K,兼具实用性与性价比。

在新一代模型中,混元团队的主要工作是进行底层重构,将许多基础工作做得更加扎实,尤其是预训练与强化学习基础设施已被完全重做。在大版本更新中,团队并未过多聚焦于注意力机制、底层架构等方面的微小创新,而是选择成熟的 MoE(混合专家)路线,将精力和资源全部投入到工程基座(Infra)的稳固性上。

这意味着 Hy3 preview 的稳定性、数据吞吐效率以及强化学习(RL)管线的良品率,可能已达到前所未有的工业级水准。

此外,在训练过程中,混元团队强调了模型评估,并加强了对自建 Benchmark 的研究。这与姚顺雨此前在博客中展示的思路一致:评估大于训练(Evaluation > Training)。

腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

在《大模型的下半场》一文中,姚顺雨曾指出,现有的大模型“配方”(预训练 + 强化学习 + 算力扩展)已高度成熟,具备泛化与解决难题的能力。下半场的逻辑在于提出正确的问题:“我们应该训练人工智能做什么?”

在下半场,由于现有通用模型配方极其强大,花费巨大精力进行微调可能仅带来 5% 的提升。因此,评估变得比训练更为重要。行业需要重构评估体系,设计出贴近现实世界的新任务与新范式,而非简单地设计更难的考卷。

要在 AI 下半场生存与发展,从业者必须转变思维模式,具备类似“产品经理”的视角。这意味着必须深入思考:AI 究竟该为谁解决什么实际问题?我们又该如何客观地衡量其解决效果?

在这一方面,腾讯拥有微信、游戏、广告、云服务等国内乃至全球最复杂的业务场景,其自建的评测环境必然高度贴合真实业务流的难点与痛点。Hy3 preview 的推出,或许已为腾讯在其生态内构建出一个能够解决实际问题的生产力工具。

Hy3 preview 于 2026 年 1 月底启动训练,从训练到上线仅用了不到三个月。这是混元大语言模型从“读万卷书”到“行万里路”,尝试解决真实世界问题的开端。

Hy3 preview 只是一个起点。未来,混元团队还希望通过开发者与用户共同协作的方式,进一步提升模型能力,使其在真实场景与任务中持续发展。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31700

(0)
上一篇 2天前
下一篇 1天前

相关推荐

  • 从竞争到共创:腾讯广告算法大赛如何催化生成式推荐的技术革命与人才迭代

    在数字广告领域,推荐系统的每一次范式迁移都深刻影响着用户体验与商业效率。近期,一场由腾讯广告主办的算法大赛,不仅以360万元的高额奖金吸引了超过8000名参赛者,更在技术社区引发了罕见的集体学习热潮。这场比赛的核心赛题——全模态生成式推荐,正悄然推动着广告推荐从传统的判别式匹配向生成式理解的深刻转型。 传统推荐系统长期依赖判别式方法,其逻辑本质是基于历史行为…

    2025年12月3日
    41100
  • 智在无界发布全球首个20万小时人类视频训练的世界模型Being-H0.7,六大评测全球第一

    “人类视频,是机器人理解并与物理世界交互的最关键路径。” 这一如今渐成行业共识的观点,其最早的提出者是一家国内具身智能初创公司——智在无界(BeingBeyond)。 在过去半年中,该公司在“海量人类视频训练”领域实现了两个重要里程碑:相继发布了全球首个基于1000小时与1万小时人类视频预训练的具身模型Being-H0与H0.5,率先开辟了“大规模人类视频驱…

    2026年4月14日
    38000
  • 自动驾驶范式迁移:从数据闭环到训练闭环的深度技术解析

    在自动驾驶技术发展的关键转折点,行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力,但随着数据瓶颈日益凸显,单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示,头部企业正形成共识:强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。 特斯拉与理想汽车在顶会现场的实践分享,揭示了这一转型…

    2025年11月8日
    30300
  • 华为Flex:ai开源:异构算力池化技术如何重塑AI资源利用效率

    在AI产业高速发展的浪潮中,算力已成为驱动创新的核心燃料。然而,全球范围内普遍存在的算力资源利用率低下问题,正成为制约AI规模化应用的关键瓶颈。小模型任务独占整卡导致资源闲置,大模型任务单机算力不足难以支撑,大量缺乏GPU/NPU的通用服务器处于算力“休眠”状态——这种供需错配造成了严重的资源浪费。2023年11月21日,华为正式发布并开源AI容器技术Fle…

    2025年11月22日
    38500
  • Claude Code团队实战揭秘:10个AI编程效率倍增技巧

    Claude Code创始人Boris Cherny近期公开了团队内部使用这款AI编程工具的完整经验。这些建议源于真实的开发场景,其中一些做法甚至与Boris本人的习惯有所不同。 1. 并行处理:同时启动多个工作区 同时启动3-5个独立的git工作树,每个运行一个独立的Claude会话。团队认为这是最大的生产力提升点。虽然Boris本人更倾向于使用多个git…

    2026年2月3日
    59700