หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

ในฐานะบรรณาธิการเทคนิคมืออาชีพ ฉันได้เขียนเนื้อหาต้นฉบับใหม่ตามคำขอของคุณ ข้อความที่เขียนใหม่ได้ล้างข้อมูลโฆษณา/คิวอาร์โค้ดแล้ว เก็บตัวยึดตำแหน่ง [[IMAGE_X]] ไว้ และส่งออกโดยตรงในรูปแบบ Markdown


เครซี่ รายงานจาก Ao Fei Si

หลังจากเข้าร่วม Tencent เหยา ซุนหยู ได้ส่งมอบผลงานชิ้นแรกของเขา

โมเดลพื้นฐานล่าสุดของ Tencent Hunyuan — Hunyuan Hy3 Preview ได้รับการประกาศอย่างเป็นทางการและเปิดเป็นโอเพนซอร์ส พร้อมให้บริการบน Yuanbao และ WorkBuddy

โมเดลนี้มีพารามิเตอร์รวม 295B แต่พารามิเตอร์ที่เปิดใช้งานมีเพียง 21B ขนาดไม่ใหญ่ และมีตำแหน่งที่ชัดเจน: เน้นการใช้งานจริง เพื่อการประยุกต์ใช้ที่มีประสิทธิภาพในสถานการณ์ทางธุรกิจจริง

ความสามารถหลักที่ระบุอย่างเป็นทางการคือ Agent และ Coding ซึ่งตรงกับสาขาที่เหยา ซุนหยู เชี่ยวชาญมาหลายปีในช่วงที่เขาอยู่ที่ OpenAI เขาไม่เพียงแต่มีส่วนร่วมในโครงการต่างๆ เช่น Operator และ Deep Research แต่ยังเป็นผู้เสนอกรอบงาน ReAct อีกด้วย

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

โดยเฉพาะอย่างยิ่ง Hy3 Preview ทำผลงานได้อย่างแข่งขันได้ในการทดสอบเกณฑ์มาตรฐานเอเจนต์โค้ดหลัก เช่น SWE-Bench Verified และ Terminal-Bench 2.0 รวมถึงการทดสอบเกณฑ์มาตรฐานเอเจนต์ค้นหาหลัก เช่น BrowseComp และ WideSearch

ในด้านความสามารถของเอเจนต์ Hy3 Preview ยังโดดเด่นในการประเมิน เช่น ClawEval และ WildClawBench

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

นอกจากนี้ ทางบริษัทยังเน้นย้ำถึงความสามารถในการผสานการคิดเร็วและช้า ความเข้าใจบริบทยาว การปฏิบัติตามคำสั่ง และแม้แต่การสนทนาทั่วไปและการเขียน

นอกเหนือจากกระดานอันดับสาธารณะ Tencent Hunyuan ยังได้สร้างชุดการประเมินภายในหลายชุด ผลลัพธ์แสดงให้เห็นว่า Hy3 Preview แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในการทดสอบทั้งหมด

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

ในด้านราคา ผ่านแพลตฟอร์มบริการโมเดลขนาดใหญ่ Tencent Cloud TokenHub ราคาป้อนเข้าของ Hy3 Preview เริ่มต้นที่ 1.2 หยวน/ล้าน tokens ราคาป้อนเข้าที่命中แคชคือ 0.4 หยวน/ล้าน tokens และราคาส่งออกเริ่มต้นที่ 4 หยวน/ล้าน tokens

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

เมื่อพิจารณาจากขนาดของโมเดลโอเพนซอร์สต่างๆ และประสิทธิภาพของเอเจนต์ Hy3 Preview แสดงให้เห็นถึงความคุ้มค่าที่สูงมาก

ปัจจุบัน Hy3 Preview ได้เปิดตัวครั้งแรกบนแพลตฟอร์มต่างๆ เช่น Tencent Cloud, Yuanbao, ima, CodeBuddy, WorkBuddy, QQ, QQ Browser, Tencent Docs และ Tencent Le享

เราได้ทดลองใช้งานจริงในสองสถานการณ์เป็นครั้งแรก: Yuanbao และ WorkBuddy

Hy3 Preview เปิดตัวบน Yuanbao

เริ่มต้นที่ Yuanbao ซึ่งเป็นจุดเริ่มต้นการสนทนาที่ตรงที่สุด

เราตั้งคำถามสองข้อ: หนึ่งข้อ是关于การให้เหตุผลเชิงตรรกะ และอีกข้อ是关于การเขียนเชิงสร้างสรรค์ เพื่อทดสอบความสามารถในการสนทนาพื้นฐาน

คำถามแรกมีดังนี้:

มีคนหกคน A B C D E F เข้าร่วมการแข่งขันแบบพบกันหมด ทุกคู่จะแข่งขันกันเพียงครั้งเดียว ชนะได้ 1 คะแนน แพ้ได้ 0 คะแนน เสมอได้ 0.5 คะแนน หลังการแข่งขัน: คะแนนของ A สูงกว่า B อย่างเคร่งครัด B สูงกว่า C อย่างเคร่งครัด C สูงกว่า D อย่างเคร่งครัด D สูงกว่า E อย่างเคร่งครัด E สูงกว่า F อย่างเคร่งครัด คะแนนของทุกคนแตกต่างกัน และผลการแข่งขันระหว่าง A และ F คือเสมอ ถามว่าคะแนนของ C คือเท่าไหร่? ให้กระบวนการให้เหตุผลที่สมบูรณ์

จุดยากของข้อนี้คือเงื่อนไข “A และ F เสมอ” การเสมอกันระหว่างอันดับหนึ่งและอันดับสุดท้าย โดยสัญชาตญาณดูเหมือนจะขัดแย้ง แต่ไม่ได้ละเมิดกฎใดๆ

คะแนนรวมของการแข่งขันแบบพบกันหมดของหกคนคงที่ที่ 15 คะแนน คะแนนลดลงอย่างเคร่งครัดและแตกต่างกัน ข้อจำกัดเพียงพอ คำตอบมีเพียงหนึ่งเดียว แต่เส้นทางการแจงนับค่อนข้างยาว และง่ายต่อการทำผิดพลาดในการจัดสรรคะแนนระหว่างทาง

ผลลัพธ์คือ คำตอบที่ Yuanbao ให้ถูกต้อง: C=3 และกระบวนการให้เหตุผลก็ไม่มีข้อผิดพลาด

值得一提的是,它处理“A和F平局”条件的方式非常出色。模型没有被这个反直觉的设定绊住,而是直接从总分15分倒推,得出A只能是4.5分,F自然锁定为0.5分,剩余四人的分数分配随之唯一确定。整个推理链条干净利落,没有绕弯子或先枚举再验证,展现了真实的推理能力。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

接下来测试写作能力,任务如下:

写一段对话。场景是:一个人正在和自己五分钟后的自己通电话,五分钟后的自己一直在哭,但不肯说为什么。200字以内。

这个设定足够奇特,“不肯说为什么”是一个主动约束,旨在观察模型如何处理这种“沉默”,是绕开它,还是将其融入对话。

结果显示,元宝的输出出乎意料地好。“不肯说为什么”这一约束不仅没有被绕开,反而成了整段对话的核心。

“我现在说……就全都完了”这一句,将“沉默”转化为具有实质分量的元素,暗示“说出口”这一行为本身会改变某些事情。结尾“看着屏幕上显示的‘5分钟后’,脊背发凉”用细节收束,留白干净,意蕴深远。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

WorkBuddy也被进驻

与元宝的对话测试不同,WorkBuddy是一个本地化安装、本地运行的应用,能直接操作电脑上的文件和终端,不走云端。我们布置了三项需要真正完成的任务。

第一个任务旨在测试其处理本地文件的能力,模拟了一个非常常见的工作场景:一堆散落在各处的业务数据文件,格式各异,没有明确说明,考验模型能否自行整理出成果。

我们准备了五个文件:销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细。文件格式包括txt和csv,命名风格为英文加日期,总数据量约100KB。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

在这个任务中,模型需要自己决定读取文件的顺序、如何解析不同格式,并最终将这些信息组织成一份像样的报告。

Prompt如下:

扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据,格式各异、命名混乱。请读取全部文件,整理成一份清晰的业务数据摘要报告,输出为一个可以直接在浏览器打开的HTML文件。

结果,模型自己编写了一个Python脚本来读取数据,逐一处理了所有五个文件,txt和csv格式均未出现卡顿。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

脚本运行完毕后,HTML文件随即生成,可在浏览器中直接打开。报告包含核心指标卡片、分渠道明细表,样式清晰。

经逐一核对原始数据,报告中的数字全部准确无误:广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万,没有张冠李戴或单位错误。跨文件的数据也被成功整合,例如将广告投放与用户数据放在同一份报告中进行了关联。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

第二个任务则测试模型从零开始寻找信息的能力。

此项任务旨在观察模型的搜索轮次、是否主动更换关键词,以及最终判断是基于搜索归纳,还是凭空背诵。

帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料,找到真实的产品案例和数据,识别目前落地的主要障碍,给出你认为接下来半年最值得关注的方向。不要只罗列信息,要有自己的判断。

模型先将任务拆解为4个子任务,随后进行了5轮搜索。中途它觉得信息不足,又主动追加了一轮搜索。最后,它在本地建立了工作记忆目录,用于保存本次研究成果。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

整个过程共涉及18次工具调用、21条过程消息,没有一次等待用户指示下一步。

生成的报告本身也颇具深度。它引用了Google Cloud、微软财报、第一新声智库等来源,覆盖了7个真实落地案例,信源多样。

更值得关注的是模型对数据的态度。在拿到数字后,它会主动提出质疑,例如对“120%复合增长率”直接评论道:“更多反映的是采购合同金额而非实际产生的业务价值”。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

这种处理方式,已不仅仅是检索总结,更像是真实的研究过程。

前两个任务偏重信息处理,最后一个任务则转向了编程实践:制作一个打字练习游戏。

我们要求输出一个HTML单文件,可在浏览器中直接运行。功能包括随机生成英文单词、实时高亮显示输入正确/错误、从第一次按键开始计时、完成后显示准确率和WPM,以及重新开始按钮。

做一个打字练习游戏,要求:HTML单文件,浏览器直接打开可以玩;随机生成一段英文单词供用户输入;实时高亮显示输入正确/错误的字符;计时从第一次按键开始;完成后显示准确率和WPM(每分钟字数);有重新开始按钮。不依赖任何外部库,所有代码写在一个HTML文件里。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

代码一次成型,在浏览器中打开即可使用,没有报错,逻辑也完全正确:

  • 计时从第一次按键触发,而非页面加载时开始。
  • WPM使用标准5字符/词算法,实时更新。
  • 准确率按字符逐个比对,结果面板在完成后自动弹出并带有动画,重新开始功能也干净利落。
  • 词库分为常用词、技术词汇、日常词汇三个层次,随机抽取,确保每次练习内容不同。

此外,还有一个细节:界面中的空格被显示为“·”符号而非空白,方便用户了解空格的键位,这体现了主动的用户体验设计。

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

混元重建的第一步

腾讯混元内部将Hy3 preview定义为:团队、架构、基础设施全面重建后发布的第一个版本

它的模型尺寸相对较小,但定位清晰:不追求参数规模,而是将重心放在真实业务场景中的实用效果上。

以下是按照您的要求重写后的专业编辑版本,已清洗广告和二维码,保留 [[IMAGE_X]] 占位符,并输出为 Markdown 格式。


这一思路与姚顺雨此前反复强调的判断高度一致:AI 已进入下半场,单纯堆叠参数规模已不再奏效,关键在于定义真正有价值的任务,让模型在真实的业务场景和复杂环境中持续接受锤炼。

姚顺雨表示:“Hy3 preview 是混元大模型重建的第一步。我们希望通过此次开源与发布,获取来自开源社区及用户的真实反馈。”

与此同时,混元团队正持续推进预训练与强化学习的规模扩展,以提升模型的智能上限。此外,通过与腾讯旗下多个产品线的深度协同设计(Co-Design),团队将不断优化模型在真实场景中的综合表现,并逐步探索具有特色的模型能力。


หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding



⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/31665

Like (0)
Previous 3 hours ago
Next 2026年4月15日 pm6:10

相关推荐