ในฐานะบรรณาธิการเทคนิคมืออาชีพ ฉันได้เขียนเนื้อหาต้นฉบับใหม่ตามคำขอของคุณ ข้อความที่เขียนใหม่ได้ล้างข้อมูลโฆษณา/คิวอาร์โค้ดแล้ว เก็บตัวยึดตำแหน่ง [[IMAGE_X]] ไว้ และส่งออกโดยตรงในรูปแบบ Markdown
เครซี่ รายงานจาก Ao Fei Si
หลังจากเข้าร่วม Tencent เหยา ซุนหยู ได้ส่งมอบผลงานชิ้นแรกของเขา
โมเดลพื้นฐานล่าสุดของ Tencent Hunyuan — Hunyuan Hy3 Preview ได้รับการประกาศอย่างเป็นทางการและเปิดเป็นโอเพนซอร์ส พร้อมให้บริการบน Yuanbao และ WorkBuddy
โมเดลนี้มีพารามิเตอร์รวม 295B แต่พารามิเตอร์ที่เปิดใช้งานมีเพียง 21B ขนาดไม่ใหญ่ และมีตำแหน่งที่ชัดเจน: เน้นการใช้งานจริง เพื่อการประยุกต์ใช้ที่มีประสิทธิภาพในสถานการณ์ทางธุรกิจจริง
ความสามารถหลักที่ระบุอย่างเป็นทางการคือ Agent และ Coding ซึ่งตรงกับสาขาที่เหยา ซุนหยู เชี่ยวชาญมาหลายปีในช่วงที่เขาอยู่ที่ OpenAI เขาไม่เพียงแต่มีส่วนร่วมในโครงการต่างๆ เช่น Operator และ Deep Research แต่ยังเป็นผู้เสนอกรอบงาน ReAct อีกด้วย

โดยเฉพาะอย่างยิ่ง Hy3 Preview ทำผลงานได้อย่างแข่งขันได้ในการทดสอบเกณฑ์มาตรฐานเอเจนต์โค้ดหลัก เช่น SWE-Bench Verified และ Terminal-Bench 2.0 รวมถึงการทดสอบเกณฑ์มาตรฐานเอเจนต์ค้นหาหลัก เช่น BrowseComp และ WideSearch
ในด้านความสามารถของเอเจนต์ Hy3 Preview ยังโดดเด่นในการประเมิน เช่น ClawEval และ WildClawBench

นอกจากนี้ ทางบริษัทยังเน้นย้ำถึงความสามารถในการผสานการคิดเร็วและช้า ความเข้าใจบริบทยาว การปฏิบัติตามคำสั่ง และแม้แต่การสนทนาทั่วไปและการเขียน
นอกเหนือจากกระดานอันดับสาธารณะ Tencent Hunyuan ยังได้สร้างชุดการประเมินภายในหลายชุด ผลลัพธ์แสดงให้เห็นว่า Hy3 Preview แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในการทดสอบทั้งหมด

ในด้านราคา ผ่านแพลตฟอร์มบริการโมเดลขนาดใหญ่ Tencent Cloud TokenHub ราคาป้อนเข้าของ Hy3 Preview เริ่มต้นที่ 1.2 หยวน/ล้าน tokens ราคาป้อนเข้าที่命中แคชคือ 0.4 หยวน/ล้าน tokens และราคาส่งออกเริ่มต้นที่ 4 หยวน/ล้าน tokens

เมื่อพิจารณาจากขนาดของโมเดลโอเพนซอร์สต่างๆ และประสิทธิภาพของเอเจนต์ Hy3 Preview แสดงให้เห็นถึงความคุ้มค่าที่สูงมาก
ปัจจุบัน Hy3 Preview ได้เปิดตัวครั้งแรกบนแพลตฟอร์มต่างๆ เช่น Tencent Cloud, Yuanbao, ima, CodeBuddy, WorkBuddy, QQ, QQ Browser, Tencent Docs และ Tencent Le享
เราได้ทดลองใช้งานจริงในสองสถานการณ์เป็นครั้งแรก: Yuanbao และ WorkBuddy
Hy3 Preview เปิดตัวบน Yuanbao
เริ่มต้นที่ Yuanbao ซึ่งเป็นจุดเริ่มต้นการสนทนาที่ตรงที่สุด
เราตั้งคำถามสองข้อ: หนึ่งข้อ是关于การให้เหตุผลเชิงตรรกะ และอีกข้อ是关于การเขียนเชิงสร้างสรรค์ เพื่อทดสอบความสามารถในการสนทนาพื้นฐาน
คำถามแรกมีดังนี้:
มีคนหกคน A B C D E F เข้าร่วมการแข่งขันแบบพบกันหมด ทุกคู่จะแข่งขันกันเพียงครั้งเดียว ชนะได้ 1 คะแนน แพ้ได้ 0 คะแนน เสมอได้ 0.5 คะแนน หลังการแข่งขัน: คะแนนของ A สูงกว่า B อย่างเคร่งครัด B สูงกว่า C อย่างเคร่งครัด C สูงกว่า D อย่างเคร่งครัด D สูงกว่า E อย่างเคร่งครัด E สูงกว่า F อย่างเคร่งครัด คะแนนของทุกคนแตกต่างกัน และผลการแข่งขันระหว่าง A และ F คือเสมอ ถามว่าคะแนนของ C คือเท่าไหร่? ให้กระบวนการให้เหตุผลที่สมบูรณ์
จุดยากของข้อนี้คือเงื่อนไข “A และ F เสมอ” การเสมอกันระหว่างอันดับหนึ่งและอันดับสุดท้าย โดยสัญชาตญาณดูเหมือนจะขัดแย้ง แต่ไม่ได้ละเมิดกฎใดๆ
คะแนนรวมของการแข่งขันแบบพบกันหมดของหกคนคงที่ที่ 15 คะแนน คะแนนลดลงอย่างเคร่งครัดและแตกต่างกัน ข้อจำกัดเพียงพอ คำตอบมีเพียงหนึ่งเดียว แต่เส้นทางการแจงนับค่อนข้างยาว และง่ายต่อการทำผิดพลาดในการจัดสรรคะแนนระหว่างทาง
ผลลัพธ์คือ คำตอบที่ Yuanbao ให้ถูกต้อง: C=3 และกระบวนการให้เหตุผลก็ไม่มีข้อผิดพลาด
值得一提的是,它处理“A和F平局”条件的方式非常出色。模型没有被这个反直觉的设定绊住,而是直接从总分15分倒推,得出A只能是4.5分,F自然锁定为0.5分,剩余四人的分数分配随之唯一确定。整个推理链条干净利落,没有绕弯子或先枚举再验证,展现了真实的推理能力。

接下来测试写作能力,任务如下:
写一段对话。场景是:一个人正在和自己五分钟后的自己通电话,五分钟后的自己一直在哭,但不肯说为什么。200字以内。
这个设定足够奇特,“不肯说为什么”是一个主动约束,旨在观察模型如何处理这种“沉默”,是绕开它,还是将其融入对话。
结果显示,元宝的输出出乎意料地好。“不肯说为什么”这一约束不仅没有被绕开,反而成了整段对话的核心。
“我现在说……就全都完了”这一句,将“沉默”转化为具有实质分量的元素,暗示“说出口”这一行为本身会改变某些事情。结尾“看着屏幕上显示的‘5分钟后’,脊背发凉”用细节收束,留白干净,意蕴深远。

WorkBuddy也被进驻
与元宝的对话测试不同,WorkBuddy是一个本地化安装、本地运行的应用,能直接操作电脑上的文件和终端,不走云端。我们布置了三项需要真正完成的任务。
第一个任务旨在测试其处理本地文件的能力,模拟了一个非常常见的工作场景:一堆散落在各处的业务数据文件,格式各异,没有明确说明,考验模型能否自行整理出成果。
我们准备了五个文件:销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细。文件格式包括txt和csv,命名风格为英文加日期,总数据量约100KB。

在这个任务中,模型需要自己决定读取文件的顺序、如何解析不同格式,并最终将这些信息组织成一份像样的报告。
Prompt如下:
扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据,格式各异、命名混乱。请读取全部文件,整理成一份清晰的业务数据摘要报告,输出为一个可以直接在浏览器打开的HTML文件。
结果,模型自己编写了一个Python脚本来读取数据,逐一处理了所有五个文件,txt和csv格式均未出现卡顿。

脚本运行完毕后,HTML文件随即生成,可在浏览器中直接打开。报告包含核心指标卡片、分渠道明细表,样式清晰。
经逐一核对原始数据,报告中的数字全部准确无误:广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万,没有张冠李戴或单位错误。跨文件的数据也被成功整合,例如将广告投放与用户数据放在同一份报告中进行了关联。

第二个任务则测试模型从零开始寻找信息的能力。
此项任务旨在观察模型的搜索轮次、是否主动更换关键词,以及最终判断是基于搜索归纳,还是凭空背诵。
帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料,找到真实的产品案例和数据,识别目前落地的主要障碍,给出你认为接下来半年最值得关注的方向。不要只罗列信息,要有自己的判断。
模型先将任务拆解为4个子任务,随后进行了5轮搜索。中途它觉得信息不足,又主动追加了一轮搜索。最后,它在本地建立了工作记忆目录,用于保存本次研究成果。

整个过程共涉及18次工具调用、21条过程消息,没有一次等待用户指示下一步。
生成的报告本身也颇具深度。它引用了Google Cloud、微软财报、第一新声智库等来源,覆盖了7个真实落地案例,信源多样。
更值得关注的是模型对数据的态度。在拿到数字后,它会主动提出质疑,例如对“120%复合增长率”直接评论道:“更多反映的是采购合同金额而非实际产生的业务价值”。

这种处理方式,已不仅仅是检索总结,更像是真实的研究过程。
前两个任务偏重信息处理,最后一个任务则转向了编程实践:制作一个打字练习游戏。
我们要求输出一个HTML单文件,可在浏览器中直接运行。功能包括随机生成英文单词、实时高亮显示输入正确/错误、从第一次按键开始计时、完成后显示准确率和WPM,以及重新开始按钮。
做一个打字练习游戏,要求:HTML单文件,浏览器直接打开可以玩;随机生成一段英文单词供用户输入;实时高亮显示输入正确/错误的字符;计时从第一次按键开始;完成后显示准确率和WPM(每分钟字数);有重新开始按钮。不依赖任何外部库,所有代码写在一个HTML文件里。

代码一次成型,在浏览器中打开即可使用,没有报错,逻辑也完全正确:
- 计时从第一次按键触发,而非页面加载时开始。
- WPM使用标准5字符/词算法,实时更新。
- 准确率按字符逐个比对,结果面板在完成后自动弹出并带有动画,重新开始功能也干净利落。
- 词库分为常用词、技术词汇、日常词汇三个层次,随机抽取,确保每次练习内容不同。
此外,还有一个细节:界面中的空格被显示为“·”符号而非空白,方便用户了解空格的键位,这体现了主动的用户体验设计。

混元重建的第一步
腾讯混元内部将Hy3 preview定义为:团队、架构、基础设施全面重建后发布的第一个版本。
它的模型尺寸相对较小,但定位清晰:不追求参数规模,而是将重心放在真实业务场景中的实用效果上。
以下是按照您的要求重写后的专业编辑版本,已清洗广告和二维码,保留 [[IMAGE_X]] 占位符,并输出为 Markdown 格式。
这一思路与姚顺雨此前反复强调的判断高度一致:AI 已进入下半场,单纯堆叠参数规模已不再奏效,关键在于定义真正有价值的任务,让模型在真实的业务场景和复杂环境中持续接受锤炼。
姚顺雨表示:“Hy3 preview 是混元大模型重建的第一步。我们希望通过此次开源与发布,获取来自开源社区及用户的真实反馈。”
与此同时,混元团队正持续推进预训练与强化学习的规模扩展,以提升模型的智能上限。此外,通过与腾讯旗下多个产品线的深度协同设计(Co-Design),团队将不断优化模型在真实场景中的综合表现,并逐步探索具有特色的模型能力。

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/31665
