หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

3 hours ago • คลังสินค้า AI • 10 views

ในฐานะบรรณาธิการเทคนิคมืออาชีพ ฉันได้เขียนเนื้อหาต้นฉบับใหม่ตามคำขอของคุณ ข้อความที่เขียนใหม่ได้ล้างข้อมูลโฆษณา/คิวอาร์โค้ดแล้ว เก็บตัวยึดตำแหน่ง [[IMAGE_X]] ไว้ และส่งออกโดยตรงในรูปแบบ Markdown

เครซี่ รายงานจาก Ao Fei Si

หลังจากเข้าร่วม Tencent เหยา ซุนหยู ได้ส่งมอบผลงานชิ้นแรกของเขา

โมเดลพื้นฐานล่าสุดของ Tencent Hunyuan — Hunyuan Hy3 Preview ได้รับการประกาศอย่างเป็นทางการและเปิดเป็นโอเพนซอร์ส พร้อมให้บริการบน Yuanbao และ WorkBuddy

โมเดลนี้มีพารามิเตอร์รวม 295B แต่พารามิเตอร์ที่เปิดใช้งานมีเพียง 21B ขนาดไม่ใหญ่ และมีตำแหน่งที่ชัดเจน: เน้นการใช้งานจริง เพื่อการประยุกต์ใช้ที่มีประสิทธิภาพในสถานการณ์ทางธุรกิจจริง

ความสามารถหลักที่ระบุอย่างเป็นทางการคือ Agent และ Coding ซึ่งตรงกับสาขาที่เหยา ซุนหยู เชี่ยวชาญมาหลายปีในช่วงที่เขาอยู่ที่ OpenAI เขาไม่เพียงแต่มีส่วนร่วมในโครงการต่างๆ เช่น Operator และ Deep Research แต่ยังเป็นผู้เสนอกรอบงาน ReAct อีกด้วย

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

โดยเฉพาะอย่างยิ่ง Hy3 Preview ทำผลงานได้อย่างแข่งขันได้ในการทดสอบเกณฑ์มาตรฐานเอเจนต์โค้ดหลัก เช่น SWE-Bench Verified และ Terminal-Bench 2.0 รวมถึงการทดสอบเกณฑ์มาตรฐานเอเจนต์ค้นหาหลัก เช่น BrowseComp และ WideSearch

ในด้านความสามารถของเอเจนต์ Hy3 Preview ยังโดดเด่นในการประเมิน เช่น ClawEval และ WildClawBench

นอกจากนี้ ทางบริษัทยังเน้นย้ำถึงความสามารถในการผสานการคิดเร็วและช้า ความเข้าใจบริบทยาว การปฏิบัติตามคำสั่ง และแม้แต่การสนทนาทั่วไปและการเขียน

นอกเหนือจากกระดานอันดับสาธารณะ Tencent Hunyuan ยังได้สร้างชุดการประเมินภายในหลายชุด ผลลัพธ์แสดงให้เห็นว่า Hy3 Preview แสดงให้เห็นถึงความสามารถในการแข่งขันที่แข็งแกร่งในการทดสอบทั้งหมด

ในด้านราคา ผ่านแพลตฟอร์มบริการโมเดลขนาดใหญ่ Tencent Cloud TokenHub ราคาป้อนเข้าของ Hy3 Preview เริ่มต้นที่ 1.2 หยวน/ล้าน tokens ราคาป้อนเข้าที่命中แคชคือ 0.4 หยวน/ล้าน tokens และราคาส่งออกเริ่มต้นที่ 4 หยวน/ล้าน tokens

เมื่อพิจารณาจากขนาดของโมเดลโอเพนซอร์สต่างๆ และประสิทธิภาพของเอเจนต์ Hy3 Preview แสดงให้เห็นถึงความคุ้มค่าที่สูงมาก

ปัจจุบัน Hy3 Preview ได้เปิดตัวครั้งแรกบนแพลตฟอร์มต่างๆ เช่น Tencent Cloud, Yuanbao, ima, CodeBuddy, WorkBuddy, QQ, QQ Browser, Tencent Docs และ Tencent Le享

เราได้ทดลองใช้งานจริงในสองสถานการณ์เป็นครั้งแรก: Yuanbao และ WorkBuddy

Hy3 Preview เปิดตัวบน Yuanbao

เริ่มต้นที่ Yuanbao ซึ่งเป็นจุดเริ่มต้นการสนทนาที่ตรงที่สุด

เราตั้งคำถามสองข้อ: หนึ่งข้อ是关于การให้เหตุผลเชิงตรรกะ และอีกข้อ是关于การเขียนเชิงสร้างสรรค์ เพื่อทดสอบความสามารถในการสนทนาพื้นฐาน

คำถามแรกมีดังนี้:

มีคนหกคน A B C D E F เข้าร่วมการแข่งขันแบบพบกันหมด ทุกคู่จะแข่งขันกันเพียงครั้งเดียว ชนะได้ 1 คะแนน แพ้ได้ 0 คะแนน เสมอได้ 0.5 คะแนน หลังการแข่งขัน: คะแนนของ A สูงกว่า B อย่างเคร่งครัด B สูงกว่า C อย่างเคร่งครัด C สูงกว่า D อย่างเคร่งครัด D สูงกว่า E อย่างเคร่งครัด E สูงกว่า F อย่างเคร่งครัด คะแนนของทุกคนแตกต่างกัน และผลการแข่งขันระหว่าง A และ F คือเสมอ ถามว่าคะแนนของ C คือเท่าไหร่? ให้กระบวนการให้เหตุผลที่สมบูรณ์

จุดยากของข้อนี้คือเงื่อนไข “A และ F เสมอ” การเสมอกันระหว่างอันดับหนึ่งและอันดับสุดท้าย โดยสัญชาตญาณดูเหมือนจะขัดแย้ง แต่ไม่ได้ละเมิดกฎใดๆ

คะแนนรวมของการแข่งขันแบบพบกันหมดของหกคนคงที่ที่ 15 คะแนน คะแนนลดลงอย่างเคร่งครัดและแตกต่างกัน ข้อจำกัดเพียงพอ คำตอบมีเพียงหนึ่งเดียว แต่เส้นทางการแจงนับค่อนข้างยาว และง่ายต่อการทำผิดพลาดในการจัดสรรคะแนนระหว่างทาง

ผลลัพธ์คือ คำตอบที่ Yuanbao ให้ถูกต้อง: C=3 และกระบวนการให้เหตุผลก็ไม่มีข้อผิดพลาด

值得一提的是，它处理“A和F平局”条件的方式非常出色。模型没有被这个反直觉的设定绊住，而是直接从总分15分倒推，得出A只能是4.5分，F自然锁定为0.5分，剩余四人的分数分配随之唯一确定。整个推理链条干净利落，没有绕弯子或先枚举再验证，展现了真实的推理能力。

接下来测试写作能力，任务如下：

写一段对话。场景是：一个人正在和自己五分钟后的自己通电话，五分钟后的自己一直在哭，但不肯说为什么。200字以内。

这个设定足够奇特，“不肯说为什么”是一个主动约束，旨在观察模型如何处理这种“沉默”，是绕开它，还是将其融入对话。

结果显示，元宝的输出出乎意料地好。“不肯说为什么”这一约束不仅没有被绕开，反而成了整段对话的核心。

“我现在说……就全都完了”这一句，将“沉默”转化为具有实质分量的元素，暗示“说出口”这一行为本身会改变某些事情。结尾“看着屏幕上显示的‘5分钟后’，脊背发凉”用细节收束，留白干净，意蕴深远。

WorkBuddy也被进驻

与元宝的对话测试不同，WorkBuddy是一个本地化安装、本地运行的应用，能直接操作电脑上的文件和终端，不走云端。我们布置了三项需要真正完成的任务。

第一个任务旨在测试其处理本地文件的能力，模拟了一个非常常见的工作场景：一堆散落在各处的业务数据文件，格式各异，没有明确说明，考验模型能否自行整理出成果。

我们准备了五个文件：销售订单流水、用户日活数据、渠道投放明细、企业客户合同台账、费用月度明细。文件格式包括txt和csv，命名风格为英文加日期，总数据量约100KB。

在这个任务中，模型需要自己决定读取文件的顺序、如何解析不同格式，并最终将这些信息组织成一份像样的报告。

Prompt如下：

扫描我桌面上data文件夹里的内容。这是一家公司散落的业务数据，格式各异、命名混乱。请读取全部文件，整理成一份清晰的业务数据摘要报告，输出为一个可以直接在浏览器打开的HTML文件。

结果，模型自己编写了一个Python脚本来读取数据，逐一处理了所有五个文件，txt和csv格式均未出现卡顿。

脚本运行完毕后，HTML文件随即生成，可在浏览器中直接打开。报告包含核心指标卡片、分渠道明细表，样式清晰。

经逐一核对原始数据，报告中的数字全部准确无误：广告总投入4393.3万、Q3平均DAU 94310、企业客户合同120份总金额2168万，没有张冠李戴或单位错误。跨文件的数据也被成功整合，例如将广告投放与用户数据放在同一份报告中进行了关联。

第二个任务则测试模型从零开始寻找信息的能力。

此项任务旨在观察模型的搜索轮次、是否主动更换关键词，以及最终判断是基于搜索归纳，还是凭空背诵。

帮我做一份关于“AI Agent在企业办公场景落地”的深度研究报告。自己搜集资料，找到真实的产品案例和数据，识别目前落地的主要障碍，给出你认为接下来半年最值得关注的方向。不要只罗列信息，要有自己的判断。

模型先将任务拆解为4个子任务，随后进行了5轮搜索。中途它觉得信息不足，又主动追加了一轮搜索。最后，它在本地建立了工作记忆目录，用于保存本次研究成果。

整个过程共涉及18次工具调用、21条过程消息，没有一次等待用户指示下一步。

生成的报告本身也颇具深度。它引用了Google Cloud、微软财报、第一新声智库等来源，覆盖了7个真实落地案例，信源多样。

更值得关注的是模型对数据的态度。在拿到数字后，它会主动提出质疑，例如对“120%复合增长率”直接评论道：“更多反映的是采购合同金额而非实际产生的业务价值”。

这种处理方式，已不仅仅是检索总结，更像是真实的研究过程。

前两个任务偏重信息处理，最后一个任务则转向了编程实践：制作一个打字练习游戏。

我们要求输出一个HTML单文件，可在浏览器中直接运行。功能包括随机生成英文单词、实时高亮显示输入正确/错误、从第一次按键开始计时、完成后显示准确率和WPM，以及重新开始按钮。

做一个打字练习游戏，要求：HTML单文件，浏览器直接打开可以玩；随机生成一段英文单词供用户输入；实时高亮显示输入正确/错误的字符；计时从第一次按键开始；完成后显示准确率和WPM（每分钟字数）；有重新开始按钮。不依赖任何外部库，所有代码写在一个HTML文件里。

代码一次成型，在浏览器中打开即可使用，没有报错，逻辑也完全正确：

计时从第一次按键触发，而非页面加载时开始。
WPM使用标准5字符/词算法，实时更新。
准确率按字符逐个比对，结果面板在完成后自动弹出并带有动画，重新开始功能也干净利落。
词库分为常用词、技术词汇、日常词汇三个层次，随机抽取，确保每次练习内容不同。

此外，还有一个细节：界面中的空格被显示为“·”符号而非空白，方便用户了解空格的键位，这体现了主动的用户体验设计。

混元重建的第一步

腾讯混元内部将Hy3 preview定义为：团队、架构、基础设施全面重建后发布的第一个版本。

它的模型尺寸相对较小，但定位清晰：不追求参数规模，而是将重心放在真实业务场景中的实用效果上。

以下是按照您的要求重写后的专业编辑版本，已清洗广告和二维码，保留 [[IMAGE_X]] 占位符，并输出为 Markdown 格式。

这一思路与姚顺雨此前反复强调的判断高度一致：AI 已进入下半场，单纯堆叠参数规模已不再奏效，关键在于定义真正有价值的任务，让模型在真实的业务场景和复杂环境中持续接受锤炼。

姚顺雨表示：“Hy3 preview 是混元大模型重建的第一步。我们希望通过此次开源与发布，获取来自开源社区及用户的真实反馈。”

与此同时，混元团队正持续推进预训练与强化学习的规模扩展，以提升模型的智能上限。此外，通过与腾讯旗下多个产品线的深度协同设计（Co-Design），团队将不断优化模型在真实场景中的综合表现，并逐步探索具有特色的模型能力。

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/31665

Like (0)

0 0

Tencent Hunyuan เปิดตัว HY-SOAR: สอนโมเดล Diffusion ให้รู้จักสะท้อนตนเอง โดยไม่มีโมเดลรางวัลที่เหนือกว่าวิธี RL

Previous 3 hours ago

โครงการ Hermes Agent ดาวเด่นแห่งซิลิคอนแวลลีย์ถูกเปิดโปงว่าลอกเลียนโครงสร้างจากทีมจีน EvoMap หลังมีดาว 85,000 ดวง กลับกลายเป็นการล้างโค้ดด้วย AI?

Next 2026年4月15日 pm6:10

คลังสินค้า AI

4 โครงการ AI แบบโอเพนซอร์สที่น่าทึ่ง: ตั้งแต่การสร้างแผนภูมิใหม่ไปจนถึงผู้ช่วยเดสก์ท็อป ปลดล็อกประสบการณ์อัจฉริยะใหม่

01 แปลงรูปภาพและ PDF เป็นรูปแบบที่แก้ไขได้ Edit Banana เป็นโครงการโอเพนซอร์สที่พัฒนาโดยมหาวิทยาลัยเทคโนโลยีปักกิ่ง มันสามารถแปลงแผนภูมิสถิติ แผนผังลำดับงานในรูปแบบรูปภาพหรือ PDF ที…

2026年2月21日
314000
คลังสินค้า AI

ChatGPT Images 2.0 เปิดตัวอย่างเป็นทางการ: สร้างภาพหน้าจอและโปสเตอร์ที่เหมือนจริงด้วยคำพูดเพียงประโยคเดียว

หยูหยาง รายงานจาก Ao Fei Si Quantum Bit | WeChat Official Account: QbitAI GPT-Image-2 ซึ่งเจ๋งกว่า Nano Banana เพิ่งเปิดตัวอย่างเป็นทางการ! โปรดทราบ นี่ไม่ใช่ภาพหน้าจอ นี่ไม่ใช่ภาพ…

1 day ago
23000
คลังสินค้า AI

จาก Vibe Coding สู่ Wish Coding: แอป Ant Sparkle ใช้การเขียนโปรแกรมตามความตั้งใจปรับโครงสร้างการผลิตซอฟต์แวร์อย่างไร ให้คนทั่วไปข้ามขั้นตอนโค้ดส่งมอบซอฟต์แวร์พร้อมใช้ได้โดยตรง

ในช่วงหลายเดือนที่ผ่านมา Vibe Coding (การเขียนโค้ดแบบมีอารมณ์ร่วม) กลายเป็นหัวข้อที่ถูกพูดถึงอย่างกว้างขวางในวงการ เครื่องมือต่างๆ ที่มี Cursor และ Claude Code เป็นตัวแทน กำลังผลัก…

3 days ago
47000
คลังสินค้า AI

Luma เปิดตัวโมเดลสร้างภาพ Uni-1: ผสานความเข้าใจและการสร้างเป็นหนึ่งเดียว ความสามารถในการแสดงผลตัวอักษรภาษาจีนโดดเด่น

เมื่อสัปดาห์ที่แล้ว กูเกิลเปิดตัวโมเดล Nano Banana 2 ซึ่งได้รับความสนใจอย่างกว้างขวางบนแพลตฟอร์มโซเชียลมีเดีย เนื่องจากมีความเร็วและประหยัดต้นทุน ในเวลาเดียวกัน บริษัทสตาร์ทอัพ AI …

2026年3月6日
200000
คลังสินค้า AI

Tencent QClaw อัปเกรดครั้งใหญ่ใน WeChat: เชื่อมต่อ Mini Program, ทำงานระยะไกล, จัตุรัสแรงบันดาลใจ, ทดสอบจริงว่าผู้ช่วย AI จะปลดปล่อยมนุษย์ออฟฟิศได้อย่างไร

ผลิตภัณฑ์ผู้ช่วย AI ของ Tencent อย่าง QClaw ได้รับการอัปเดตสำคัญล่าสุด โดยเน้นที่ความสามารถในการเชื่อมต่อกับ WeChat เป็นหลัก การอัปเกรดครั้งนี้เปลี่ยนจุดเข้าใช้งานบน WeChat ให้อยู่…

2026年3月18日
292000

หลังเข้าร่วม Tencent ผลงานชิ้นแรกของเหยา ซุนหยู่: เปิดซอร์สโค้ด Hunyuan Hy3 Preview พารามิเตอร์ 295B มุ่งเน้น Agent และ Coding

เครซี่ รายงานจาก Ao Fei Si

Hy3 Preview เปิดตัวบน Yuanbao

WorkBuddy也被进驻

混元重建的第一步

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ChatGPT Images 2.0 เปิดตัวอย่างเป็นทางการ: สร้างภาพหน้าจอและโปสเตอร์ที่เหมือนจริงด้วยคำพูดเพียงประโยคเดียว