SenseTime Jueying เปิดตัวโมเดลภาษาใหญ่ Sage ฝั่งอุปกรณ์: พารามิเตอร์เปิดใช้งาน 3B เหนือกว่า GPT-5 ความสามารถของเอเจนต์พร้อมใช้งานจริง

2 hours ago • คลังสินค้า AI • 10 views

SenseTime SenseAuto เปิดตัว Sage Edge Large Model: พารามิเตอร์แอคทีฟ 3B เหนือกว่า GPT-5 ความสามารถของ Agent ทำงานบน Edge

ปัญญาประดิษฐ์บน Edge เผชิญกับความขัดแย้งหลัก: พารามิเตอร์โมเดลน้อยเกินไปก็ขาดความสามารถ แต่พารามิเตอร์มากเกินไปก็ไม่สามารถปรับใช้บนระบบรถยนต์ได้ งานที่ซับซ้อนต้องใช้ความสามารถในการให้เหตุผล ซึ่งต้องพึ่งพาโมเดลที่มีพารามิเตอร์จำนวนมาก แต่โมเดลขนาดใหญ่ก็ยากที่จะบรรจุลงในฮาร์ดแวร์ของรถยนต์ วงจรนี้เคยถูกมองว่าแทบจะแก้ไม่ได้

เมื่อเร็วๆ นี้ SenseTime SenseAuto ได้เปิดตัว Sage อย่างเป็นทางการ ซึ่งเป็นโมเดลขนาดใหญ่แบบมัลติโมดัลบน Edge ที่มีพารามิเตอร์รวม 32B และพารามิเตอร์แอคทีฟเพียง 3B ซึ่งเป็นครั้งแรกที่นำความสามารถของ Agent ระดับคลาวด์มาสู่ Edge ได้อย่างสมบูรณ์ และประสบความสำเร็จในการ突破ข้อจำกัดดังกล่าว

ในเกณฑ์มาตรฐานการประเมิน Agent สาธารณะ PinchBench Sage มีอัตราความสำเร็จของงานที่ดีที่สุดที่ 94% เหนือกว่า Claude Opus 4.6 (93.3%), GPT-5.4 (90.5%) และโมเดลเรือธงบนคลาวด์อื่นๆ อีกมากมายที่มีพารามิเตอร์มากกว่าอย่างเห็นได้ชัด ปัจจุบัน โมเดลดังกล่าวได้ถูกปรับใช้บนแพลตฟอร์ม Edge ของ NVIDIA OrinX แล้ว

SenseTime Jueying เปิดตัวโมเดลภาษาใหญ่ Sage ฝั่งอุปกรณ์: พารามิเตอร์เปิดใช้งาน 3B เหนือกว่า GPT-5 ความสามารถของเอเจนต์พร้อมใช้งานจริง

ในฐานะฐานรากของ Agent บน Edge Sage สามารถเชื่อมต่อกับเฟรมเวิร์ก Agent หลัก เช่น OpenClaw และ Hermes เพื่อให้การสนับสนุนหลักสำหรับการนำ Agent บน Edge ไปใช้ในทุกสถานการณ์ เช่น การเดินทางและบ้าน

พารามิเตอร์แอคทีฟ 3B เหนือกว่าโมเดลพารามิเตอร์ขนาดใหญ่

ในการประเมิน PinchBench โมเดลขนาดใหญ่บน Edge ของ Sage มีอัตราความสำเร็จของงานที่ดีที่สุดที่ 94% เหนือกว่า Claude-Opus-4.6 (93.3%), Claude-Sonnet-4.6 (88.0%), GPT-5.4 (90.5%), Google-Gemini-3 (87.0%) และ Google-Gemma-4 ซึ่งเป็นโมเดล前沿

PinchBench เป็นเกณฑ์มาตรฐานการประเมิน Agent สาธารณะที่แนะนำโดย Peter Steinberger บิดาแห่ง龙虾 แตกต่างจากคลังข้อสอบแบบคงที่ PinchBench มุ่งเน้นไปที่เวิร์กโฟลว์ Agent จริง และคลังงานสาธารณะของมันจะขยายตัวอย่างต่อเนื่องตามการอัปเดตเวอร์ชัน

เกณฑ์มาตรฐานนี้ครอบคลุมสถานการณ์ทั่วไป เช่น การเขียน การวิจัย การเขียนโค้ด การวิเคราะห์ อีเมล การจัดการไฟล์ การจัดการตารางเวลา ความจำ และการเรียกใช้ทักษะ โดยเน้นตรวจสอบความสามารถโดยรวมของโมเดลในการเรียกใช้เครื่องมือ การให้เหตุผลแบบหลายขั้นตอน และการดำเนินงานแบบ闭环 PinchBench กำหนดให้โมเดลทำงานจริง วัดอัตราความสำเร็จ ความเร็ว และต้นทุนอย่างครอบคลุม โดยมีรอบการทดสอบที่ยาวนานกว่าและการใช้ทรัพยากรที่สูงกว่า โดยการใช้ token ต่องานอาจสูงถึงหลายแสน

ประสิทธิภาพของโมเดลบน PinchBench สามารถสะท้อนความสามารถโดยรวมในสถานการณ์จริงที่ซับซ้อนได้ดีกว่า

ระหว่างงาน Beijing Auto Show SenseTime SenseAuto จะเปิดตัว SageBox ที่มาพร้อมกับ Sage ซึ่งเป็นฮาร์ดแวร์เชื่อมต่อโมเดลสำหรับรถยนต์ทั้งคัน

เทคโนโลยีล้ำสมัยสองประการ ทำให้ห้องโดยสารเปลี่ยนจาก “เข้าใจคำสั่ง” เป็น “ทำตามที่พูด”

เบื้องหลังที่ Sage Edge Large Model ทำผลงานได้ดีกว่าโมเดลคลาวด์/Edge หลักระดับสากลบน PinchBench คือเทคโนโลยีสำคัญสองประการที่ SenseTime SenseAuto พัฒนาขึ้นเองในช่วงหลังการฝึกอบรมของ Sage: SCOUT และ ERL

ระบบเทคโนโลยีหลังการฝึกอบรมที่มี SCOUT และ ERL เป็นแกนหลัก 一项让模型“学得又快又省”，一项让模型“做事不出错” แก้ไขปัญหาที่ยาวนานของการพัฒนาโมเดลขนาดใหญ่ในรถยนต์จาก “สามารถเข้าใจคำสั่ง” ไปสู่ “สามารถทำงานที่ซับซ้อนได้อย่างอิสระ”

SCOUT: ให้โมเดลขนาดใหญ่เรียนรู้งานที่ซับซ้อน ประหยัดพลังคำนวณ 60%

SCOUT (Sub-Scale Collaboration On Unseen Tasks, กรอบการเรียนรู้ร่วมกันแบบย่อย) มุ่งเน้นแก้ปัญหาต้นทุนสูงและความล่าช้าในการลองผิดลองถูกเมื่อโมเดลขนาดใหญ่เรียนรู้งานในสถานการณ์การเดินทางที่ซับซ้อน ในกระบวนการ注入ความสามารถของงานที่ซับซ้อน สามารถประหยัดการใช้ GPU ได้ประมาณ 60%

งานหลายอย่างเกี่ยวข้องกับการวางแผนเชิงพื้นที่ การเชื่อมต่ออุปกรณ์ และการตัดสินใจแบบหลายขั้นตอน การให้โมเดลขนาดใหญ่ลองผิดลองถูกด้วยตัวเองนั้นทั้งช้าและ消耗พลังคำนวณ แนวคิดของ SCOUT คือการแยก “การสำรวจเส้นทาง” และ “การเรียนรู้” ออกจากกัน: ส่งโมเดลขนาดเล็กที่เบาไปรันในงานก่อน กรองเส้นทางที่可行 จากนั้นป้อนประสบการณ์คุณภาพสูงนี้ให้กับโมเดลขนาดใหญ่ โมเดลเล็กสำรวจเส้นทาง โมเดลใหญ่吸收 ต้นทุนการฝึกอบรมลดลง และการเรียนรู้ทักษะในสถานการณ์การใช้งานจริงก็เร็วขึ้น

ERL: ให้โมเดลลบขั้นตอนที่ผิดพลาดด้วยตัวเอง เพิ่มอัตราความสำเร็จของงาน 20%

เทคโนโลยี ERL (Erasable Reinforcement Learning, การเรียนรู้แบบเสริมกำลังที่ลบได้) ซึ่งได้รับการยอมรับจาก ICLR 2026 ซึ่งเป็นการประชุม顶级ด้านการเรียนรู้ของเครื่อง มุ่งเน้นไปที่การระบุข้อผิดพลาดและการแก้ไขในห่วงโซ่งานที่ซับซ้อน

ความต้องการที่ผู้ใช้提出ในการใช้งานจริง มักต้องการให้โมเดลดำเนินการให้เหตุผลและ执行ข้ามหลายขั้นตอน หากมีขั้นตอนใดเบี่ยงเบนไป กระบวนการทำงานทั้งหมดอาจล้มเหลว ERL ช่วยให้โมเดลสามารถระบุขั้นตอนที่ผิดพลาดในกระบวนการให้เหตุผลได้อย่าง主动 ลบออก ณ จุดนั้น และสร้างใหม่ในตำแหน่งเดิม ป้องกันไม่ให้ความเบี่ยงเบนแพร่กระจายไปข้างหลัง เทคโนโลยีนี้ทำให้ Sage มีการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับ SOTA ก่อนหน้าในเกณฑ์มาตรฐานการให้เหตุผลที่ซับซ้อนแบบหลายขั้นตอน หลังจากติดตั้งบนรถ อัตราความสำเร็จของ Sage ในงานที่ซับซ้อนเพิ่มขึ้น 20%

SCOUT และ ERL ทำงานร่วมกัน前后 ผลักดันให้ Sage พัฒนาจากโมเดลภาษาขนาดใหญ่เป็น Agent ที่สามารถทำงานที่ซับซ้อนได้อย่างอิสระ เมื่อรวมกับข้อได้เปรียบของสถาปัตยกรรมมัลติโมดัลแบบ一体化和ข้อมูลการฝึกอบรมดั้งเดิม Sage สามารถสร้างสมดุลระหว่างความสามารถ ต้นทุน และความเป็นไปได้ในการผลิตจำนวนมาก โดยให้การสนับสนุน AI หลักสำหรับการสร้างศูนย์กลาง Agent

ความสามารถระดับโลกที่ทำงานบน Edge

อัตราความสำเร็จของงาน 94% บน PinchBench พิสูจน์ว่า Sage สามารถทำงานที่ซับซ้อนได้สำเร็จ แต่สิ่งที่กำหนดประสบการณ์ในห้องโดยสารจริงๆ คือว่าโมเดลนั้นเพียงพอ มั่นคง และฉลาดในแต่ละมิติ专业หรือไม่

ในเกณฑ์มาตรฐานสาธารณะหลายมิติความสามารถที่แตกต่างกัน Sage เป็นผู้นำเหนือกว่า Google-Gemma 4 ซึ่งเป็นโมเดลเรือธงบน Edge รุ่นล่าสุดที่เปิดตัวในเดือนนี้อย่าง全面 ผลักดันขีดจำกัดความสามารถของโมเดลบน Edge ไปสู่ระดับใหม่

MMLU Pro (ความรู้跨สาขาวิชาชีพ): Sage ได้ 76 คะแนน นำหน้าโมเดล Edge ระดับเดียวกันประมาณ 10% พิสูจน์ว่าโมเดล Edge มีความหนาแน่นของความรู้ทั่วไประดับคลาวด์
GPQA Diamond (การให้เหตุผลระดับบัณฑิตศึกษา): Sage ได้ 77 คะแนน เพิ่มขึ้น 33% เน้นย้ำความลึกของการให้เหตุผลที่ซับซ้อน
Human Semantic Understanding (ความเข้าใจความหมายและภาพในห้องโดยสาร): ได้ 91 คะแนน เพิ่มขึ้น 32% สร้างข้อได้เปรียบที่ไม่เหมือนใครด้วยข้อมูลดั้งเดิม

ในเกณฑ์มาตรฐาน τ2-bench (การเรียกใช้เครื่องมือและการทำงานแบบ闭环) ซึ่งเน้นตรวจสอบความสามารถในการ执行งาน Sage ได้ 80 คะแนน เพิ่มขึ้น 38% เมื่อเทียบกับ Gemma 4 เกือบเป็นสองเท่า เกณฑ์มาตรฐานนี้专门ประเมินความสามารถในทางปฏิบัติของโมเดลในการเรียกใช้เครื่องมือและดำเนินงานหลายขั้นตอน และเป็นจุดแบ่งที่สำคัญระหว่าง “โมเดลที่พูดเก่ง” กับ “Agent ที่ทำงานเก่ง” ความเป็นผู้นำเกือบสองเท่าบน τ2-bench ยืนยันโดยตรงถึงข้อได้เปรียบที่แน่นอนของ Sage ในฐานะฐานราก Agent บน Edge ใน环节การ执行งานจริง

จากเกณฑ์มาตรฐาน专业สู่ประสบการณ์ในสถานการณ์

ความสามารถ专业เหล่านี้เมื่อนำไปใช้ในห้องโดยสารจริง จะ转化为ชุดตัวบ่งชี้ที่ส่งผลโดยตรงต่อประสบการณ์ผู้ใช้: ความแม่นยำในการให้เหตุผลตามสถานการณ์ของ Sage เกิน 90% อัตราความสำเร็จของการเรียกใช้เครื่องมือแบบห่วงโซ่ยาว การวางแผนเชิงตรรกะ และการรับรู้สภาพแวดล้อมอยู่ที่ 92%, 89% และ 94% ตามลำดับ และอัตราการปฏิบัติตามคำสั่งที่ซับซ้อนเพิ่มขึ้น 40%

ภายใต้การปรับใช้บนแพลตฟอร์ม OrinX Sage สามารถตอบสนองตัวอักษรแรก (TTFT) ประมาณ 0.5 วินาที ความหน่วงในการอนุมาน token เดียว (TPOT) ต่ำถึง 0.03 วินาที ปริมาณงานสร้างสูงถึง 80tk/S และระยะเวลาเฉลี่ยของงาน ดีกว่าโมเดล API หลัก ทำให้ Agent ในห้องโดยสารมีความสามารถในการทำงานที่เสถียร、เรียลไทม์ และออนไลน์อย่างต่อเนื่อง

โมเดลสามารถวิเคราะห์คำสั่งผสมของผู้ใช้ได้ในครั้งเดียว เชื่อมต่อระบบรถยนต์如เครื่องปรับอากาศ、สื่อ、导航等โดยอัตโนมัติเพื่อ完成งานแบบ闭环 เมื่อรวมกับการรับรู้สถานะผู้โดยสารและสภาพถนนจากเซ็นเซอร์ ยังสามารถให้บริการ如โหมดเด็ก、การปรับเส้นทางอัจฉริยะ等ได้อย่าง主动

Sage ไม่ใช่ผู้ช่วยเสียงที่ “ถูก唤醒แบบ被动、ตอบสนองครั้งเดียว” อีกต่อไป แต่เป็นเพื่อนร่วมเดินทางที่เข้าใจสถานการณ์ คิดเป็น และให้บริการได้จริง

ลิงก์论文:

[1] arXiv: https://arxiv.org/abs/2601.21754
[2] arXiv: https://arxiv.org/abs/2510.00861

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/31485

Like (0)

0 0

GBrain: ติดตั้งความจำระยะยาวให้ AI Agent สร้างระบบอัตโนมัติใน 12 วัน

Previous 2 hours ago

600 ล้านดอลลาร์! SpaceX ของมัสก์ซื้อเครื่องมือเขียนโค้ด Cursor

Next 2 hours ago

คลังสินค้า AI

TRAE SOLO เปิดตัวเวอร์ชันอิสระ: AI ข้ามสายงานสำหรับการทำงาน ครบวงจรผลิตภัณฑ์ การตลาด ข้อมูล และการพัฒนาด้วยคลิกเดียว

TRAE SOLO เปิดตัวเวอร์ชันแอปพลิเคชันเดี่ยว: AI ข้ามสายงาน ช่วยจัดการทุกขั้นตอนการทำงาน ตั้งแต่ผลิตภัณฑ์ การตลาด ข้อมูล ไปจนถึงการพัฒนา (ตอนที่ 1) TRAE SOLO เวอร์ชันแอปพลิเคชันเดี่ย…

2026年4月1日
125000
คลังสินค้า AI

ทีมจากชิงหวาและฮาร์วาร์ดสร้าง MorphMind แพลตฟอร์ม AI ที่ควบคุมได้ระดับโลกเป็นครั้งแรก: ลาก่อนกล่องดำ AI สัมผัสประสบการณ์การควบคุมที่วางแผนมาอย่างดี

ลาก่อนกล่องดำ AI: ทีมวิจัยจาก Tsinghua และ Harvard สร้างแพลตฟอร์ม AI ที่ควบคุมได้ MorphMind เมื่อโมเดล AI ที่ทรงพลังแพร่หลายมากขึ้น ผู้ใช้จำนวนมากกลับเริ่มคิดถึงสิ่งหนึ่งในระหว่างก…

2026年3月13日
248000
คลังสินค้า AI

บริษัท Unitree Technology เปิดตัว Unitree As2 หุ่นยนต์สุนัข: ความสามารถในการวิ่งข้ามภูมิประเทศเหนือจินตนาการ, โมเดลไบโอนิคขนาดใหญ่เสริมพลังให้เพื่อนอัจฉริยะ

ช่วงวันหยุดปีใหม่เพิ่งผ่านพ้นไป หัวข้อ AI และหุ่นยนต์ก็กลายเป็นที่พูดถึงอย่างกว้างขวางในหมู่ประชาชน บนเวทีงานฉลองเทศกาลฤดูใบไม้ผลิ หุ่นยนต์ของ Unitree Technology ประสบความสำเร็จในก…

2026年2月25日
248000
คลังสินค้า AI

Zhipu AI เปิดตัว AutoClaw: ติดตั้ง Agent แบบ Local ด้วยคลิกเดียว เชื่อมต่อ Feishu เพียงแค่สแกน QR Code พร้อม 60+ ทักษะที่ไม่ต้องปรับแต่ง

ความนิยมของ AutoClaw ยังคงดำเนินต่อไป หลังจากคุ้นเคยกับผู้ช่วยแชทแล้ว ผู้ใช้จำนวนมากเริ่มหวังที่จะมีเอเจนต์ (Agent) อัจฉริยะที่สามารถช่วยเหลือในการทำงานได้จริง แม้ว่าเอเจนต์จะมีประ…

2026年3月11日
324000
คลังสินค้า AI

GitHub โปรเจกต์ล้ำค่าที่รวบรวมไว้: ตั้งแต่การจัดวางรูปภาพในวิทยานิพนธ์ไปจนถึง AI Agent เครื่องมือประสิทธิภาพ 7 รายการที่จะช่วยเพิ่มประสิทธิภาพการพัฒนา

01 การสร้างภาพประกอบงานวิจัยอัตโนมัติ: AutoFigure-Edit อะไรคือสิ่งที่ปวดหัวที่สุดในการเขียนวิทยานิพนธ์? การวาดรูป โดยเฉพาะแผนภาพลำดับงานและแผนภาพโครงสร้าง มักใช้เวลามาก AutoFigure-…

2026年2月24日
366000