การเรียนรู้แบบเสริมกำลัง
-
Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง
ในกระบวนทัศน์การฝึกอบรมโมเดลขนาดใหญ่และเอเจนต์จำนวนมาก มีแนวทาง “เน้นผลลัพธ์สุดท้าย” ที่แพร่หลาย: ให้รางวัลเพียงตามความถูกต้องของคำตอบสุดท้ายเท่านั้น ถ้าถูกต้องก็ได้คะแ…
-
หุ่นยนต์แสดงศิลปะการต่อสู้บนเวทีชุนหวาน: เทคโนโลยีควบคุมฝูงหุ่นยนต์อัตโนมัติของยูชูเทคเปิดตัวครั้งแรกของโลก
นี่เป็นครั้งที่สามที่หุ่นยนต์ของ Unitree Robotics ปรากฏตัวในงานฉลองเทศกาลฤดูใบไม้ผลิ CCTV แต่กลับนำมาซึ่งความตื่นตาตื่นใจที่ไม่เคยมีมาก่อน ในงานฉลองเทศกาลฤดูใบไม้ผลิ CCTV ปีนี้ Uni…
-
จากเวทีชุนหวั่นสู่สายตาทั่วโลก: หุ่นยนต์ Unitree ทำลายขีดจำกัดทางเทคโนโลยีด้วยการแสดงศิลปะการต่อสู้ของหุ่นยนต์ฮิวแมนนอยด์แบบกลุ่มใน ‘Wu BOT’
“ไซเบอร์กังฟู” ของ Unitree โด่งดังไปถึงต่างประเทศแล้ว เมื่อหุ่นยนต์เริ่มแสดง “กังฟูตัวจริง” เรื่องเล่าทางเทคโนโลยีในงานฉลองตรุษจีนก็เปลี่ยนไป ในช่วงหลายปีที…
-
AI ของจีนทำลายปัญหาคณิตศาสตร์ 300 ปี: ระบบการเรียนรู้เสริมแรง ‘PackingStar’ ทำลายสถิติโลกหลายรายการของ ‘จำนวนจุมพิต’ ในมิติสูง
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI ในทางคณิตศาสตร์มีปัญหาคลาสสิกที่ยากมากชื่อว่า ปัญหาจำนวนการสัมผัส (Kissing Number Problem) มันทำให้มนุษยชาติติดขัดมานานกว่า 300 ปี และล่าสุด งานวิจัยจาก …
-
AI และคณิตศาสตร์โอบกอดกันอย่างลึกซึ้ง: ระบบ PackingStar ของจีนประสบความสำเร็จอย่างเป็นระบบในปัญหาจำนวนจุมพิตหลายมิติ
วันที่ 14 กุมภาพันธ์ ในปัญหาที่มีชื่อว่า “จูบ” ปัญญาประดิษฐ์และคณิตศาสตร์ได้ “โอบกอด” กันอย่างลึกซึ้ง ในปี 1694 นิวตันและเกรกอรีได้ตั้งคำถามขึ้นที่เคมบริดจ์…
-
อัลกอริทึม GRPO ช่วยเสริมระบบมัลติเอเจนต์: วิธีการฝึกอบรมปฏิวัติวงการเพื่อการวางแผนงานที่ซับซ้อน
ระบบเอเจนต์ที่มุ่งเน้นงานระยะยาวจำเป็นต้องมีความสามารถในการวางแผน ใช้เครื่องมืออย่างถูกต้อง และดำเนินการอย่างเป็นขั้นตอน ระบบเอเจนต์สมัยใหม่ส่วนใหญ่พึ่งพาการให้เหตุผล โดยแต่ละครั้ง…
-
ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง “การพูดจากภาพ” และ “การคิดจากข้อความ”
บทความนี้แนะนำผลงานวิจัยจากมหาวิทยาลัยฟู่ตานและห้องปฏิบัติการชีวิตอนาคตอาลีบาบา ซึ่งงานนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว ปัจจุบัน วิธีการให้เหตุผลเชิงภาพ (Visual Reasoning) ได้พ…
-
DAC-RL: กรอบการฝึกฝนการเรียนรู้แบบเสริมกำลังด้วยการอนุมานแบบแบ่งแยกและเอาชนะครั้งแรก ทำลายขีดจำกัดการคิดแบบเป็นโซ่ บรรลุการเพิ่มประสิทธิภาพการอนุมาน 6.3%
คำสำคัญ: การให้เหตุผลแบบแบ่งแยกและเอาชนะ, การเรียนรู้แบบเสริมกำลัง, ความสามารถในการปรับขยายได้ในระหว่างการทดสอบ, การคิดแบบเป็นโซ่, การฝึกโมเดลภาษาขนาดใหญ่ ในปีที่ผ่านมา โมเดลภาษาขน…
-
ทีม HKUST เปิดตัว RebuttalAgent: ใช้ทฤษฎีจิตวิเคราะห์เจตนาผู้ตรวจ เพื่อตอบโต้จุดอ่อนในบทความวิชาการ AI
เมื่อต้องเผชิญกับการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer review) ผู้เขียนหลายคนเคยมีประสบการณ์แบบนี้: ตอบทุกคำถามของผู้ตรวจสอบอย่างชัดเจน แสดงท่าทีถ่อมตัวอย่างเพียงพอ แต่ทำไมสุดท้ายกลับไม…