การฝึกโมเดลขนาดใหญ่
-
การก้าวข้ามคอขวดการสื่อสารระหว่าง GPU หลายตัว: AutoOverlap บรรลุการทับซ้อนการคำนวณ-การสื่อสารระดับบล็อกแบบละเอียด เร่งความเร็วสูงสุด 4.7 เท่า
คำสำคัญ: การทับซ้อนการคำนวณ-การสื่อสาร การจัดตารางแบบบล็อก คอมไพเลอร์แบบกระจาย GPU Triton งานหลาย GPU บรรลุการทับซ้อนเชิงลึกของการคำนวณและการสื่อสารภายในเคอร์เนลเดียวผ่านการจัดตารา…
-
Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง
ในกระบวนทัศน์การฝึกอบรมโมเดลขนาดใหญ่และเอเจนต์จำนวนมาก มีแนวทาง “เน้นผลลัพธ์สุดท้าย” ที่แพร่หลาย: ให้รางวัลเพียงตามความถูกต้องของคำตอบสุดท้ายเท่านั้น ถ้าถูกต้องก็ได้คะแ…