การวิจัยของ MIT

การฝึกโมเดลขนาดใหญ่

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

ในกระบวนการพัฒนารุ่นภาษาขนาดใหญ่ (LLM) ขั้นตอนหลังการฝึกฝนมักถูกมองว่าเป็นขั้นตอนสำคัญที่มอบความสามารถเฉพาะให้กับโมเดล ความคิดเห็นดั้งเดิมเชื่อว่าโมเดลต้องปรับน้ำหนักผ่านอัลกอริทึม…

23 hours ago
26000