การวิจัยของ MIT
-
งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง
ในกระบวนการพัฒนารุ่นภาษาขนาดใหญ่ (LLM) ขั้นตอนหลังการฝึกฝนมักถูกมองว่าเป็นขั้นตอนสำคัญที่มอบความสามารถเฉพาะให้กับโมเดล ความคิดเห็นดั้งเดิมเชื่อว่าโมเดลต้องปรับน้ำหนักผ่านอัลกอริทึม…