งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

ในกระบวนการพัฒนารุ่นภาษาขนาดใหญ่ (LLM) ขั้นตอนหลังการฝึกฝนมักถูกมองว่าเป็นขั้นตอนสำคัญที่มอบความสามารถเฉพาะให้กับโมเดล ความคิดเห็นดั้งเดิมเชื่อว่าโมเดลต้องปรับน้ำหนักผ่านอัลกอริทึมการเรียนรู้แบบเสริมแรง (เช่น PPO, GRPO หรือ RLHF) หรือกลยุทธ์วิวัฒนาการ ในการวนซ้ำและการปรับเกรเดียนต์ซ้ำๆ เพื่อให้ได้ประสิทธิภาพตามที่ต้องการในงานเฉพาะ

อย่างไรก็ตาม นักวิจัยจาก MIT CSAIL คือ Yulu Gan และ Phillip Isola ได้ท้าทายแนวคิดนี้ในเอกสารงานวิจัยล่าสุดของพวกเขา พวกเขาเสนอวิธีการใหม่ชื่อว่า RandOpt ซึ่งสามารถก้าวข้ามข้อจำกัดของการฝึกฝนแบบดั้งเดิมได้เพียงผ่านการรบกวนแบบสุ่มอย่างง่ายและการรวมกลุ่มของโมเดล

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

  • ชื่อเอกสาร: Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights
  • ที่อยู่เอกสาร: https://arxiv.org/pdf/2603.12228

การค้นพบนี้มีความหมายที่พลิกโฉมต่อการทำความเข้าใจพื้นที่พารามิเตอร์ของโมเดลขนาดใหญ่ มันท้าทายความเชื่อเดิมที่ว่า “โซลูชันที่ดีกระจายตัวเบาบางมากในพื้นที่น้ำหนัก” การวิจัยเผยให้เห็นปรากฏการณ์ที่ขัดต่อสัญชาตญาณ: หลังจากเสร็จสิ้นการฝึกฝนล่วงหน้า พื้นที่น้ำหนักของ LLM จริงๆ แล้วก่อตัวเป็น “ป่าประสาท” ที่หนาแน่น ซึ่งซ่อนตัวอยู่ด้วยโมเดล “ผู้เชี่ยวชาญ” จำนวนมากสำหรับงานที่แตกต่างกัน สิ่งนี้ทำให้การสุ่มตัวอย่างอย่างง่ายก็มีโอกาสค้นพบโซลูชันที่มีประสิทธิภาพ

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

เอกสารระบุว่า โมเดลที่ฝึกฝนล่วงหน้าไม่เพียงเป็น “จุดเริ่มต้น” ของการฝึกฝนหลังเท่านั้น แต่ภายในพื้นที่น้ำหนักของมันยังมีผู้เชี่ยวชาญงานที่หลากหลายแฝงอยู่ เมื่อขนาดโมเดลเพิ่มขึ้น ความหนาแน่นของการกระจายตัวของผู้เชี่ยวชาญเหล่านี้ในพื้นที่ก็เพิ่มขึ้นอย่างรวดเร็ว ทำให้วิธีการรบกวนแบบสุ่มและการรวมกลุ่มสามารถจับโซลูชันที่เหนือกว่าได้อย่างมีประสิทธิภาพ

จากทฤษฎีนี้ อัลกอริทึม RandOpt มีการดำเนินการที่ง่ายมาก: เพียงเพิ่มเสียงแบบเกาส์เซียนขั้นตอนเดียวลงในน้ำหนักของโมเดลที่ฝึกฝนล่วงหน้า (ไม่ต้องวนซ้ำ ไม่ต้องมีอัตราการเรียนรู้ หรือการคำนวณเกรเดียนต์) และทำการรวมกลุ่มของสำเนาโมเดลที่ถูกรบกวนหลายๆ ชุด การทดลองแสดงให้เห็นว่า ด้วยการดำเนินการที่เรียบง่ายสุดขีดนี้เพียงอย่างเดียว โมเดลสามารถบรรลุหรือแม้แต่แซงหน้าประสิทธิภาพของวิธีการฝึกฝนหลังแบบดั้งเดิมในงานที่ซับซ้อน เช่น การให้เหตุผลทางคณิตศาสตร์ การสร้างโค้ด

RandOpt ให้แนวคิดใหม่สำหรับการลดความซับซ้อนของการฝึกฝนหลัง ชี้ให้เห็นว่ากระบวนการฝึกฝนหลังอาจเป็นการ “เลือก” และ “รวมกลุ่ม” ผู้เชี่ยวชาญที่มีอยู่แล้วในโมเดลที่ฝึกฝนล่วงหน้า มากกว่าการ “ฝึกฝน” ความสามารถใหม่ตั้งแต่เริ่มต้น

ผล “ป่า” ของน้ำหนักที่ฝึกฝนล่วงหน้า

เอกสารระบุว่า ขนาดโมเดลกำหนดรูปแบบการกระจายตัวของโซลูชันที่ดีในพื้นที่พารามิเตอร์:

  • โมเดลขนาดเล็ก (กลไกการหาเข็มในมหาสมุทร): โมเดลที่ฝึกฝนไม่เพียงพอหรือมีขนาดเล็ก ความหนาแน่นของโซลูชันที่มีประสิทธิภาพรอบๆ น้ำหนักเริ่มต้นต่ำมาก อยู่ในสถานะ “หาเข็มในมหาสมุทร” ต้องพึ่งพาอัลกอริทึมการค้นหาแบบมีโครงสร้าง เช่น การไล่ระดับลง
  • โมเดลขนาดใหญ่ (กลไกป่าประสาท): โมเดลขนาดใหญ่ที่ผ่านการฝึกฝนล่วงหน้าอย่างเพียงพอ รอบๆ น้ำหนักของมันมีการกระจายตัวหนาแน่นของผู้เชี่ยวชาญที่สามารถเพิ่มประสิทธิภาพงานเฉพาะ ก่อตัวเป็น “ป่าประสาท” ทำให้การสุ่มตัวอย่างสามารถค้นหาโมเดลที่มีศักยภาพได้อย่างรวดเร็ว

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง
แผนภาพแสดงกลไก “หาเข็มในมหาสมุทร” ของโมเดลขนาดเล็ก (ซ้าย) และกลไก “ป่าประสาท” ของโมเดลขนาดใหญ่ (ขวา) รอบๆ โมเดลขนาดใหญ่เต็มไปด้วยชุดโซลูชันสำหรับงานเฉพาะ เช่น โค้ด คณิตศาสตร์

การวิจัยวัดปรากฏการณ์นี้ผ่านตัวชี้วัดหลักสองประการ:

  • ความหนาแน่นของโซลูชัน: ความน่าจะเป็นที่การรบกวนแบบสุ่มจะทำให้ประสิทธิภาพของโมเดลพื้นฐานเพิ่มขึ้น การทดลองแสดงให้เห็นว่าความหนาแน่นนี้เป็นไปตามกฎการปรับขนาด: ยิ่งโมเดลมีขนาดใหญ่และประสิทธิภาพดีขึ้น ความหนาแน่นของโซลูชันคุณภาพสูงรอบๆ ก็จะสูงขึ้น
  • ความหลากหลายของโซลูชัน: โมเดลที่ดีที่ได้จากการสุ่มตัวอย่างมักเป็น “ผู้เชี่ยวชาญเฉพาะทาง” มากกว่า “ผู้รอบรู้” การรบกวนที่เพิ่มประสิทธิภาพงานหนึ่งอย่างมีนัยสำคัญ มักจะลดประสิทธิภาพของงานอื่น เมื่อขนาดโมเดลเพิ่มขึ้น ความหลากหลายของโซลูชันก็เพิ่มขึ้นแบบโมโนโทนิกด้วย หมายความว่าความสามารถของผู้เชี่ยวชาญแต่ละคนเสริมกันและไม่ทับซ้อนกัน

เพื่อแสดงให้เห็น “ป่าประสาท” อย่างเป็นรูปธรรม ทีมวิจัยได้ใช้การรบกวนน้ำหนักแบบสุ่ม 1,000 ครั้งกับโมเดล Qwen2.5 ที่ฝึกฝนล่วงหน้าซึ่งมีพารามิเตอร์ตั้งแต่ 0.5B ถึง 32B และทำการแสดงภาพภูมิประเทศของความแม่นยำผ่านการฉายภาพแบบสุ่ม

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง
การทดลองแสดงให้เห็นกฎการปรับขนาดอย่างชัดเจน: เมื่อขนาดโมเดลขยายใหญ่ขึ้น “พื้นที่สีแดง” (พื้นที่ที่ปรับปรุงงาน) ซึ่งแสดงถึงความแม่นยำที่สูงขึ้นในภูมิประเทศเพิ่มขึ้นอย่างมีนัยสำคัญและหนาแน่นมากขึ้น

พูดง่ายๆ ก็คือ พื้นที่พารามิเตอร์ที่โมเดลขนาดใหญ่อยู่คือ “แอ่ง” ที่เต็มไปด้วยโซลูชันที่ดีที่สุดเฉพาะที่สำหรับงานต่างๆ

แล้ว “ป่าประสาท” เกิดขึ้นได้อย่างไร? การทดลองพยากรณ์สัญญาณ 1D แสดงให้เห็นสาเหตุพื้นฐาน นักวิจัยใช้มัลติเลเยอร์เพอร์เซปตรอนทำการฝึกฝนล่วงหน้าแบบพยากรณ์ตัวเองกับสัญญาณหนึ่งมิติแบบผสม (เช่น คลื่นไซน์ คลื่นสี่เหลี่ยม) และเปรียบเทียบสามขั้นตอน:

  • ไม่มีการฝึกฝนล่วงหน้า (ช่วงหาเข็มในมหาสมุทร): ภายใต้การเริ่มต้นแบบสุ่ม การรบกวนเล็กน้อยแทบไม่มีผลต่อฟังก์ชันการทำงาน โซลูชันที่มีประสิทธิภาพอยู่ห่างไกลมาก การสุ่มตัวอย่างล้มเหลวโดยสิ้นเชิง
  • การฝึกฝนล่วงหน้าแบบงานเดียว (ช่วงที่ราบสูง): หลังจากฝึกฝนล่วงหน้าเฉพาะบนสัญญาณเดียว โมเดลถึงขีดจำกัดประสิทธิภาพบนงานนั้นแล้ว แต่รอบๆ น้ำหนักไม่มีความหลากหลายของการทำงาน การเดาแบบสุ่มไม่มีประโยชน์
  • การฝึกฝนล่วงหน้าแบบหลายงานผสม (ช่วงกำเนิดป่า): มีเพียงการฝึกฝนล่วงหน้าแบบผสมบนสัญญาณที่แตกต่างกันหลายชนิดเท่านั้น พื้นที่พารามิเตอร์จึงจะบ่มเพาะ “ป่าผู้เชี่ยวชาญ” ที่สามารถปรับให้เหมาะกับสัญญาณต่างๆ ในทิศทางที่แตกต่างกันได้

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง
การทดลองพยากรณ์สัญญาณ 1D แสดงสามกลไก มีเพียงภายใต้ “การฝึกฝนล่วงหน้าสัญญาณผสม” (รูป b) การรบกวนน้ำหนักจึงจะสร้างการพยากรณ์ฟังก์ชันที่มีรูปร่างหลากหลาย ก่อตัวเป็นป่าประสาท

นี่ก็อธิบายว่าทำไมโมเดลภาษาขนาดใหญ่ที่ฝึกฝนล่วงหน้ากับข้อมูลผสมจำนวนมหาศาล จึงมี “ป่าผู้เชี่ยวชาญ” ที่เต็มไปด้วยชีวิตชีวาอยู่โดยธรรมชาติ

อัลกอริทึม RandOpt: ขั้นตอนเดียว ไม่ใช้เกรเดียนต์ ขนานสมบูรณ์แบบ

จากคุณลักษณะของ “ป่าประสาท” ที่มีความหนาแน่นสูงและหลากหลาย ผู้เขียนได้สำรวจอัลกอริทึมการฝึกฝนหลังที่เรียบง่ายมากและขนานกันอย่างสมบูรณ์ชื่อ RandOpt ซึ่งมีลักษณะคือ: ขั้นตอนเดียว ไม่ใช้เกรเดียนต์ ไม่มีอัตราการเรียนรู้ ไม่มีการวนซ้ำ ขนานกันอย่างสมบูรณ์

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

RandOpt หลีกเลี่ยงการอัปเดตเกรเดียนต์แบบลำดับทั้งหมด ประกอบด้วยสองขั้นตอนหลัก:

  • การฝึกฝน (การเดาแบบสุ่มและการตรวจสอบ): สุ่มตัวอย่างเสียงสุ่ม N ตัวอย่างจากการแจกแจงแบบเกาส์เซียนมาตรฐาน เพิ่มลงในน้ำหนักโมเดลพื้นฐานโดยตรง เพื่อสร้างสำเนาที่ถูกรบกวน N ชุด หลังจากนั้นประเมินบนชุดฝึกขนาดเล็ก เลือกโมเดล Top-K ที่ทำได้ดีที่สุดตามคะแนน
  • การอนุมาน (การรวมกลุ่มการพยากรณ์): เมื่อเผชิญกับอินพุตทดสอบ ใช้โมเดล K ตัวที่คัดเลือกมาสร้างการพยากรณ์แยกกัน สุดท้ายรวมคำตอบสุดท้ายผ่านกลไกการโหวตส่วนใหญ่

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง
ความสัมพันธ์ระหว่างประสิทธิภาพของ RandOpt กับขนาดโมเดลพื้นฐาน แผนภูมิแสดงให้เห็นว่าหากไม่มีการฝึกฝนล่วงหน้า ประสิทธิภาพของ RandOpt เกือบเป็นศูนย์; สำหรับโมเดลที่ฝึกฝนล่วงหน้าแล้ว เมื่อจำนวนพารามิเตอร์ถึงประมาณ 1.5B การเพิ่มประสิทธิภาพของ RandOpt เริ่มปะทุ

คุณลักษณะสำคัญของกลไกนี้คือไม่จำเป็นต้องคำนวณเกรเดียนต์เลย และไม่เกี่ยวข้องกับขั้นตอนการปรับให้เหมาะสมแบบลำดับใดๆ การสร้างและการประเมินโมเดลทั้งหมดสามารถประมวลผลแบบขนานกันอย่างสมบูรณ์

การเปรียบเทียบ RandOpt กับวิธีการดั้งเดิม

วิธีการที่ดู “ง่ายและรุนแรง” นี้ แสดงให้เห็นประสิทธิภาพที่น่าประหลาดใจในการทดสอบมาตรฐานจริง ทีมวิจัยได้ทำการประเมินอย่างครอบคลุมบนโมเดลหลายตัวที่มีขนาดพารามิเตอร์ตั้งแต่ 0.5B ถึง 8B (เช่น Qwen, Llama, OLMo) ในงานต่างๆ เช่น การให้เหตุผลทางคณิตศาสตร์ (Countdown, GSM8K เป็นต้น) การสร้างโค้ด (MBPP) การเขียนเชิงสร้างสรรค์ (ROCStories) และเคมี (USPTO)

ภายใต้เงื่อนไขที่ใช้จำนวนการดำเนินการจุดลอยตัวในการฝึกฝน (FLOPs) เท่ากัน RandOpt (โดยทั่วไปตั้งค่า K=50) ในสถานการณ์ส่วนใหญ่ไม่เพียงแต่เทียบเท่า แต่ยังแซงหน้าวิธีการฝึกฝนหลังมาตรฐาน เช่น PPO, GRPO และ ES

นอกจากนี้ RandOpt มีข้อได้เปรียบอย่างมีนัยสำคัญในเรื่องเวลาในการฝึก วิธีการมาตรฐานแบบดั้งเดิมต้องรันขั้นตอนการอัปเดตแบบลำดับหลายร้อยขั้นตอน (ความซับซ้อนเวลา O(T)) ในขณะที่ขั้นตอนการฝึกของ RandOpt คือ O(1) เอกสารระบุว่า การใช้ RandOpt ฝึกโมเดล OLMo-3-7B-Instruct บนคลัสเตอร์ที่มี GH200 GPU 200 ตัว ตั้งค่า N=2000 และ K=50 ใช้เวลาเพียง 3.2 นาทีก็เสร็จสิ้น และบรรลุความแม่นยำ 70% ในงาน Countdown

ความสามารถในการใช้ RandOpt ไม่จำกัดเฉพาะโมเดลภาษาเท่านั้น บนโมเดลภาษาภาพ (VLM) โดยการแช่แข็งตัวเข้ารหัสภาพและรบกวนเฉพาะน้ำหนักโมเดลภาษา RandOpt เพิ่มความแม่นยำของโมเดล Qwen2.5-VL-Instruct ขนาด 3B พารามิเตอร์บนชุดข้อมูลการให้เหตุผลภาพ GQA ขึ้น 12.4%

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

การเพิ่มประสิทธิภาพมาจากไหนจริงๆ? และต้องแลกกับอะไร?

เพื่อยืนยันแหล่งที่มาที่แท้จริงของการเพิ่มความสามารถของโมเดล นักวิจัยได้แยกย่อยการระบุสาเหตุข้อผิดพลาดของการเพิ่มประสิทธิภาพบนชุดข้อมูล GSM8K อย่างละเอียด

ข้อมูลแสดงให้เห็นว่าสำหรับ RandOpt (K=50) ที่บรรลุความแม่นยำ 86.7% หลังการรวมกลุ่ม การเพิ่มขึ้นนั้น 19.0% มาจาก “ป่ารูปแบบ” นั่นคือโมเดลพื้นฐานคำนวณถูก แต่รูปแบบผลลัพธ์ไม่ตรงตามข้อกำหนดการประเมินที่เข้มงวด และโมเดลที่ถูกรบกวนแก้ไขรูปแบบ สิ่งสำคัญกว่านั้นคือ มีการเพิ่มขึ้น 12.3% ที่มาจาก “ป่าให้เหตุผล” ที่แท้จริง นั่นคือโมเดลพื้นฐานเดิมคำนวณผิด และโมเดลที่ถูกรบกวนเรียนรู้การให้เหตุผลที่ถูกต้องจริงๆ และได้คำตอบที่ถูกต้อง ผลลัพธ์นี้พิสูจน์อย่างหนักแน่นว่าในป่าประสาทมีผู้เชี่ยวชาญที่เชี่ยวชาญทักษะที่มีสาระสำคัญแตกต่างกันจริงๆ ไม่ใช่แค่การปรับแต่งรูปแบบผิวเผิน

ไม่เพียงเท่านั้น ปรากฏการณ์ป่านี้ในขอบเขตการสร้างภาพจากข้อความ (เช่น โมเดล Stable Diffusion XL) แสดงออกมาเป็น “ป่าสี” บางพื้นที่เฉพาะที่ของพื้นที่พารามิเตอร์จะสร้างภาพที่มีจานสีเฉพาะ (เช่น นำโดยสีน้ำเงินหรือสีเหลือง) หรือสไตล์ภาพที่มีความหลากหลายในการสร้างสูง

งานวิจัยที่พลิกโฉมจาก MIT: ปลดล็อกศักยภาพแฝงของโมเดลขนาดใหญ่ด้วยการรบกวนแบบสุ่ม โดยไม่ต้องใช้การเรียนรู้แบบเสริมกำลัง

RandOpt ในการอนุมานจำเป็นต้องทำการส่งต่อ K ครั้ง ซึ่งไม่เอื้อต่อการนำไปใช้งานจริง เพื่อแก้ไขปัญหานี้ นักวิจัยได้เสนอแผนการกลั่น: พวกเขาใช้โมเดล Top-50 ที่คัดเลือกโดย RandOpt สร้างการตอบสนองหลายหมื่นรายการที่มีเส้นทางการให้เหตุผล จากนั้นเลือก “ตัวอย่างยาก” ที่โมเดลพื้นฐานมักทำผิด จากนั้นทำการปรับแต่งภายใต้การดูแลเพียงสองรอบกับโมเดลพื้นฐานเท่านั้น

ผลการทดลองน่าตื่นเต้น: บน GSM8K ประสิทธิภาพของโมเดลเดี่ยวหลังการกลั่น (84.3%) ใกล้เคียงกับโมเดลรวมกลุ่มขนาดใหญ่ (87.1%) มาก และกระบวนการกลั่นนี้มีต้นทุนการคำนวณเพียงประมาณ 2% ของต้นทุนการฝึก RandOpt


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25850

Like (0)
Previous 1 day ago
Next 8 hours ago

相关推荐