ต้นทุนโทเค็นนับล้านลดลง 90%! DeepSeek-V4 เปิดเผย: การบีบอัดความสนใจแบบผสมผสาน + การเชื่อมต่อเกินขอบเขตที่ถูกจำกัดด้วยแมนนิโฟลด์ สร้างสถาปัตยกรรมบริบทยาวของโมเดลขนาดใหญ่ขึ้นใหม่

เมื่อหน้าต่างบริบทขยายไปถึงโทเค็นระดับล้าน สถาปัตยกรรมพื้นฐานของโมเดลขนาดใหญ่กำลังอยู่ระหว่างการปรับโครงสร้างใหม่อย่างเงียบๆ DeepSeek-V4 ผสานกลไกความสนใจแบบผสม การเชื่อมต่อส่วนที่เหลือแบบมีข้อจำกัด ตัวปรับแต่งนวัตกรรม และวิธีการทางวิศวกรรมที่รุนแรง ช่วยลดต้นทุนการประมวลผลบริบทระยะยาวลง 90% รอบการเปลี่ยนแปลงสถาปัตยกรรมนี้ มีคนคำนวณตัวเลขเฉพาะบน XHS: ปริมาณการคำนวณก่อนการฝึกของ DeepSeek-V4-Pro อยู่ที่ประมาณ 1e25 FLOPs หากใช้ GB200 หนึ่งแสนเครื่องของ OpenAI (อัตราการใช้ประโยชน์ 30%) การฝึกที่เทียบเท่ากันจะใช้เวลาเพียงประมาณ 19 ชั่วโมง ช่องว่างพลังการคำนวณที่มหาศาลนั้นเห็นได้ชัด

อย่างไรก็ตาม ต้นทุนหลักของการฝึกโมเดลขนาดใหญ่อยู่ที่การลองผิดลองถูกซ้ำแล้วซ้ำเล่า คุณค่าที่แท้จริงของพลังการคำนวณที่เพียงพอคือการตรวจสอบการตัดออกแบบขนานและหลีกเลี่ยงการอุดตันของกระบวนการ ภายใต้ข้อเสียเปรียบนี้ DeepSeek ยังคงส่งมอบโมเดลโอเพนซอร์สคุณภาพสูง ซึ่งทำให้คุณค่าทางเทคนิคโดดเด่นเป็นพิเศษ

ผู้ใช้บางรายยังพบจากการทดสอบว่า ประสิทธิภาพของเวอร์ชัน V4-Flash ใกล้เคียงกับ Claude Sonnet 4.6 รองรับบริบทที่ยาวเป็นพิเศษระดับล้าน คุ้มค่าสูงสุด: โทเค็นล้านรายการราคาเพียงหนึ่งหยวน หลังจากเวอร์ชัน Pro มีพลังการคำนวณสมบูรณ์แล้ว ราคาจะลดลงอีก แนวทางการเลือกในอนาคตจึงค่อยๆ ชัดเจน: เชื่อมต่อ Claude Code ใช้ GLM5.1 เทียบเคียงและทำซ้ำ Claude Opus DeepSeek ทดแทน Claude Sonnet และ Minimax วางตำแหน่งเป็น Claude Haiku การ์ด国产หลายรุ่นประกาศรองรับ Day 0, Day 1 แต่ผลการเปรียบเทียบประสิทธิภาพยังรอการตรวจสอบ

  • DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
  • https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
  • ลิงก์โอเพนซอร์ส: https://huggingface.co/collections/deepseek-ai/deepseek-v4

สัปดาห์นี้ DeepSeek เปิดตัวโมเดลซีรีส์ DeepSeek-V4 ไม่เพียงแต่ขนาดพารามิเตอร์พุ่งสูงถึง 1.6T แต่ยังเปิดประตูสู่บริบทโทเค็นระดับล้านดั้งเดิมโดยตรง

ที่น่าตกใจยิ่งกว่าคือ เมื่อประมวลผล 1 ล้านโทเค็น ปริมาณการคำนวณอนุมานต่อโทเค็นเดี่ยวมีเพียง 27% ของ DeepSeek-V3.2 รุ่นก่อนหน้า และการใช้แคช KV มีเพียง 10% ของรุ่นหลังเท่านั้น

แผนภูมิเปรียบเทียบจำนวนการดำเนินการจุดลอยตัวในการอนุมานและขนาดแคชคีย์-ค่าระหว่างซีรีส์ DeepSeek-V4 และ DeepSeek-V3.2 เผยให้เห็นแก่นของความสำเร็จนี้: ผ่านกลไกความสนใจแบบบีบอัดผสม V4-Pro ในสถานการณ์บริบทระดับล้าน ใช้ FLOPs การอนุมานเพียง 27% และแคช KV 10% ของ V3.2 การก้าวกระโดดประสิทธิภาพระดับนี้ไม่ได้เกิดขึ้นผ่านการควอนไทซ์แบบง่ายๆ แต่เป็นการปรับโครงสร้างกราฟการพึ่งพาการคำนวณของลำดับยาวใหม่โดยพื้นฐาน ทำให้งานระยะไกลที่ไม่สามารถทำได้เนื่องจากต้นทุนการคำนวณสูงเกินไปกลายเป็นไปได้ในเชิงเศรษฐกิจ ปูทางไปสู่การขยายการคำนวณในระหว่างการทดสอบและเวิร์กโฟลว์ตัวแทนที่ซับซ้อน

ความมหัศจรรย์ด้านประสิทธิภาพเช่นนี้มาจากไหน? คำตอบซ่อนอยู่ในสถาปัตยกรรมความสนใจแบบผสมใหม่ (CSA + HCA) การเชื่อมต่อเกินแบบมีข้อจำกัดของแมนิโฟลด์ (mHC) ตัวปรับแต่ง Muon และนวัตกรรมโครงสร้างพื้นฐานทั้งชุดตั้งแต่การฝึกไปจนถึงการอนุมาน

รูปที่ 2: สถาปัตยกรรมโดยรวมของซีรีส์ DeepSeek-V4 ใช้ความสนใจแบบกระจัดกระจายบีบอัดผสมและความสนใจแบบบีบอัดหนักในชั้นความสนใจ ใช้ DeepSeekMoE ในชั้นเครือข่ายฟีดฟอร์เวิร์ด และใช้การเชื่อมต่อเกินแบบมีข้อจำกัดของแมนิโฟลด์เพื่อเสริมการเชื่อมต่อส่วนที่เหลือแบบดั้งเดิม โมเดลยังคงโครงกระดูก Transformer และการทำนายหลายโทเค็น แต่การปรับเปลี่ยนที่สำคัญได้ปรับเปลี่ยนขีดความสามารถของมัน การนำ CSA และ HCA แบบผสมมาใช้เป็นมาตรการหลักในการรับมือกับคอขวดประสิทธิภาพของข้อความยาว ซึ่งทำลายคำสาป FLOPs ที่เพิ่มขึ้นแบบกำลังสองของความสนใจในตัวเองแบบดั้งเดิมตามความยาวลำดับ ในขณะเดียวกัน mHC ไม่ใช่แค่ตัวแทนการเชื่อมต่อส่วนที่เหลือแบบง่ายๆ แต่ผ่านเมทริกซ์การแปลงที่ถูกจำกัดบนแมนิโฟลด์สุ่มคู่ ทำให้มั่นใจในความเสถียรของสัญญาณในการแพร่กระจายไปข้างหน้าและย้อนกลับทางคณิตศาสตร์ ทำให้สามารถฝึกเครือข่ายที่ลึกมากได้ เมื่อรวมกับ DeepSeekMoE สถาปัตยกรรมทั้งหมดจึงจัดการทรัพยากรการคำนวณและหน่วยความจำอย่างละเอียดโดยไม่เสียสละความสามารถในการแสดงออกของโมเดล เป็นตัวอย่างของการผสมผสานวิศวกรรมระบบและทฤษฎีอัลกอริทึม

แต่ความน่าสนใจของรายงานทางเทคนิคไม่ได้อยู่ที่การแสดงให้เห็นว่ามันแข็งแกร่งแค่ไหนเท่านั้น แต่อยู่ที่การเปิดเผย “อยากได้ทั้ง…และ…” ของนักออกแบบและปัญหาพื้นฐานที่ยังไม่มีคำตอบที่สมบูรณ์แบบ

เรามาเจาะลึกจากคำถามสำคัญหกข้อเพื่อดูว่า V4 เต้นบนคมมีดได้อย่างไร

unsetunsetสารบัญunsetunset

  • สารบัญ
    • คำถามที่ 1: เมื่อ “บดขยี้” บริบทแล้ว “เลือกดู” โมเดลจะลืมเบาะแสระยะไกลที่ข้ามบล็อกบีบอัดไปโดยสิ้นเชิงหรือไม่?
    • คำถามที่ 2: การ “ทำให้เชื่อง” กระแสส่วนที่เหลือด้วยข้อจำกัดทางคณิตศาสตร์ จะไปฆ่าความสามารถในการแสดงออกต่อการเปลี่ยนแปลงอย่างกะทันหันของโมเดลหรือไม่?
    • คำถามที่ 3: ตัวปรับแต่ง Muon + MoE จะทำให้พารามิเตอร์ผู้เชี่ยวชาญ “เบี่ยงเบน” แล้วทำให้เส้นทางล่มสลายแบบลูกโซ่หรือไม่?
    • คำถามที่ 4: การควอนไทซ์ FP4 “คืนสภาพแบบไม่สูญเสีย” ฟังดูน่าอัศจรรย์ ในการอนุมานจริง สิ่งที่ได้คือพื้นที่จัดเก็บ หรือพลังการคำนวณ?
    • คำถามที่ 5: แคช KV ที่มีสามระบบ “สถานะบีบอัด” “สถานะหน้าต่างเลื่อน” “สถานะดิสก์” จะทำให้พลังการคำนวณที่ประหยัดได้ทั้งหมดถูกส่งไปให้ตัวจัดตาราง I/O หรือไม่?
    • คำถามที่ 6: การมีอยู่ของ “แพตช์” เช่น เส้นทางเชิงรุกและการหนีบ SwiGLU เป็นการพิสูจน์หักล้างหรือไม่ว่าสถาปัตยกรรมพื้นฐานของ V4 ไม่สามารถลู่เข้าได้อย่างเสถียรด้วยตัวเอง?
  • บทส่งท้าย: การปฏิวัติประสิทธิภาพคือการผจญภัยที่ตรงไปตรงมา

ติดต่อและเข้ากลุ่มได้ที่บัญชีสาธารณะ NeuralTalk พิมพ์ตอบกลับ: เข้ากลุ่ม

คำถามที่ 1: เมื่อ “บดขยี้” บริบทแล้ว “เลือกดู” โมเดลจะลืมเบาะแสระยะไกลที่ข้ามบล็อกบีบอัดไปโดยสิ้นเชิงหรือไม่?

หากต้องอ่านนิยายยาวหนึ่งล้านคำ แต่ถูกกำหนดว่า: อ่านทุก 4 หน้า (การบีบอัด CSA) เขียนสรุปได้เพียงหนึ่งบรรทัด หรือทุก 128 หน้า (การบีบอัด HCA) สรุปสักครั้ง เมื่อต้องย้อนกลับไปค้นหา ต้อง “เลือกเล็กน้อย” จากสรุปทั้งหมดมาดู หากปมสำคัญถูกวางไว้ในหน้าที่ 100 และเฉลยในหน้าที่ 500 หลังจากผ่านการ “บีบอัด-คัดกรอง” หลายสิบรอบ เบาะแสนี้จะยังคงอยู่หรือไม่?

ความสนใจแบบผสมของ DeepSeek-V4 ประกอบด้วย “ความสนใจแบบกระจัดกระจายบีบอัด” (CSA) และ “ความสนใจแบบบีบอัดหนัก” (HCA) สลับกัน โดยเฉพาะ:

  • CSA บีบอัดแคช KV ทุก 4 โทเค็นเป็น 1 รายการ จากนั้นใช้ความสนใจแบบกระจัดกระจายเลือกเฉพาะ 512 หรือ 1024 บล็อกบีบอัดแรกเข้าร่วมการคำนวณ
  • HCA รุนแรงกว่า บีบอัดทุก 128 โทเค็นเป็น 1 รายการ ใช้ความสนใจแบบหนาแน่น

สิ่งนี้ทำให้เกิดความกังวลอย่างหลีกเลี่ยงไม่ได้: ข้อมูลจะถูกลืมอย่างเป็นระบบที่ขอบเขตระหว่างบล็อกบีบอัดหรือไม่?

คำตอบในรายงาน ชัดเจนมาก พวกเขาใช้สามกลไกที่ประสานกันเพื่อต่อสู้กับปัญหานี้:

กลไกที่ 1: หน้าต่างเลื่อน “ค้ำประกัน” ป้องกันการลืมในระยะใกล้

CSA/HCA มองเห็นเฉพาะบล็อกบีบอัดด้านหน้า query หนึ่งไม่สามารถเห็นข้อมูลโทเค็นอื่นภายในบล็อกของตัวเอง ด้วยเหตุนี้ แต่ละชั้นจึงเพิ่มสาขาความสนใจแบบหน้าต่างเลื่อน (ขนาดหน้าต่าง 128) เพื่อเก็บ KV ที่ไม่บีบอัดของ 128 โทเค็นล่าสุดอย่างสมบูรณ์ ซึ่งรับประกันว่าการพึ่งพาบริบทในพื้นที่อย่างน้อยจะแม่นยำอย่างแท้จริง ไม่สูญเสียแม้แต่น้อย

สถาปัตยกรรมหลักที่ 1: CSA (ความสนใจแบบกระจัดกระจายบีบอัด)

แนวคิดหลักของ CSA คือการบีบอัดจำนวนรายการคีย์-ค่า (KV) เหลือ 1/m ของเดิม จากนั้นใช้กลไกความสนใจแบบกระจัดกระจายของ DeepSeek เพื่อเร่งความเร็วเพิ่มเติม นอกจากนี้ ยังรวมรายการ KV ในหน้าต่างเลื่อนจำนวนเล็กน้อยเพื่อเสริมการจับการพึ่งพาแบบละเอียดในพื้นที่ สาระสำคัญสามารถสรุปได้ว่า “บีบอัดก่อน แล้วจึงกระจาย” โดยเฉพาะอย่างยิ่ง ผ่านชุดน้ำหนักการบีบอัดที่เรียนรู้ได้ โมเดลสามารถรวมแคช KV ของโทเค็น m ตัวติดต่อกันเป็นรายการบีบอัดเดียว กระบวนการนี้รักษาข้อมูลระยะไกลในขณะที่ลดต้นทุนการจัดเก็บลงอย่างมาก ต่อจากนั้น คอมโพเนนต์ที่เรียกว่า Lightning Indexer จะเลือกบล็อกบีบอัด k อันแรกที่เกี่ยวข้องมากที่สุดกับ query ปัจจุบันแบบไดนามิกและไม่สม่ำเสมอในเครือข่าย และดำเนินการคำนวณความสนใจหลักเฉพาะกับบล็อกเหล่านี้เท่านั้น การออกแบบนี้แก้ปัญหาปริมาณการคำนวณความสนใจทั่วโลกที่มากเกินไปอย่างชาญฉลาด ในขณะที่สาขาหน้าต่างเลื่อนที่เพิ่มเข้ามาช่วยชดเชยข้อมูลบริบทในพื้นที่ที่สูญเสียไปเนื่องจากการบีบอัด แนวคิดการออกแบบของ CSA แสดงให้เห็นว่ากลไกความสนใจที่มีประสิทธิภาพไม่ได้ทิ้งข้อมูลอย่างง่ายๆ แต่เรียนรู้ที่จะระบุว่าข้อมูลใดควรค่าแก่การเก็บรักษาและให้ความสนใจ จึงบรรลุความสมดุลแบบไดนามิกระหว่างโครงสร้างทั่วโลกและรายละเอียดในพื้นที่ของลำดับ

สถาปัตยกรรมหลักที่ 2: HCA (ความสนใจแบบบีบอัดหนัก)

HCA ใช้กลยุทธ์การบีบอัดที่รุนแรงกว่า โดยรวมรายการ KV ทุก m’ (m’ มากกว่า m มาก) โทเค็นเป็นรายการบีบอัดเดียว เช่นเดียวกัน ยังเพิ่มรายการ KV ในหน้าต่างเลื่อนจำนวนเล็กน้อยเพื่อเสริมการแสดงออกของการพึ่งพาแบบละเอียดในพื้นที่ HCA แสวงหาประสิทธิภาพสูงสุด ซึ่งแตกต่างอย่างชัดเจนกับ CSA ที่เน้นการเลือกแบบกระจัดกระจายที่แม่นยำ HCA กำหนดอัตราการบีบอัด m’ ให้มากกว่า m ของ CSA มาก (เช่น 128) จึงทำให้ข้อมูลลำดับยาวเข้มข้นอย่างยิ่ง ดังนั้นจึงพึ่งพาบริบทโดยสรุปที่บล็อกบีบอัดให้มามากกว่า เนื่องจาก HCA เก็บบล็อกบีบอัดทั้งหมดเพื่อคำนวณความสนใจแบบหนาแน่น จึงประหยัดค่าใช้จ่ายในการจัดทำดัชนีที่จำเป็นสำหรับการเลือกแบบกระจัดกระจาย ดังนั้นเมื่อจัดการกับงานที่ไม่ต้องการความแม่นยำในพื้นที่สูง แต่ต้องการมุมมองทั่วโลก HCA จึงมีข้อได้เปรียบที่สำคัญ ซีรีส์โมเดล V4 สร้างกลยุทธ์แบบผสมที่ชาญฉลาดโดยสลับการใช้ CSA และ HCA ระหว่างชั้น: ชั้น CSA รับผิดชอบการโต้ตอบข้อมูลแบบละเอียดและคัดกรอง ในขณะที่ชั้น HCA ให้พื้นหลังข้อมูลแบบหยาบและทั่วโลก การแบ่งงานนี้ทำให้โมเดลสามารถประมวลผลข้อมูลในระดับนามธรรมที่แตกต่างกัน จึงรักษาความสามารถในการเข้าใจข้อความยาวที่แข็งแกร่งในขณะที่รับประกันประสิทธิภาพสูงสุด

กลไกที่ 2: การบีบอัดซ้อนทับ ทำให้ขอบเขตบล็อกไม่ชัดเจน

ในกระบวนการบีบอัด CSA ได้ออกแบบกลไกการส่งข้อมูลที่แม่นยำ: การสร้างหน่วยบีบอัดแต่ละหน่วยไม่เพียงขึ้นอยู่กับ KV ของโทเค็น m ปัจจุบันเท่านั้น แต่ยังรวมข้อมูลโทเค็นบางส่วนจาก บล็อกบีบอัดก่อนหน้า ด้วย

รายงานเรียกการออกแบบนี้ว่า “ดัชนีมีการซ้อนทับ” วิธีการนี้โดยไม่เพิ่มจำนวนรายการแคช KV สุดท้าย ทำให้บล็อกบีบอัดที่อยู่ติดกันแบ่งปันข้อมูลดั้งเดิมบางส่วน เพิ่มความต่อเนื่องของบริบทระหว่างบล็อกอย่างมาก จึงบรรเทาปัญหาการแยกข้อมูลที่อาจเกิดจากการแบ่งบล็อกแบบแข็ง

กลไกที่ 3: Attention Sink ให้อำนาจโมเดลในการ “ไม่สนใจใคร”

V4 นำเสนอกลไก Attention Sink – หัวความสนใจแต่ละหัวมี sink logit ที่เรียนรู้ได้ ซึ่งถูกเพิ่มเข้าไปในการคำนวณตัวส่วนของความสนใจ

โดยที่:
* แทนฟังก์ชันเลขชี้กำลัง
* แทน sink logit ที่เรียนรู้ได้ของหัวความสนใจที่ i
* รวมผลรวมของบล็อก KV บีบอัดที่ถูกเลือกทั้งหมด

หมายความว่าแต่ละหัวความสนใจมี “สถานีรีไซเคิลความสนใจ” (Sink) ที่เรียนรู้ได้และคงที่ หน้าที่ของมันคือการปรับความเสถียรของการกระจายความสนใจ: โมเดลสามารถ “เท” น้ำหนักความสนใจที่ไร้ประโยชน์หรือมากเกินไปบางส่วนลงใน Sink นี้ เพื่อหลีกเลี่ยงการถูกบังคับให้รวมน้ำหนักความสนใจสูงเกินไปกับโทเค็นที่ไม่เกี่ยวข้องจำนวนเล็กน้อย ทำให้การกระจายน้ำหนักความสนใจที่มีประสิทธิภาพจริงมีความสมเหตุสมผลและราบรื่นยิ่งขึ้น โดยพื้นฐานแล้วจะหลีกเลี่ยงสัญญาณระยะไกลที่อ่อนแอแต่สำคัญถูกกลบด้วยสัญญาณรบกวน

ในการทดสอบ MRCR (การดึงข้อมูลหลายเข็ม) 1M โทเค็น DeepSeek-V4-Pro แสดงความเสถียรที่น่าทึ่งภายในความยาว 128K แม้ขยายเป็นความยาว 1M ผลลัพธ์ยังคงเหนือกว่า Gemini-3.1-Pro อย่างมาก หลักฐานเชิงประจักษ์พิสูจน์ว่า สายการผลิต “บีบอัด-เลือก” นี้อย่างน้อยก็ไม่ล้มเหลวในงานที่ต้องพึ่งพาระยะไกลแบบดึงข้อมูลข้อเท็จจริง

คำถามที่ 2: การ “ทำให้เชื่อง” กระแสส่วนที่เหลือด้วยข้อจำกัดทางคณิตศาสตร์ จะไปฆ่าความสามารถในการแสดงออกต่อการเปลี่ยนแปลงอย่างกะทันหันของโมเดลหรือไม่?

หากกำหนดว่าทุกก้าวที่เดิน ก้าวต้องไม่ใหญ่กว่าก้าวก่อนหน้า ก็จะไม่มีวันหกล้ม แต่เมื่อถึงคราวจำเป็นต้องกระโดดข้ามแอ่งน้ำ คุณจะถูกล็อกไว้ mHC ผูกข้อจำกัด “ไม่ขยาย” กับการเชื่อมต่อส่วนที่เหลือของแต่ละชั้น นี่คือการแลกเปลี่ยนความเสถียรด้วยการเสียสละความสามารถในการเปลี่ยนแปลงการแสดงออกอย่างรุนแรงของเครือข่ายลึกหรือไม่?

DeepSeek-V4 ใช้ Manifold-Constrained Hyper-Connections (mHC) แทนการเชื่อมต่อส่วนที่เหลือแบบดั้งเดิม แกนหลักคือให้เมทริกซ์การแปลงส่วนที่เหลืออยู่บนแมนิโฟลด์ “เมทริกซ์สุ่มคู่” เพื่อรับประกันว่า จึงทำให้สัญญาณไม่ระเบิดทั้งในการแพร่กระจายไปข้างหน้าและย้อนกลับ

แต่รายงานชี้ให้เห็นเส้นทางสำคัญอย่างชัดเจน: ข้อจำกัดใช้เฉพาะกับวิธีการผสมสถานะส่วนที่เหลือเท่านั้น ในขณะที่ความสามารถในการแสดงออกของการแปลงภายในชั้นยังคงเดิม

ทำได้อย่างไร? mHC ขยายความกว้างของกระแสส่วนที่เหลือจาก เป็น (เทียบเท่ากับคัดลอก 4 ชุด) จากนั้นใช้ และ เพื่อจัดระเบียบอินพุตและเอาต์พุตใหม่ ไม่ว่าจะถูกจำกัดอย่างไร อินพุตจริงที่ป้อนให้กับชั้น MoE หรือชั้นความสนใจยังคงเป็น มิติ การคำนวณแบบไม่เชิงเส้นภายในชั้นเหล่านี้ไม่ได้ลดลงเลย

ประเด็นสำคัญคือ ปรัชญาการออกแบบของ mHC คือการแยก “ความเสถียรของการส่งข้อมูล” ออกจาก “ความสามารถในการแสดงออกของการคำนวณโมเดล” โดยสิ้นเชิง วัตถุที่ถูกจำกัดทำหน้าที่เฉพาะกับกระแสส่วนที่เหลือ “ไฮเปอร์สเปซ” ที่ถูกขยายมิติเท่านั้น มีหน้าที่ผสมและส่งข้อมูลประวัติอย่างเสถียร ในขณะที่ชั้น MoE และชั้นความสนใจที่รับผิดชอบการคำนวณหลัก อินพุตและเอาต์พุตยังคงเป็น มิติ ความสามารถในการแปลงแบบไม่เชิงเส้นภายในและความสามารถในการเรียนรู้ ยังคงเดิม ไม่เสียหาย

ข้อจำกัดของ mHC ไม่เพียงไม่เสียสละความสามารถ แต่ผ่านการออกแบบสองช่องทางที่ละเอียดยิ่งขึ้นนี้ ยังวางรากฐานสำหรับการฝึกที่เสถียรและแข็งแกร่งในเครือข่ายที่ลึกมาก

ที่ชาญฉลาดยิ่งกว่านั้น , , ไม่ได้ถูกเขียนตายตัว แต่สร้างแบบเรียลไทม์ตามอินพุต ตามคำพูดของรายงานคือ “การกำหนดพารามิเตอร์แบบไดนามิก” – โมเดลเดียวกันเมื่อประมวลผลโทเค็นต่างกัน จะประกอบกลยุทธ์การผสมส่วนที่เหลือที่แตกต่างกัน ทำให้ความสามารถในการแสดงออกมีมากเกินพอ

คำถามที่ 3: ตัวปรับแต่ง Muon + MoE จะทำให้พารามิเตอร์ผู้เชี่ยวชาญ “เบี่ยงเบน” แล้วทำให้เส้นทางล่มสลายแบบลูกโซ่หรือไม่?

V4 Pro มีผู้เชี่ยวชาญเส้นทาง 384 ราย แต่ละครั้งเปิดใช้งานเพียง 6 ราย ตัวปรับแต่ง Muon กำหนดให้ทำ orthogonalize เมทริกซ์พารามิเตอร์ทั้งหมดก่อนอัปเดต เพื่อประหยัดหน่วยความจำจึงต้องตัดแบ่งและใช้ BF16 บีบอัดการสื่อสารเกรเดียนต์ สิ่งนี้จะทำให้ผู้เชี่ยวชาญต่างกันได้รับความแม่นยำที่มีประสิทธิภาพของการอัปเดตไม่สอดคล้องกัน ร้อน-เย็นไม่เท่ากัน และสุดท้ายเส้นทางสับสนโดยสิ้นเชิงหรือไม่?

นี่แทงจุดอ่อนของการรวม MoE กับ Muon จริงๆ รายงานต้นฉบับก็วางแนวป้องกันสองแนว:

  • ในเชิงตรรกะ绝不แยกผู้เชี่ยวชาญ วิศวกรทำให้การฉายภาพลง การฉายภาพขึ้น และเมทริกซ์ประตูของผู้เชี่ยวชาญ MoE ทั้งหมดแบนราบ จากนั้นเติมและแบ่งให้กับ rank ต่างๆ ตามลำดับ เพื่อรับประกันว่า “ไม่จำเป็นต้องตัดเมทริกซ์ที่เป็นอิสระในเชิงตรรกะใดๆ” ซึ่งหมายความว่า เมทริกซ์พารามิเตอร์ของผู้เชี่ยวชาญแต่ละรายในฐานะหน่วย orthogonalize ของ Muon นั้นสมบูรณ์ จะไม่มีสถานการณ์แปลกประหลาดที่ผู้เชี่ยวชาญครึ่งหนึ่งถูก orthogonalize และอีกครึ่งไม่ถูกจัดการ

  • All-to-All + การรวม FP32 ในพื้นที่ ช่วยกู้คืนความแม่นยำของการควอนไทซ์ เพื่อลดปริมาณการสื่อสารเกรเดียนต์ข้าม rank ลงครึ่งหนึ่ง พวกเขาควอนไทซ์เกรเดียนต์เป็น BF16 จริง แต่เสริมทันที: “เพื่อหลีกเลี่ยงข้อผิดพลาดสะสมที่เกิดจากตัวสะสมความแม่นยำต่ำ เราใช้วิธีการสองขั้นตอนแทนที่ tree หรือ ring reduce-scatter แบบดั้งเดิม” – ขั้นแรกใช้ all-to-all แลกเปลี่ยนเกรเดียนต์ของแต่ละ rank จากนั้นแต่ละ rank ทำการรวมใน FP32 ด้วยตัวเอง วิธีนี้ประหยัดปริมาณการสื่อสารและรักษาความแม่นยำของการสะสม

นอกจากนี้ ยังมีเคล็ดลับความเสถียรเชิงตัวเลขที่ตรงกว่าและได้รับการพิสูจน์ว่าไม่สูญเสีย (จะกล่าวถึงในคำถามที่ 6): SwiGLU Clamping รายงานชี้แจงอย่างชัดเจนว่า การตัดค่าการเปิดใช้งาน SwiGLU โดยตรงในช่วง สามารถกำจัดค่าผิดปกติได้อย่างมีประสิทธิภาพโดยไม่ทำลายประสิทธิภาพของโมเดล จึงยับยั้งจุดสูงสุดของการฝึกที่เกิดจากค่านี้ ซึ่งเสริมซึ่งกันและกันกับเส้นทางเชิงรุก ประกอบเป็นแนวป้องกันสำหรับการฝึกที่เสถียร

แผนผังของโครงการขนานผู้เชี่ยวชาญทั้งหมดของ DeepSeekV4 และงานที่เกี่ยวข้อง แผนภูมินี้เจาะลึกถึงเคล็ดลับของ V4 ในการบรรลุการฝึกที่มีประสิทธิภาพในระดับระบบ – การซ้อนทับการสื่อสาร-การคำนวณแบบละเอียด โครงการดั้งเดิมเช่น Comet ทำได้เพียงการซ้อนทับแบบหยาบ ยังมีเวลาสูญเปล่าจำนวนมากในการรอ โครงการของ V4 จัดตารางผู้เชี่ยวชาญผ่าน “คลื่น” แบ่งการคำนวณและการกระจายและรวมข้ามโหนดเป็นขั้นตอนไปป์ไลน์ที่ละเอียดยิ่งขึ้น ทำให้การสื่อสารซ่อนอยู่หลังการคำนวณอย่างสมบูรณ์ ความชาญฉลาดของการออกแบบนี้คือ ตราบใดที่อัตราส่วนการคำนวณ-การสื่อสารเป็นไปตามเงื่อนไข การลดแบนด์วิธการเชื่อมต่อจะไม่ส่งผลต่อประสิทธิภาพอย่างมีนัยสำคัญ ซึ่งหมายความว่า V4 สามารถทำงานบนฮาร์ดแวร์เครือข่ายที่ถูกกว่า มีความหมายอย่างลึกซึ้งต่อการลดต้นทุนการปรับใช้โมเดล MoE ขนาดใหญ่และส่งเสริมการพัฒนาคลัสเตอร์พลังการคำนวณที่ต่างกัน สะท้อนแนวคิดการออกแบบร่วมกันของอัลกอริทึมและฮาร์ดแวร์

คำถามที่ 4: การควอนไทซ์ FP4 “คืนสภาพแบบไม่สูญเสีย” ฟังดูน่าอัศจรรย์ ในการอนุมานจริง สิ่งที่ได้คือพื้นที่จัดเก็บ หรือพลังการคำนวณ?

รายงานกล่าวว่าน้ำหนัก FP4 สามารถ “ไม่สูญเสีย” เปลี่ยนกลับเป็น FP8 เพื่อเข้าร่วมการคำนวณ สิ่งนี้เหมือนกับการแปลงเอกสารย่อส่วนเป็นดิจิทัลด้วยสแกนเนอร์ความละเอียดสูง – กระบวนการสแกนไม่สูญเสียเพิ่ม แต่รายละเอียดที่หายไปตอนย่อส่วนนั้นไม่หวนกลับ ‘ไม่สูญเสีย’ ของ V4 หมายถึงกระบวนการดีควอนไทซ์ ไม่ใช่ความแม่นยำดั้งเดิม แต่รายละเอียดภาพที่หายไปนั้นไม่หวนกลับ ข้อได้เปรียบ FP4 ของ V4 มีมากน้อยเพียงใดในด้านพื้นที่จัดเก็บ และมีมากน้อยเพียงใดในการเพิ่มพลังการคำนวณอย่างเป็นรูปธรรม?

รายงานยอมรับอย่างตรงไปตรงมาว่า ปัจจุบันผลประโยชน์หลักมาจากการประหยัดพื้นที่จัดเก็บและแบนด์วิธหน่วยความจำ การเพิ่มพลังการคำนวณต้องรอฮาร์ดแวร์รุ่นใหม่ บทนำระบุไว้อย่างชัดเจนแล้ว: “แม้ว่า FLOPs สูงสุดของการดำเนินการ FP4×FP8 บนฮาร์ดแวร์ปัจจุบันจะเท่ากับ FP8×FP8 แต่ในทางทฤษฎีสามารถทำได้บนฮาร์ดแวร์ในอนาคต” ซึ่งหมายความว่า การใช้ FP4 รัน V4 ในวันนี้ ปริมาณงานการคำนวณไม่ได้เพิ่มขึ้น แต่น้ำหนักโมเดลใช้พื้นที่น้อยลง ภาระในการย้ายข้อมูลจากหน่วยความจำกราฟิกลดลง – ซึ่งสำคัญอย่างยิ่งสำหรับแคช KV และการถอดรหัสบริบทที่ยาวเป็นพิเศษ

แล้ว “ไม่สูญเสีย” ทำได้อย่างไร? FP4 ใช้รูปแบบ E2M1 ในขณะที่ FP8 คือ E4M3 ซึ่งมีบิตเลขชี้กำลังมากกว่า 2 บิต ช่วงไดนามิกกว้างกว่า ตราบใดที่ภายในบล็อกควอนไทซ์ FP8 ขนาด 128×128 สเกลแฟกเตอร์ของบล็อกย่อย FP4 ขนาด 1×32 แต่ละอันไม่เกินเกณฑ์ที่กำหนด การดีควอนไทซ์กลับเป็น FP8 จะสามารถดูดซับข้อมูลละเอียดเหล่านี้ได้ โดยไม่เกิดการปัดเศษเพิ่มเติม ดังนั้น “ไม่สูญเสีย” หมายถึงกระบวนการแปลง ไม่ใช่ความแม่นยำดั้งเดิม

ทีมยังทำสิ่งที่ตรงไปตรงมามาก: ในการอนุมานและ RL rollout ใช้น้ำหนัก FP4 จริงโดยตรง ไม่มีการจำลอง สิ่งนี้รับประกันว่าพฤติกรรมการปรับใช้สอดคล้องกับการฝึก ไม่มีการตกแต่ง สรุปได้ว่า FP4 ทำให้ประสิทธิภาพการจัดเก็บของ V4 เพิ่มขึ้นอย่างมาก แต่การเพิ่มพลังการคำนวณต้องรอการอัปเดตฮาร์ดแวร์ รายงานไม่ได้สร้างภาพลวงตา แต่วางอนาคตไว้อย่างชัดเจนบนโต๊ะ

คำถามที่ 5: แคช KV ที่มีสามระบบ “สถานะบีบอัด” “สถานะหน้าต่างเลื่อน” “สถานะดิสก์” จะทำให้พลังการคำนวณที่ประหยัดได้ทั้งหมดถูกส่งไปให้ตัวจัดตาราง I/O หรือไม่?

เปรียบเสมือนการคิดค้นวิธีการจดชวเลขที่เรียบง่ายมาก สมุดบันทึกบางลง 90% แต่รูปแบบพิเศษ ผู้ดูแลต้องต่อชิ้นส่วนและวิ่งไปหลายห้องเก็บเอกสารทุกครั้งที่ต้องการหาข้อมูล เมื่อหาเจอ เวลาที่ประหยัดได้จากการอ่านก็หมดไปกับเวลารอ

กลไกความสนใจแบบผสมของ V4 สร้างแคช KV ที่ต่างกัน: แคชบีบอัดของ CSA/HCA, แคชไม่บีบอัดของหน้าต่างเลื่อน และแคชคงอยู่บนดิสก์สำหรับคำนำหน้าที่ใช้ร่วมกัน ความซับซ้อนนี้เป็นความท้าทายใหญ่ต่อการจัดตารางระบบ หากเวลาแฝง I/O กลายเป็นคอขวดใหม่ ข้อได้เปรียบด้านพลังการคำนวณของสถาปัตยกรรมอาจถูกหักล้างในการปรับใช้จริง

รายงานกล่าวว่าพวกเขากำลังแก้ไขปัญหานี้ผ่านการออกแบบร่วมกันของฮาร์ดแวร์-เคอร์เนล-อัลกอริทึม แทนที่จะยอมรับอย่างเฉยเมย

  • ประการแรก พวกเขาไม่ได้ใช้โซลูชันทั่วไปแบบครึ่งๆ กลางๆ รายงานชี้ให้เห็นโดยตรงว่าการจัดการแคชแบบรวมเช่น PagedAttention จะพบอุปสรรคที่นี่ ดังนั้นจึงออกแบบ ระบบสองราง:
    • หน้าต่างเลื่อนและโทเค็นท้ายที่บีบอัดเป็น “แคชสถานะ” จัดสรรพื้นที่คงที่ล่วงหน้า
    • แคชบีบอัดใช้การจัดการบล็อกแบบคลาสสิก และ借助 การออกแบบร่วมกันของเคอร์เนลความสนใจแบบกระจัดกระจาย ทำให้บล็อกแคชของชั้นต่างๆ สามารถจัดแนวได้ตามธรรมชาติ (ใช้ตัวคูณร่วมน้อยของอัตราส่วนการบีบอัดเป็นขนาดบล็อก) โดยไม่เสียสละประสิทธิภาพของเคอร์เนล
  • ประการที่สอง การทำนายหลายโทเค็น (MTP) ลดความถี่ในการเข้าถึงแคช KV จากแหล่งกำเนิด การสร้างหลายโทเค็นในครั้งเดียวช่วยลดจำนวนครั้งในการโหลดแคชขนาดยักษ์ซ้ำๆ
  • สุดท้าย สำหรับพื้นที่จัดเก็บดิสก์ พวกเขาให้สามกลยุทธ์: จัดเก็บทั้งหมด, ตั้งจุดตรวจสอบทุก p โทเค็น, ไม่จัดเก็บ KV หน้าต่างเลื่อนเลย ผู้ใช้สามารถเลือกใช้พลังการคำนวณเพื่อแลกกับ I/O หรือในทางกลับกันได้อย่างอิสระตามลักษณะฮาร์ดแวร์ ความสามารถในการกำหนดค่านี้เผยให้เห็นการคาดการณ์อย่างลึกซึ้งและการหลีกเลี่ยงคอขวด I/O อย่างแข็งขันของนักออกแบบ

คำถามที่ 6: การมีอยู่ของ “แพตช์” เช่น เส้นทางเชิงรุกและการหนีบ SwiGLU เป็นการพิสูจน์หักล้างหรือไม่ว่าสถาปัตยกรรมพื้นฐานของ V4 ไม่สามารถลู่เข้าได้อย่างเสถียรด้วยตัวเอง?

เครื่องบินที่มีการออกแบบซับซ้อนมาก สั่นสะเทือนอย่างประหลาดระหว่างการทดสอบบิน วิศวกรพบสองวิธี: ใช้บันทึกการบินครั้งก่อนเพื่อปรับเทียบการควบคุมครั้งนี้ (เส้นทางเชิงรุก) และจำกัดมุมสูงสุดของหางเสือทิศทางอย่างแข็ง (Clamping) การสั่นสะเทือนหายไป แต่เราต้องถามต่อไปว่า การออกแบบอากาศพลศาสตร์เริ่มแรกมีข้อบกพร่องพื้นฐานที่ไม่รู้ในทางทฤษฎีหรือไม่?

นี่อาจเป็นส่วนที่กระทบจิตใจที่สุดของรายงานทั้งหมด ทีม DeepSeek ด้วยความตรงไปตรงมาที่หาได้ยาก ยอมรับความไม่เสถียรในการฝึก ให้โซลูชันทางวิศวกรรม แล้วพูดตรงๆ ว่า “ทฤษฎียังไม่เข้าใจ”

การฝึกโมเดล MoE พารามิเตอร์ล้านล้านมีความท้าทายด้านความเสถียร การย้อนกลับอย่างง่ายไม่สามารถแก้ปัญหาจุดสูงสุดของการสูญเสียได้ การวิจัยพบว่าจุดสูงสุดเกี่ยวข้องกับค่าผิดปกติในชั้น MoE และกลไกเส้นทางยังทำให้ปัญหารุนแรงขึ้น ทีมงานเริ่มจากการทำลายวงจรเส้นทางและการยับยั้งค่าผิดปกติ พบสองวิธีที่ใช้งานได้จริงเพื่อรับประกันความเสถียรในการฝึก และแบ่งปันอย่างเปิดเผยเพื่อส่งเสริมการสำรวจเพิ่มเติมของชุมชน

รายงานอธิบายจุดสูงสุดของการสูญเสียที่พบในการฝึก MoE พารามิเตอร์ล้านล้าน และระบุตำแหน่ง: “การปรากฏ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32237

Like (0)
Previous 19 hours ago
Next 19 hours ago

相关推荐