NVIDIA เปิดตัว Nemotron 3 Super แบบโอเพนซอร์ส: 1.2 แสนล้านพารามิเตอร์ ออกแบบสำหรับ Agent โดยเฉพาะ ประสิทธิภาพทัดเทียม Claude Opus 4.6

2026年3月12日 am10:47 • ข่าวสารอุตสาหกรรม AI • 223 views

NVIDIA บริษัทที่มีมูลค่าตลาดนำของโลก ได้ก้าวเข้าสู่สาขา OpenClaw อย่างเป็นทางการ โมเดลโอเพนซอร์สล่าสุดที่เปิดตัว Nemotron 3 Super ถูกสร้างขึ้นสำหรับ AI Agent ขนาดใหญ่โดยเฉพาะ

โมเดลนี้มีพารามิเตอร์ 120 พันล้านตัว ใช้พารามิเตอร์ที่ถูกกระตุ้น (activation parameters) 12 พันล้านตัว รองรับความยาวคอนเท็กซ์ (context length) ได้ 1 ล้านโทเค็น ระบุว่าความเร็วในการอนุมานเพิ่มสูงขึ้นถึง 3 เท่า และปริมาณงาน (throughput) เพิ่มขึ้นถึง 5 เท่า

NVIDIA เปิดตัว Nemotron 3 Super แบบโอเพนซอร์ส: 1.2 แสนล้านพารามิเตอร์ ออกแบบสำหรับ Agent โดยเฉพาะ ประสิทธิภาพทัดเทียม Claude Opus 4.6

Nemotron 3 Super ใช้สถาปัตยกรรมแบบผสม Mamba-MoE ที่เป็นนวัตกรรมใหม่ มีเป้าหมายเพื่อแก้ไขปัญหาคอขวดด้านประสิทธิภาพในการทำงานร่วมกันของหลาย Agent เป็นโมเดลแรกในตระกูล Nemotron 3 ที่บรรลุความก้าวหน้าทางเทคนิคสำคัญสามประการ:
* การฝึกก่อน (Pre-training) ด้วยความแม่นยำ NVFP4 แบบเนทีฟ: ใช้ความแม่นยำ NVFP4 ตลอดกระบวนการฝึกก่อน ลดความต้องการหน่วยความจำกราฟิก (VRAM) อย่างมาก
* สถาปัตยกรรม LatentMoE แบบใหม่: ปรับปรุง “ความแม่นยำต่อหน่วยพลังการคำนวณ” และ “ความแม่นยำต่อหน่วยพารามิเตอร์”
* แนะนำชั้นการทำนายหลายโทเค็น (Multi-Token Prediction – MTP): เพิ่มความเร็วในการอนุมานอย่างมีนัยสำคัญผ่านการรองรับเทคโนโลยี “การถอดรหัสเชิงคาดการณ์ (speculative decoding)” แบบเนทีฟ

ในการทดสอบมาตรฐาน Pinchbench Nemotron 3 Super ติดอันดับต้นในหมวดโมเดลโอเพนซอร์ส ในด้านอัตราความสำเร็จของงาน OpenClaw ได้คะแนน 85.6% มีประสิทธิภาพใกล้เคียงกับโมเดลปิดชั้นนำอย่าง Claude Opus 4.6 และ GPT-5.4

ปัจจุบัน ชุดข้อมูลการฝึกก่อนและหลังการฝึก (pre-training และ post-training) ของ Nemotron 3 Super ที่มีมากกว่า 10 ล้านล้านโทเค็น ระเบียบวิธีฝึกแบบสมบูรณ์ และสภาพแวดล้อมการเรียนรู้แบบเสริมแรง (RL) 15 รายการ ได้ถูกเปิดเป็นโอเพนซอร์สทั้งหมด

ที่อยู่โอเพนซอร์ส: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

โมเดล 120 พันล้านพารามิเตอร์ ออกแบบสำหรับยุค Agent

ปัจจุบัน แอปพลิเคชัน AI กำลังเปลี่ยนจากการสนทนาแบบเทิร์นเดียวไปสู่การทำงานร่วมกันของหลาย Agent ซึ่งมักเผชิญกับความท้าทายหลักสองประการ:

ประการแรก การระเบิดของคอนเท็กซ์ (Context Explosion) จำนวนโทเค็นที่สร้างโดยเวิร์กโฟลว์ของหลาย Agent อาจสูงกว่าการสนทนาปกติถึง 15 เท่า แต่ละการโต้ตอบจำเป็นต้องส่งประวัติทั้งหมด (รวมถึงผลลัพธ์ของเครื่องมือและการให้เหตุผลขั้นกลาง) ใหม่ทั้งหมด ส่งผลให้ต้นทุนพุ่งสูงขึ้น และอาจทำให้เกิดการเบี่ยงเบนเป้าหมาย (goal drift) เมื่อทำงานในระยะยาว

ประการที่สอง “ภาษีการคิด (Thinking Tax)” Agent ที่ซับซ้อนจำเป็นต้องให้เหตุผลในทุกขั้นตอน หากแต่ละงานย่อยเรียกใช้โมเดลภาษาขนาดใหญ่ (LLM) จะทำให้แอปพลิเคชันหลาย Agent มีต้นทุนสูงและตอบสนองช้า ยากต่อการนำไปใช้จริง

Nemotron 3 Super โอเพนซอร์สจาก NVIDIA มีเป้าหมายเพื่อแก้ไขปัญหาคอขวดทั้งสองนี้

ที่อยู่รายงานทางเทคนิค: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

โมเดลนี้รองรับความยาวคอนเท็กซ์ 1 ล้านโทเค็น ในสภาพแวดล้อมเช่น OpenClaw สามารถเก็บสถานะเวิร์กโฟลว์ทั้งหมดไว้ในหน่วยความจำได้อย่างสมบูรณ์ เพื่อรับประกันความสอดคล้องทางตรรกะตั้งแต่ต้นจนจบ

ในการทดสอบมาตรฐานของ Artificial Analysis Nemotron 3 Super ได้รับผลลัพธ์นำในทั้งด้านประสิทธิภาพและรายการโมเดลโอเพนซอร์ส ในหมวดโมเดลโอเพนซอร์สขนาดเดียวกัน ความแม่นยำก็โดดเด่นเช่นกัน

นอกจากนี้ NVIDIA AI-Q Agent วิจัยที่สร้างจากโมเดลนี้ ติดอันดับ 1 ในกระดานคะแนน DeepResearch Bench และ DeepResearch Bench II

นวัตกรรมสถาปัตยกรรมแบบผสม ปริมาณงานเพิ่มขึ้น 5 เท่า

Nemotron 3 Super ได้ปรับโครงสร้างสถาปัตยกรรมพื้นฐานใหม่ เน็ตเวิร์ก 88 ชั้นใช้การจัดเรียงสลับกันเป็นระยะ:
* ชั้น Mamba-2: รับผิดชอบการสร้างแบบจำลองลำดับ (sequence modeling) ที่มีประสิทธิภาพ ให้ความซับซ้อนเวลาเชิงเส้น (linear time complexity)
* ชั้นความสนใจ Transformer (Transformer Attention Layer): ถูกสอดแทรกเป็น “จุดยึดระดับโลก (global anchor)” รับผิดชอบการกำหนดเส้นทางข้อมูลระยะไกลและการให้เหตุผลความแม่นยำสูง

เมื่อเทียบกับโมเดล Nemotron Super รุ่นก่อน สถาปัตยกรรมใหม่นี้ทำให้ปริมาณงานเพิ่มสูงขึ้นถึง 5 เท่า และความแม่นยำเพิ่มขึ้นถึง 2 เท่า ในการเปรียบเทียบกับโมเดลต่างๆ เช่น GPT-OSS-120B, Qwen3.5-122B Nemotron 3 Super ได้คะแนนสูงสุดในทุกกรณี ในสถานการณ์ลำดับอินพุต 8k เอาต์พุต 64k ปริมาณงานของมันสูงกว่าโมเดลทั้งสองข้างต้น 2.2 เท่า และ 7.5 เท่า ตามลำดับ

LatentMoE: การออกแบบผู้เชี่ยวชาญที่ตระหนักถึงฮาร์ดแวร์

Nemotron 3 Super ได้แนะนำสถาปัตยกรรม “MoE แฝง (Latent MoE)” เป็นครั้งแรก แนวคิดหลักคือ: ก่อนการกำหนดเส้นทางและการคำนวณผู้เชี่ยวชาญ ให้ฉายภาพโทเค็นจากมิติที่ซ่อนอยู่ d ไปยังมิติแฝง ℓ ที่เล็กกว่าก่อน การกำหนดเส้นทางและการคำนวณผู้เชี่ยวชาญเกิดขึ้นในมิติที่เล็กกว่านี้

นั่นหมายความว่าพารามิเตอร์ผู้เชี่ยวชาญที่ต้องโหลดและปริมาณการสื่อสารข้ามการ์ดลดลงอย่างมาก (ลดลง d/ℓ เท่า) ทรัพยากรที่ประหยัดได้สามารถนำไปใช้เพิ่มจำนวนผู้เชี่ยวชาญทั้งหมดและจำนวนผู้เชี่ยวชาญที่ถูกกระตุ้นในแต่ละครั้ง ซึ่งจะช่วยเพิ่มความแม่นยำของโมเดลโดยไม่เพิ่มต้นทุนการอนุมานอย่างมีนัยสำคัญ ทางบริษัทระบุว่าการออกแบบนี้สามารถกระตุ้นความสามารถของผู้เชี่ยวชาญ 4 คนด้วยต้นทุนการคำนวณของผู้เชี่ยวชาญ 1 คน

เมื่อเทียบกับ MoE แบบดั้งเดิม LatentMoE มีข้อได้เปรียบในด้านอัตราการใช้พารามิเตอร์และอัตราการใช้พลังการคำนวณ

การทำนายหลายโทเค็น: ได้ประโยชน์สองต่อ

Nemotron 3 Super ยังรวมเทคโนโลยีการทำนายหลายโทเค็น (MTP) ซึ่งมีเป้าหมายเพื่อเพิ่มทั้งคุณภาพโมเดลและประสิทธิภาพการอนุมานพร้อมกัน

เป้าหมายการฝึกแบบดั้งเดิมคือ “การทำนายโทเค็นถัดไป” ในขณะที่ MTP ต้องการให้โมเดล ทำนายโทเค็นในอนาคตหลายตัวพร้อมกันในแต่ละตำแหน่ง สิ่งนี้บังคับให้โมเดลเรียนรู้ความสัมพันธ์เชิงเหตุและผลระหว่างหลายขั้นตอนและโครงสร้างข้อความที่ยาวขึ้น ซึ่งช่วยลดการสูญเสีย (loss) ในชุดตรวจสอบ (validation set) และเพิ่มประสิทธิภาพงานปลายน้ำได้อย่างมีประสิทธิภาพ

ข้อได้เปรียบอีกประการของ MTP คือการทำให้เกิด การถอดรหัสเชิงคาดการณ์ (Speculative Decoding) แบบเนทีฟ เฮดการทำนายเพิ่มเติมเทียบเท่ากับ “โมเดลร่าง (draft model)” ในตัวโมเดล เมื่อทำการอนุมาน เฮดการทำนายจะสร้างตัวเลือกโทเค็นถัดไปอย่างรวดเร็ว โมเดลหลักจะทำการตรวจสอบในการส่งต่อ (forward propagation) ครั้งเดียว ซึ่งช่วยลดความล่าช้าในการสร้างอย่างมาก โดยมีค่าใช้จ่ายการคำนวณเพิ่มเติมน้อยมาก

การฝึกก่อนด้วยความแม่นยำ NVFP4 แบบเนทีฟ

ดังที่ Bryan Catanzaro รองประธานฝ่ายวิจัยของ NVIDIA กล่าว Nemotron 3 Super ได้รับการออกแบบมาสำหรับสถาปัตยกรรม Blackwell โดยเฉพาะ การฝึกก่อนทั้งหมดทำงานบนแพลตฟอร์ม Blackwell โดยใช้ความแม่นยำ NVFP4 โดยรับประกันการสูญเสียความแม่นยำเป็นศูนย์ ความเร็วในการอนุมานบน Blackwell เร็วกว่าการใช้ความแม่นยำ FP8 บนสถาปัตยกรรม Hopper ถึง 4 เท่า

ข้อมูล 25 ล้านล้านโทเค็น และสภาพแวดล้อม RL 21 รายการ

เช่นเดียวกับ Nemotron 3 Nano รุ่นก่อน Nemotron 3 Super ใช้ข้อมูลข้อความ 25 ล้านล้านโทเค็นสำหรับการฝึกก่อน

การฝึกก่อนแบ่งออกเป็นสองขั้นตอน:
1. ขั้นตอนที่หนึ่ง: ใช้ข้อมูล 80% (20 ล้านล้านโทเค็น) มุ่งเน้นที่ความหลากหลายและความกว้างของข้อมูล คอร์ปัสครอบคลุม 16 หมวดหมู่หลัก เช่น เว็บเพจ รหัส (โค้ด) คณิตศาสตร์ เอกสารวิชาการ ข้อความหลายภาษา เป็นต้น

ขั้นตอนที่สองใช้ข้อมูลที่เหลือ 20% (5 ล้านล้านโทเค็น) ซึ่งเป็นข้อมูลคุณภาพสูงที่ผ่านการคัดสรรมาอย่างดีทั้งหมด เพิ่มน้ำหนักของวิกิพีเดีย PDF คุณภาพสูง และข้อมูลการให้เหตุผล STEM อย่างมาก โดยเฉพาะสำหรับการเพิ่มความแม่นยำของโมเดล

โมเดลพื้นฐานที่ฝึกได้ในที่สุด ได้คะแนน 86.01 ใน MMLU, 75.65 ใน MMLU-Pro และ 84.84 ใน MATH มีประสิทธิภาพเหนือกว่าโมเดลกระแสหลักขนาดพารามิเตอร์เท่ากันอย่างมาก

ในขั้นตอนหลังการฝึก (post-training) NVIDIA มุ่งเน้นไปที่การเพิ่ม “ความสามารถของ AI Agent”

ขั้นตอน SFT ใช้ตัวอย่างมากกว่า 7 ล้านตัวอย่าง โทเค็น 80 พันล้านตัว ในการฝึก ในสัดส่วนการผสมข้อมูล งานที่เกี่ยวข้องกับ Agent มีสัดส่วนสูงถึง 36% ซึ่งสูงกว่างานสนทนา (23%) และงานให้เหตุผล (31%) อย่างมาก

ในจำนวนนี้ ขนาดของข้อมูลการฝึก Agent เติบโตอย่างมีนัยสำคัญ เพียงงานเรียกใช้เครื่องมือแบบสนทนา (conversational tool calling) เพียงอย่างเดียว ก็ขยายจาก 5 โดเมน 15,588 บทสนทนาในโมเดล Nano รุ่นก่อน เป็น 838 โดเมน 279,116 บทสนทนา

ขั้นตอน RL มีความลึกซึ้งยิ่งขึ้น แบ่งออกเป็นสี่ขั้นตอน:

ขั้นตอนที่หนึ่ง Multi-environment RLVR ฝึกพร้อมกันใน 21 สภาพแวดล้อมและ 37 ชุดข้อมูล ครอบคลุมคณิตศาสตร์ รหัส (โค้ด) STEM ความปลอดภัย การสนทนา การปฏิบัติตามคำสั่ง คอนเท็กซ์ยาว ปริศนา และงาน Agent ประเภทต่างๆ ในแต่ละขั้นตอนสุ่มตัวอย่างพรอมต์ 256 ตัว แต่ละพรอมต์สร้างการตอบสนอง 16 แบบ

ขั้นตอนที่สอง SWE-RL ฝึกเฉพาะสำหรับความสามารถด้านวิศวกรรมซอฟต์แวร์ ใช้โทเค็น 20 พันล้านตัว ในแต่ละการวนซ้ำ (iteration) จะเริ่มต้นคอนเทนเนอร์ เรียกใช้ลูป Agent ในที่เก็บรหัส (code repository) จริง แพตช์รหัสที่สร้างขึ้นจะถูกตรวจสอบโดยใช้ชุดทดสอบจริง

ขั้นตอนที่สาม RLHF ใช้โทเค็น 18 พันล้านตัว ฝึกโมเดลรางวัล GenRM ที่ใช้ Qwen3-235B เป็นพื้นฐาน เพื่อควบคุมพฤติกรรมโมเดลอย่างแม่นยำในหัวข้อเกี่ยวกับอัตลักษณ์และความปลอดภัย

ขั้นตอนที่สี่ MTP Recovery แช่แข็งพารามิเตอร์หลัก (backbone) ของโมเดล ฝึกเฉพาะเฮดการ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง