NVIDIA เปิดตัวโมเดลผู้เชี่ยวชาญแบบผสมโอเพนซอร์ส Nemotron-3-Super พร้อมพารามิเตอร์ 120B รองรับคอนเท็กซ์ต้านับล้าน
NVIDIA ได้เปิดตัวและปล่อยเป็นโอเพนซอร์สอย่างเป็นทางการสำหรับโมเดลผู้เชี่ยวชาญแบบผสมล่าสุด Nemotron-3-Super ซึ่งมีพารามิเตอร์ 120,000 ล้านตัว และแสดงผลโดดเด่นในการทดสอบมาตรฐานหลายรายการ
ในการทดสอบ PinchBench ซึ่งประเมินความสามารถในการควบคุมเอเจนต์ Nemotron-3-Super ได้คะแนนสูงถึง 85.6% ติดอันดับต้นของโมเดลโอเพนซอร์สในประเภทเดียวกัน นอกจากนี้ ในการประเมิน Artificial Intelligence Index โมเดลนี้ได้คะแนน 37 คะแนน แซงหน้า GPT-OSS-120B ที่ได้ 33 คะแนน

NVIDIA ยังคงลงทุนอย่างต่อเนื่องในด้านโมเดลโอเพนซอร์ส จากเอกสารทางการเงินล่าสุดเปิดเผยว่า บริษัทวางแผนลงทุน 26,000 ล้านดอลลาร์สหรัฐ ในช่วงห้าปีข้างหน้า เพื่อสร้างโมเดลปัญญาประดิษฐ์โอเพนซอร์ส
คอนเท็กซ์ต้านับล้านและการเพิ่มปริมาณงาน 5 เท่า
Nemotron-3-Super รองรับหน้าต่างคอนเท็กซ์ 1 ล้านโทเค็นโดยธรรมชาติ ซึ่งให้ความจุหน่วยความจำระยะยาวที่เพียงพอสำหรับการทำงานกับงานที่ซับซ้อนและมีหลายขั้นตอน ประสิทธิภาพการทำงานก็เพิ่มขึ้นอย่างมีนัยสำคัญ โดยปริมาณงานในการอนุมานสูงกว่าโมเดล Nemotron-Super รุ่นก่อนหน้าถึง 5 เท่า
เมื่อทำงานกับงานที่มีโครงสร้าง เช่น การสร้างโค้ดและการเรียกใช้เครื่องมือ โมเดลนี้สามารถเร่งความเร็วการอนุมานจริงได้สูงสุดถึง 3 เท่า ในการทดสอบเฉพาะด้วยการตั้งค่า 8k อินพุท/64k เอาท์พุท ปริมาณงานในการอนุมานของโมเดลนี้สูงกว่า GPT-OSS-120B ถึง 2.2 เท่า

ในการทดสอบมาตรฐานเฉพาะ:
* ในการทดสอบมาตรฐานวิศวกรรมซอฟต์แวร์ SWE-Bench เมื่อผสานกับเฟรมเวิร์ก OpenHands ได้ความแม่นยำ 60.47% สูงกว่า GPT-OSS-120B ที่ 41.9%
* ในการทดสอบชุดย่อยยากของมาตรฐานการทำงานเทอร์มินัล Terminal Bench ได้คะแนน 25.78% สูงกว่า GPT-OSS-120B เล็กน้อยที่ 24.00%
* ในการทดสอบการใช้เหตุผลสามัญสำนึก MMLU-Pro ได้คะแนน 83.73 คะแนน ดีกว่า GPT-OSS-120B ที่ 81.00 คะแนน
* ในการทดสอบสถานการณ์ธุรกิจที่ซับซ้อน TauBench V2 ซึ่งครอบคลุมภาคการบิน ค้าปลีก และโทรคมนาคม ได้คะแนนเฉลี่ย 61.15%

การออกแบบที่ปรับให้เหมาะกับสถาปัตยกรรม Blackwell
ประสิทธิภาพของ Nemotron-3-Super ได้รับประโยชน์จากการปรับโครงสร้างโมเดลให้เหมาะสมอย่างตรงจุด
เพื่อจัดการกับคอนเท็กซ์ยาวอย่างมีประสิทธิภาพ โมเดลใช้สถาปัตยกรรมแบบผสม Mamba-Transformer การออกแบบนี้รวมชั้น Mamba-2 ที่มีความซับซ้อนของเวลาเชิงเส้นเพื่อจัดการลำดับยาว และสอดแทรกชั้นความสนใจทั่วโลก (Global Attention) ของ Transformer ที่ความลึกสำคัญของเครือข่าย เพื่อรับประกันความถูกต้องของการเชื่อมโยงข้อมูล

ในด้านการขยายขนาดโมเดล เพื่อก้าวข้ามข้อจำกัดด้านการสื่อสารและการคำนวณของสถาปัตยกรรมผู้เชี่ยวชาญแบบผสมดั้งเดิม โมเดลได้นำสถาปัตยกรรมผู้เชี่ยวชาญแบบผสมแฝง (Latent Mixture of Experts) มาใช้ เทคนิคนี้ทำการฉายโทเค็นไปยังสเปซแฝงอันดับต่ำเพื่อลดมิติก่อนการตัดสินใจกำหนดเส้นทาง ทำให้โมเดลสามารถเรียกใช้เครือข่ายผู้เชี่ยวชาญได้มากกว่าถึงสี่เท่าในต้นทุนการคำนวณเท่ากัน เพื่อให้สามารถประมวลผลงานได้ละเอียดยิ่งขึ้น

เพื่อเพิ่มความเร็วในการสร้าง โมเดลได้ผนวกเทคโนโลยีการทำนายหลายโทเค็น (Multi-token Prediction) เข้าไว้โดยธรรมชาติ ด้วยการออกแบบที่ใช้น้ำหนักร่วมกัน โมเดลสามารถทำนายโทเค็นในอนาคตหลายตัวแบบขนานในการส่งต่อข้อมูลไปข้างหน้าครั้งเดียว ซึ่งไม่เพียงเพิ่มความเข้าใจตรรกะระยะยาว แต่ยังนำความสามารถในการถอดรหัสเชิงคาดการณ์ (Speculative Decoding) ในตัวมาใช้ ทำให้ลดเวลาที่ใช้ในงานต่างๆ เช่น การสร้างโค้ด ลงอย่างมีนัยสำคัญ

ในระดับฮาร์ดแวร์ โมเดลใช้รูปแบบ NVFP4 ดั้งเดิมสำหรับการฝึกล่วงหน้า การฝึกล่วงหน้าความแม่นยำต่ำนี้ซึ่งใช้โทเค็น 25 ล้านล้านตัว ทำให้โมเดลปรับให้เข้ากับสถาปัตยกรรม Blackwell ตั้งแต่เริ่มต้น สุดท้ายแล้ว ความเร็วในการอนุมานของโมเดลบนชิป B200 เร็วกว่าบนชิป H100 ถึงสี่เท่า พร้อมทั้งลดความต้องการหน่วยความจำในขณะที่รักษาความแม่นยำไว้
การฝึกเสริมกำลังเพื่อความสามารถของเอเจนต์
เพื่อให้โมเดลมีความสามารถของเอเจนต์ในการทำงานที่ซับซ้อน NVIDIA ได้ใช้กลยุทธ์เสริมกำลังหลายระดับในขั้นตอนหลังการฝึก
ในขั้นตอนการปรับแต่งภายใต้การดูแล (Supervised Fine-Tuning) ทีมพัฒนาวิจัยใช้การฝึกสองขั้นตอน: ขั้นตอนแรกใช้การสูญเสียเฉลี่ยระดับโทเค็นเพื่อสร้างพื้นฐานการให้เหตุผล ขั้นตอนที่สองเปลี่ยนไปใช้การสูญเสียเฉลี่ยระดับตัวอย่าง เพื่อแก้ปัญหาการลดลงของประสิทธิภาพที่เกิดจากอินพุทยาว และรับประกันว่าโมเดลสามารถให้เอาท์พุทสั้นๆ ที่แม่นยำจากข้อมูลมหาศาลได้

สำหรับการโต้ตอบผ่านคำสั่งของเอเจนต์ ทีมงานได้สร้างชุดงานเริ่มต้นที่มีข้อความค้นหาเริ่มต้น 20,000 รายการ และใช้โมเดลเป็นผู้ตัดสินในการคัดกรอง จนได้งานสังเคราะห์คุณภาพสูง 15,000 งานในที่สุด ผ่านการกลั่นกรองเส้นทางการดำเนินการจากโมเดลประสิทธิภาพสูง Nemotron-3-Super ได้เรียนรู้ทักษะการโต้ตอบเทอร์มินัลที่ซับซ้อน

ในขั้นตอนการเรียนรู้เสริมกำลัง (Reinforcement Learning) โมเดลถูกฝึกในสภาพแวดล้อมจริง 21 รูปแบบบนแพลตฟอร์ม NeMo Gym มิติการประเมินครอบคลุมความแม่นยำในการเรียกใช้เครื่องมือ ความสามารถในการดำเนินการของโค้ด และความสมบูรณ์ของแผนงานที่ซับซ้อน
สำหรับงานวิศวกรรมซอฟต์แวร์ที่ยาก โมเดลได้ผ่านขั้นตอนการเรียนรู้เสริมกำลังเฉพาะทางวิศวกรรมซอฟต์แวร์ โดยได้รับการแก้ไขข้อผิดพลาดทางตรรกะผ่านการตอบรับจากการดำเนินการในสภาพแวดล้อมคอนเทนเนอร์ที่แยกออกมา
นอกจากนี้ ทีมงานยังใช้เทคนิคการเรียนรู้เสริมกำลังแบบจุดหมุน (Pivot Reinforcement Learning) ในด้านสำคัญ เช่น การเขียนโปรแกรมและการค้นหา โดยเน้นเสริมกำลังจุดตัดสินใจที่มีความไม่แน่นอนสูงในเส้นทางของผู้เชี่ยวชาญ เพื่อเพิ่มความเสถียรของโมเดลในเวิร์กโฟลว์หลายขั้นตอน และลดการเบี่ยงเบนในการให้เหตุผลในงานยาว
ทรัพยากรโอเพนซอร์สและลิงก์อ้างอิง
NVIDIA ได้เปิดให้น้ำหนักโมเดล สูตรการฝึกและประเมินผล รวมถึงเอกสารการปรับใช้อย่างละเอียดของ Nemotron-3-Super อย่างครบถ้วนแล้ว
ลิงก์โครงการและรายงาน:
* หน้าโครงการ GitHub: https://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super
* รายงานทางเทคนิค: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
* บทนำอย่างเป็นทางการในบล็อก: https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25405
