โมเดลใหญ่สัญชาติจีน DeepSeek-V4 เปิดตัวแล้ว Cambricon เป็นรายแรกที่ปรับให้เข้ากันและเปิดเผยซอร์สโค้ด

2 hours ago • ข่าวสารอุตสาหกรรม AI • 8 views

เผยแพร่โดย Machine Heart

เช้าวันนี้ โมเดล AI ระดับชาติที่วงการ AI รอคอยอย่าง DeepSeek-V4 ได้เปิดตัวแล้ว!

ในทันที Cambricon ได้ทำการปรับใช้ Day 0 สำหรับ DeepSeek-V4-flash ขนาด 285B และ DeepSeek-V4-pro ขนาด 1.6T สองเวอร์ชันบนเฟรมเวิร์ก vLLM โดยโค้ดที่ปรับใช้ได้เปิดเผยสู่ชุมชน GitHub แล้ว

ร่วมกับการเปิดตัว DeepSeek-V3.2 ในปีที่แล้ว Cambricon ได้ปรับใช้ชิปในประเทศเป็นครั้งที่สองติดต่อกันทันที ความร่วมมือที่ใกล้ชิดนี้เกิดจากระบบนิเวศซอฟต์แวร์ NeuWare ที่พัฒนาเองและเทคโนโลยีการออกแบบชิปที่สะสมมายาวนานของ Cambricon รวมถึงการลงทุนอย่างต่อเนื่องในการร่วมมือระหว่างชิปและอัลกอริทึม การทำงานของ DeepSeek-V4 บนชิป Cambricon ถือเป็นเหตุการณ์สำคัญสำหรับอุตสาหกรรม AI ของจีน ก่อนหน้านี้ Cambricon ได้ทำการปรับปรุงประสิทธิภาพซอฟต์แวร์และฮาร์ดแวร์ร่วมกันอย่างลึกซึ้งสำหรับโมเดลตระกูล DeepSeek และบรรลุระดับการใช้พลังการคำนวณที่นำหน้าในอุตสาหกรรม

โมเดลใหญ่สัญชาติจีน DeepSeek-V4 เปิดตัวแล้ว Cambricon เป็นรายแรกที่ปรับให้เข้ากันและเปิดเผยซอร์สโค้ด

ที่อยู่โครงการ GitHub: https://github.com/Cambricon/vllm-mlu?sessionid=

การปรับใช้ครั้งนี้แสดงให้เห็นถึงความสามารถหลักทางเทคโนโลยีของ Cambricon จากสองมิติ: “การโยกย้ายโมเดลอย่างรวดเร็ว” และ “การปรับปรุงประสิทธิภาพสูงสุด”

ปรับใช้โมเดล DeepSeek-V4 ใหม่ได้อย่างรวดเร็ว บรรลุการเปิดตัว Day 0

ในระดับระบบนิเวศซอฟต์แวร์ สแต็กซอฟต์แวร์ NeuWare ของ Cambricon โอบรับชุมชนโอเพนซอร์สอย่างเต็มที่ รองรับเฟรมเวิร์ก AI หลักอย่าง PyTorch, vLLM, Diffusers โดยตรง ทำให้โมเดลใหม่สามารถโยกย้ายไปยังแพลตฟอร์ม Cambricon ได้อย่างรวดเร็ว

ในระดับระบบนิเวศซอฟต์แวร์ในประเทศ Cambricon ร่วมมืออย่างลึกซึ้งกับระบบนิเวศ FlagOS ของ Zhongzhi เพื่อลดอุปสรรคทางนิเวศระหว่างโมเดลและชิปที่มีสถาปัตยกรรมต่างกัน ลดต้นทุนการโยกย้ายและปรับใช้โมเดลเพิ่มเติม

ในระดับการพัฒนาโอเปอเรเตอร์ Cambricon ใช้ประโยชน์จากความเข้ากันได้และความสะดวกของชุมชน Triton ในการพัฒนาและปรับใช้โอเปอเรเตอร์อย่างรวดเร็ว ลดระยะเวลาการปรับฟังก์ชันให้สั้นลง

ในระดับการทำงานร่วมกันของ AI Cambricon พัฒนาเอเจนต์สร้างโค้ด CNAgent เพื่อเร่งกระบวนการทั้งหมดตั้งแต่การสร้างโอเปอเรเตอร์ไปจนถึงการโยกย้ายโมเดล

ในระดับฮาร์ดแวร์ ชิป Cambricon รองรับรูปแบบข้อมูลความแม่นยำต่ำหลักโดยตรง โดยไม่ต้องแปลงเพิ่มเติมเพื่อปรับฟังก์ชันและตรวจสอบความแม่นยำอย่างรวดเร็ว ด้วยการทำงานร่วมกันของซอฟต์แวร์และฮาร์ดแวร์ Cambricon สามารถทำงานได้อย่างเสถียรในวันที่เปิดตัวโมเดล บรรลุการปรับใช้ Day 0 อย่างแท้จริง

ปรับปรุงประสิทธิภาพสูงสุด ปลดปล่อยศักยภาพการอนุมานของ DeepSeek-V4

สำหรับโครงสร้างใหม่ของ DeepSeek-V4 Cambricon ใช้ไลบรารีโอเปอเรเตอร์ฟิวชันประสิทธิภาพสูงที่พัฒนาเอง Torch-MLU-Ops เพื่อเร่งโมดูล Compressor, mHC โดยเฉพาะ ใช้ภาษาโปรแกรมประสิทธิภาพสูง BangC เพื่อเขียน Kernel ที่ปรับแต่งสูงสุดสำหรับโอเปอเรเตอร์ร้อน เช่น Sparse/Compression Attention, GroupGemm เพื่อปลดปล่อยประสิทธิภาพฮาร์ดแวร์ระดับล่างอย่างเต็มที่

ในระดับการปรับปรุงเฟรมเวิร์กการอนุมาน Cambricon รองรับเทคโนโลยีการปรับปรุงอย่างเต็มที่ใน vLLM เช่น การขนานแบบผสม 5D TP/PP/SP/DP/EP, การขนานการคำนวณการสื่อสาร, การหาปริมาณความแม่นยำต่ำ และการแยก部署 PD ผ่านการปรับกลยุทธ์ เพื่อให้ได้ปริมาณงานโทเค็นที่ดีที่สุดภายใต้ข้อจำกัดด้านเวลาแฝง เพิ่มประสิทธิภาพการอนุมานแบบ end-to-end อย่างมีนัยสำคัญ

คุณสมบัติฮาร์ดแวร์ยังถูกใช้ประโยชน์อย่างลึกซึ้ง: ใช้ความสามารถในการเข้าถึงหน่วยความจำและการเรียงลำดับของ MLU เพื่อเร่งโครงสร้าง Sparse Attention, Indexer อย่างมีประสิทธิภาพ แบนด์วิดท์การเชื่อมต่อสูงและเวลาแฝงการสื่อสารต่ำช่วยลดสัดส่วนการสื่อสารในสถานการณ์โหลดงาน Prefill และ Decode ให้เหลือน้อยที่สุด เพิ่มประสิทธิภาพการกระจายการอนุมานสูงสุด

แนวทางการออกแบบซอฟต์แวร์และฮาร์ดแวร์แบบบูรณาการนี้ทำให้ Cambricon สามารถลดต้นทุนพลังการคำนวณและเพิ่มขีดจำกัดประสิทธิภาพในการปรับใช้โมเดลขนาดใหญ่ได้อย่างต่อเนื่อง Cambricon จะยังคง深耕ระบบนิเวศการทำงานร่วมกันของซอฟต์แวร์และฮาร์ดแวร์สำหรับโมเดลขนาดใหญ่ เพื่อมอบโซลูชันการปรับใช้โมเดลขนาดใหญ่ที่เร็วขึ้น ประหยัดขึ้น และมีประสิทธิภาพมากขึ้นให้กับนักพัฒนาและลูกค้า

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง