เผยแพร่โดย Machine Heart
เช้าวันนี้ โมเดล AI ระดับชาติที่วงการ AI รอคอยอย่าง DeepSeek-V4 ได้เปิดตัวแล้ว!
ในทันที Cambricon ได้ทำการปรับใช้ Day 0 สำหรับ DeepSeek-V4-flash ขนาด 285B และ DeepSeek-V4-pro ขนาด 1.6T สองเวอร์ชันบนเฟรมเวิร์ก vLLM โดยโค้ดที่ปรับใช้ได้เปิดเผยสู่ชุมชน GitHub แล้ว
ร่วมกับการเปิดตัว DeepSeek-V3.2 ในปีที่แล้ว Cambricon ได้ปรับใช้ชิปในประเทศเป็นครั้งที่สองติดต่อกันทันที ความร่วมมือที่ใกล้ชิดนี้เกิดจากระบบนิเวศซอฟต์แวร์ NeuWare ที่พัฒนาเองและเทคโนโลยีการออกแบบชิปที่สะสมมายาวนานของ Cambricon รวมถึงการลงทุนอย่างต่อเนื่องในการร่วมมือระหว่างชิปและอัลกอริทึม การทำงานของ DeepSeek-V4 บนชิป Cambricon ถือเป็นเหตุการณ์สำคัญสำหรับอุตสาหกรรม AI ของจีน ก่อนหน้านี้ Cambricon ได้ทำการปรับปรุงประสิทธิภาพซอฟต์แวร์และฮาร์ดแวร์ร่วมกันอย่างลึกซึ้งสำหรับโมเดลตระกูล DeepSeek และบรรลุระดับการใช้พลังการคำนวณที่นำหน้าในอุตสาหกรรม

ที่อยู่โครงการ GitHub: https://github.com/Cambricon/vllm-mlu?sessionid=
การปรับใช้ครั้งนี้แสดงให้เห็นถึงความสามารถหลักทางเทคโนโลยีของ Cambricon จากสองมิติ: “การโยกย้ายโมเดลอย่างรวดเร็ว” และ “การปรับปรุงประสิทธิภาพสูงสุด”
ปรับใช้โมเดล DeepSeek-V4 ใหม่ได้อย่างรวดเร็ว บรรลุการเปิดตัว Day 0
ในระดับระบบนิเวศซอฟต์แวร์ สแต็กซอฟต์แวร์ NeuWare ของ Cambricon โอบรับชุมชนโอเพนซอร์สอย่างเต็มที่ รองรับเฟรมเวิร์ก AI หลักอย่าง PyTorch, vLLM, Diffusers โดยตรง ทำให้โมเดลใหม่สามารถโยกย้ายไปยังแพลตฟอร์ม Cambricon ได้อย่างรวดเร็ว
ในระดับระบบนิเวศซอฟต์แวร์ในประเทศ Cambricon ร่วมมืออย่างลึกซึ้งกับระบบนิเวศ FlagOS ของ Zhongzhi เพื่อลดอุปสรรคทางนิเวศระหว่างโมเดลและชิปที่มีสถาปัตยกรรมต่างกัน ลดต้นทุนการโยกย้ายและปรับใช้โมเดลเพิ่มเติม
ในระดับการพัฒนาโอเปอเรเตอร์ Cambricon ใช้ประโยชน์จากความเข้ากันได้และความสะดวกของชุมชน Triton ในการพัฒนาและปรับใช้โอเปอเรเตอร์อย่างรวดเร็ว ลดระยะเวลาการปรับฟังก์ชันให้สั้นลง
ในระดับการทำงานร่วมกันของ AI Cambricon พัฒนาเอเจนต์สร้างโค้ด CNAgent เพื่อเร่งกระบวนการทั้งหมดตั้งแต่การสร้างโอเปอเรเตอร์ไปจนถึงการโยกย้ายโมเดล
ในระดับฮาร์ดแวร์ ชิป Cambricon รองรับรูปแบบข้อมูลความแม่นยำต่ำหลักโดยตรง โดยไม่ต้องแปลงเพิ่มเติมเพื่อปรับฟังก์ชันและตรวจสอบความแม่นยำอย่างรวดเร็ว ด้วยการทำงานร่วมกันของซอฟต์แวร์และฮาร์ดแวร์ Cambricon สามารถทำงานได้อย่างเสถียรในวันที่เปิดตัวโมเดล บรรลุการปรับใช้ Day 0 อย่างแท้จริง
ปรับปรุงประสิทธิภาพสูงสุด ปลดปล่อยศักยภาพการอนุมานของ DeepSeek-V4
สำหรับโครงสร้างใหม่ของ DeepSeek-V4 Cambricon ใช้ไลบรารีโอเปอเรเตอร์ฟิวชันประสิทธิภาพสูงที่พัฒนาเอง Torch-MLU-Ops เพื่อเร่งโมดูล Compressor, mHC โดยเฉพาะ ใช้ภาษาโปรแกรมประสิทธิภาพสูง BangC เพื่อเขียน Kernel ที่ปรับแต่งสูงสุดสำหรับโอเปอเรเตอร์ร้อน เช่น Sparse/Compression Attention, GroupGemm เพื่อปลดปล่อยประสิทธิภาพฮาร์ดแวร์ระดับล่างอย่างเต็มที่
ในระดับการปรับปรุงเฟรมเวิร์กการอนุมาน Cambricon รองรับเทคโนโลยีการปรับปรุงอย่างเต็มที่ใน vLLM เช่น การขนานแบบผสม 5D TP/PP/SP/DP/EP, การขนานการคำนวณการสื่อสาร, การหาปริมาณความแม่นยำต่ำ และการแยก部署 PD ผ่านการปรับกลยุทธ์ เพื่อให้ได้ปริมาณงานโทเค็นที่ดีที่สุดภายใต้ข้อจำกัดด้านเวลาแฝง เพิ่มประสิทธิภาพการอนุมานแบบ end-to-end อย่างมีนัยสำคัญ
คุณสมบัติฮาร์ดแวร์ยังถูกใช้ประโยชน์อย่างลึกซึ้ง: ใช้ความสามารถในการเข้าถึงหน่วยความจำและการเรียงลำดับของ MLU เพื่อเร่งโครงสร้าง Sparse Attention, Indexer อย่างมีประสิทธิภาพ แบนด์วิดท์การเชื่อมต่อสูงและเวลาแฝงการสื่อสารต่ำช่วยลดสัดส่วนการสื่อสารในสถานการณ์โหลดงาน Prefill และ Decode ให้เหลือน้อยที่สุด เพิ่มประสิทธิภาพการกระจายการอนุมานสูงสุด
แนวทางการออกแบบซอฟต์แวร์และฮาร์ดแวร์แบบบูรณาการนี้ทำให้ Cambricon สามารถลดต้นทุนพลังการคำนวณและเพิ่มขีดจำกัดประสิทธิภาพในการปรับใช้โมเดลขนาดใหญ่ได้อย่างต่อเนื่อง Cambricon จะยังคง深耕ระบบนิเวศการทำงานร่วมกันของซอฟต์แวร์และฮาร์ดแวร์สำหรับโมเดลขนาดใหญ่ เพื่อมอบโซลูชันการปรับใช้โมเดลขนาดใหญ่ที่เร็วขึ้น ประหยัดขึ้น และมีประสิทธิภาพมากขึ้นให้กับนักพัฒนาและลูกค้า
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31883
