เผยแพร่โดย Machine Heart
เช้าวันนี้ DeepSeek-V4 โมเดล AI ระดับชาติที่วงการ AI รอคอย ได้เปิดตัวแล้ว!
ทันทีที่เปิดตัว Cambricon ได้ทำการปรับใช้ vLLM inference framework เพื่อรองรับทั้งสองเวอร์ชัน 285B DeepSeek-V4-flash และ 1.6T DeepSeek-V4-pro ในวันแรก (Day 0) โดยโค้ดที่ปรับใช้ได้เปิดเผยสู่สาธารณะบน GitHub community แล้ว
ร่วมกับการเปิดตัว DeepSeek-V3.2 ในปีที่แล้ว Cambricon ได้ปรับใช้ชิป国产ที่รองรับเป็นครั้งที่สองติดต่อกัน ความร่วมมือที่ใกล้ชิดนี้เกิดจากระบบนิเวศซอฟต์แวร์ NeuWare ที่พัฒนาเองและเทคโนโลยีการออกแบบชิปที่สะสมมาเป็นเวลานานของ Cambricon รวมถึงการลงทุนอย่างต่อเนื่องในนวัตกรรมร่วมระหว่างชิปและอัลกอริทึม การทำงานของ DeepSeek-V4 บนชิป Cambricon ถือเป็นเหตุการณ์สำคัญสำหรับอุตสาหกรรม AI ของจีน ก่อนหน้านี้ Cambricon ได้ดำเนินการปรับประสิทธิภาพซอฟต์แวร์และฮาร์ดแวร์ร่วมกันสำหรับโมเดลซีรีส์ DeepSeek อย่างลึกซึ้ง และบรรลุระดับการใช้กำลังประมวลผลที่นำหน้าในอุตสาหกรรม
ที่อยู่โครงการ GitHub: https://github.com/Cambricon/vllm-mlu?sessionid=
การปรับใช้นี้แสดงให้เห็นถึงความสามารถหลักทางเทคโนโลยีของ Cambricon จากสองมิติ: “การย้ายโมเดลอย่างรวดเร็ว” และ “การเพิ่มประสิทธิภาพสูงสุด”
ปรับใช้โมเดลใหม่ DeepSeek-V4 อย่างรวดเร็ว บรรลุการเปิดตัวในวันแรก
ในด้านระบบนิเวศซอฟต์แวร์ NeuWare software stack ของ Cambricon รองรับชุมชนโอเพนซอร์สอย่างเต็มที่ โดยรองรับเฟรมเวิร์ก AI หลัก เช่น PyTorch, vLLM, Diffusers ทำให้โมเดลใหม่สามารถย้ายไปยังแพลตฟอร์ม Cambricon ได้อย่างรวดเร็ว
ในด้านระบบนิเวศซอฟต์แวร์国产 Cambricon ร่วมมือกับระบบนิเวศ FlagOS ของ Zhongzhi อย่างต่อเนื่อง เพื่อลดอุปสรรคระหว่างโมเดลและชิปที่มีสถาปัตยกรรมต่างกัน ลดต้นทุนการย้ายและปรับใช้โมเดล
ในด้านการพัฒนาโอเปอเรเตอร์ Cambricon ใช้ประโยชน์จากความเข้ากันได้และความสะดวกของชุมชน Triton เพื่อพัฒนาโอเปอเรเตอร์อย่างรวดเร็ว ลดระยะเวลาการปรับใช้ฟังก์ชัน
ในด้านความร่วมมือ AI Cambricon พัฒนา CNAgent เอเจนต์สร้างโค้ด เพื่อเร่งกระบวนการสร้างโอเปอเรเตอร์และการย้ายโมเดลทั้งหมด
ในด้านฮาร์ดแวร์ ชิป Cambricon รองรับรูปแบบข้อมูลความแม่นยำต่ำหลักโดยตรง โดยไม่ต้องแปลงเพิ่มเติมเพื่อปรับใช้ฟังก์ชันและตรวจสอบความแม่นยำอย่างรวดเร็ว ด้วยความร่วมมือของซอฟต์แวร์และฮาร์ดแวร์ Cambricon สามารถทำงานได้อย่างเสถียรในวันเปิดตัวโมเดล ทำให้บรรลุการปรับใช้ในวันแรกอย่างแท้จริง
เพิ่มประสิทธิภาพสูงสุด ปลดปล่อยศักยภาพการอนุมานของ DeepSeek-V4
สำหรับโครงสร้างใหม่ของ DeepSeek-V4 Cambricon ใช้ไลบรารีโอเปอเรเตอร์ฟิวชันประสิทธิภาพสูงที่พัฒนาเอง Torch-MLU-Ops เพื่อเร่งโมดูล เช่น Compressor และ mHC โดยเฉพาะ ใช้ภาษาโปรแกรมประสิทธิภาพสูง BangC เพื่อเขียน Kernel ที่ปรับแต่งสูงสุดสำหรับโอเปอเรเตอร์热点 เช่น Sparse/Compression Attention และ GroupGemm ปลดปล่อยประสิทธิภาพฮาร์ดแวร์ระดับล่างอย่างเต็มที่
ในด้านการปรับเฟรมเวิร์กการอนุมาน Cambricon รองรับเทคนิคการปรับใช้ใน vLLM อย่างเต็มที่ เช่น TP/PP/SP/DP/EP 5D mixed parallel, communication-computation parallel, low-precision quantization และ PD separation deployment ผ่านการปรับกลยุทธ์ เพื่อให้ได้ throughput โทเค็นที่ดีที่สุดภายใต้ข้อจำกัดด้านเวลาแฝง เพิ่มประสิทธิภาพการอนุมานแบบ end-to-end อย่างมีนัยสำคัญ
คุณสมบัติฮาร์ดแวร์ถูกใช้ประโยชน์อย่างลึกซึ้ง: ใช้ความสามารถในการเข้าถึงหน่วยความจำและการเรียงลำดับของ MLU เพื่อเร่งโครงสร้าง เช่น Sparse Attention และ Indexer แบนด์วิดท์การเชื่อมต่อสูงและเวลาแฝงการสื่อสารต่ำ ลดสัดส่วนการสื่อสารในสถานการณ์ Prefill และ Decode ให้เหลือน้อยที่สุด เพิ่มประสิทธิภาพการใช้งานการกระจายแบบกระจายสูงสุด
แนวทางการออกแบบซอฟต์แวร์และฮาร์ดแวร์แบบบูรณาการนี้ทำให้ Cambricon สามารถลดต้นทุนการประมวลผลในการปรับใช้โมเดลขนาดใหญ่ได้อย่างต่อเนื่อง และเพิ่มขีดจำกัดประสิทธิภาพ Cambricon จะยังคง深耕ระบบนิเวศซอฟต์แวร์และฮาร์ดแวร์ร่วมกันสำหรับโมเดลขนาดใหญ่ เพื่อให้บริการโซลูชันการปรับใช้โมเดลขนาดใหญ่ที่เร็วขึ้น ประหยัดขึ้น และมีประสิทธิภาพมากขึ้นแก่ผู้พัฒนาและลูกค้า
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31900
