DeepSeek-V4 เวอร์ชันพรีวิวเปิดตัวแล้ว: บริบทระดับล้านและสถาปัตยกรรมความสนใจแบบผสมผสาน นำทางนวัตกรรมใหม่ด้วยโอเพนซอร์ส

ในที่สุด หลังจากที่วงการ AI ทั่วโลกรอคอยมาหลายเดือน DeepSeek V4 ก็มาถึงแล้ว!

เช้าวันนี้ เอกสาร API ของ DeepSeek ได้ถูกอัปโหลด ทำให้เราได้เห็น “หน้าตาที่แท้จริง” ของเวอร์ชันใหม่

ครั้งนี้ DeepSeek V4 จะมีสองเวอร์ชันตามขนาด คือ DeepSeek-V4-Flash และ DeepSeek-V4-Pro ความยาวบริบทที่ทุกคนทราบกันก่อนหน้านี้คือ 1 ล้าน tokens ในขณะเดียวกัน ความยาวเอาต์พุตสูงสุดคือ 384K tokens

เมื่อสักครู่ DeepSeek ประกาศอย่างเป็นทางการว่าได้เปิดตัวและเปิดเผยซอร์สโค้ด “DeepSeek-V4 รุ่นพรีวิว”

ลิงก์โอเพนซอร์ส: https://huggingface.co/collections/deepseek-ai/deepseek-v4

ตามคำแนะนำอย่างเป็นทางการ DeepSeek-V4 ครั้งนี้มีความสามารถด้าน Agent ความรู้โลก และประสิทธิภาพการอนุมานที่นำหน้าในประเทศและในวงการโอเพนซอร์ส

สองเวอร์ชัน V4-Pro และ V4-Flash มีความยาวบริบทสูงสุดเท่ากันที่ 1M และรองรับทั้ง “โหมดไม่คิด” และ “โหมดคิด” โดยโหมดคิดรองรับการตั้งค่าพารามิเตอร์ reasoning_effort เพื่อปรับความเข้มข้นของการคิด (high/max) สำหรับสถานการณ์ Agent ที่ซับซ้อน แนะนำให้ใช้โหมดคิดและตั้งค่าความเข้มข้นเป็น “max”

พร้อมกับการเปิดตัว DeepSeek-V4 ยังได้เผยแพร่รายงานทางเทคนิคโดยละเอียดอีกด้วย

ลิงก์รายงานทางเทคนิค: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

ซีรีส์นี้ประกอบด้วย DeepSeek-V4-Pro (1.6T พารามิเตอร์, 49B เปิดใช้งาน) และ DeepSeek-V4-Flash (284B พารามิเตอร์, 13B เปิดใช้งาน) ทั้งสองรองรับความยาวบริบทหนึ่งล้าน Tokens เพื่อเพิ่มประสิทธิภาพในสถานการณ์บริททยาวเป็นพิเศษ นวัตกรรมสำคัญของซีรีส์นี้รวมถึง:

สถาปัตยกรรมความสนใจแบบผสม: ผสมผสานความสนใจแบบกระจัดกระจายบีบอัด (CSA) และความสนใจบีบอัดสูง (HCA) วิธีการใหม่นี้ช่วยลดความซับซ้อนในการคำนวณอย่างมีนัยสำคัญ เพิ่มประสิทธิภาพการประมวลผลบริบทระยะยาว โดยเฉพาะอย่างยิ่งสำหรับงานที่เกี่ยวข้องกับ Tokens หลายล้านตัว
การเชื่อมต่อเกินแบบจำกัดท่อร่วม (mHC): ปรับปรุงการเชื่อมต่อส่วนที่เหลือแบบดั้งเดิม เพิ่มความเสถียรของการแพร่กระจายสัญญาณระหว่างเลเยอร์
ตัวปรับแต่ง Muon: ออกแบบมาเพื่อเร่งการลู่เข้าและเพิ่มความเสถียรในการฝึก ตัวปรับแต่ง Muon ช่วยเพิ่มประสิทธิภาพโมเดลในระหว่างกระบวนการฝึกอย่างมีนัยสำคัญ
ท่อส่งการฝึกและการฝึกหลัง: โมเดลได้รับการฝึกก่อนด้วยชุดข้อมูลขนาดใหญ่ (DeepSeek-V4-Flash ใช้ 32T Tokens, DeepSeek-V4-Pro ใช้ 33T Tokens) จากนั้นปรับปรุงเพิ่มเติมผ่านการฝึกเฉพาะทางและการกลั่นกลยุทธ์ เพื่อให้แน่ใจว่าโมเดลทำงานได้ดีเยี่ยมในงานอนุมาน การเขียนโปรแกรม และความรู้โลก
ประสิทธิภาพบริบทระยะยาว: โมเดลเหล่านี้ลดทั้ง FLOPs การอนุมานและขนาดแคช KV ลงอย่างมีนัยสำคัญ ทำให้สามารถประมวลผลหนึ่งล้าน Tokens ได้ ตัวอย่างเช่น DeepSeek-V4-Pro เมื่อเทียบกับรุ่นก่อน DeepSeek-V3 FLOPs ลดลง 73% และขนาดแคช KV ลดลง 90%
ผลการประเมิน: เวอร์ชัน DeepSeek-V4-Pro-Max กำหนดมาตรฐานใหม่ในงานอนุมานและความรู้ เหนือกว่าโมเดลโอเพนซอร์สก่อนหน้านี้ และใกล้เคียงกับระดับของโมเดลที่เป็นกรรมสิทธิ์บางรุ่น เวอร์ชัน DeepSeek-V4-Flash-Max ให้ประสิทธิภาพการอนุมานที่เทียบเคียงได้ในขนาดพารามิเตอร์ที่มีประสิทธิภาพมากขึ้น

โดยรวมแล้ว ซีรีส์ DeepSeek-V4 ก้าวสำคัญในด้านประสิทธิภาพของโมเดลภาษาขนาดใหญ่ สามารถจัดการลำดับที่ยาวเป็นพิเศษได้อย่างมีประสิทธิภาพ ซึ่งเปิดโอกาสใหม่สำหรับงานที่ซับซ้อนและใช้เวลานาน

ในอีกด้านหนึ่ง ทุกคนยังคงกังวลว่า DeepSeek V4 ใช้พลังการประมวลผลในประเทศหรือไม่ ผลลัพธ์ก็ถูกเปิดเผยในที่สุด ก่อนหน้านี้มีรายงานว่าโมเดลใหม่ DeepSeek V4 จะใช้ชิปล่าสุดที่ออกแบบโดยบริษัทเทคโนโลยีหัวเว่ย ซึ่งเป็นความจริงเช่นกัน

เราพบว่า Ascend CANN จะถ่ายทอดสดการเปิดตัวครั้งแรกของ DeepSeek V4 บนแพลตฟอร์ม Ascend ในเวลา 19:00 น. คืนนี้

เป็นที่น่าสังเกตว่า Cambricon ในระบบนิเวศซอฟต์แวร์และฮาร์ดแวร์แบบบูรณาการ ได้เสร็จสิ้นการปรับใช้ Day 0 สำหรับ DeepSeek-V4-flash ขนาด 285B และ DeepSeek-V4-pro ขนาด 1.6T โดยใช้เฟรมเวิร์กการอนุมาน vLLM โดยโค้ดการปรับใช้ได้ถูกเปิดเผยสู่ชุมชน GitHub แล้ว

DeepSeek กล่าวท้ายโพสต์ประกาศว่า: “ไม่ถูกล่อลวงด้วยคำชม ไม่กลัวการใส่ร้าย ดำเนินตามทางอย่างตรงไปตรงมา และตั้งมั่นในความถูกต้อง” มาจาก “ซุนจื่อ・เฟยสิบสองจื่อ” เป็นทัศนคติที่เหนือโลก ไม่หวั่นไหวต่อลมจากทิศใด

ที่เหลือก็คือให้ทุกคนได้สัมผัส DeepSeek-V4 ด้วยตัวเอง!