เมื่อสักครู่ DeepSeek ประกาศบนบัญชีสาธารณะ WeChat อย่างเป็นทางการว่า รุ่นตัวอย่างของชุดโมเดลใหม่ DeepSeek-V4 ได้เปิดตัวอย่างเป็นทางการแล้ว พร้อมเปิดซอร์สโค้ด!
DeepSeek-V4 มีบริบทที่ยาวเป็นพิเศษถึงล้านตัวอักษร และเป็นผู้นำในประเทศและในวงการโอเพนซอร์สในสามมิติหลัก ได้แก่ ความสามารถของ Agent ความรู้โลก และประสิทธิภาพการอนุมาน
ตามเจตนารมณ์แห่งการเปิดกว้างของ DeepSeek โมเดลที่เปิดตัวครั้งนี้แบ่งออกเป็นสองเวอร์ชันตามขนาด ยินดีต้อนรับนักพัฒนา นักวิจัย และผู้ประกอบการไปทดลองใช้และดาวน์โหลด
โมเดลแบ่งออกเป็นสองเวอร์ชันตามขนาด:

- ลิงก์โอเพนซอร์สโมเดล DeepSeek-V4: https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4
- รายงานทางเทคนิค DeepSeek-V4: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
เวอร์ชัน Pro มุ่งเน้นประสิทธิภาพสูง ส่วนเวอร์ชัน Flash มุ่งเน้นความคุ้มค่า
บริการ API ได้รับการอัปเดตพร้อมกันแล้ว โดยสามารถเรียกใช้ได้โดยการเปลี่ยน model_name เป็น deepseek-v4-pro หรือ deepseek-v4-flash

จากรายงานทางเทคนิค มีประเด็นหนึ่งที่น่าสนใจเป็นพิเศษ นั่นคือ DeepSeek V4 ไม่ได้ปรับให้เหมาะสมเฉพาะในระบบนิเวศของ NVIDIA เท่านั้น แต่ยังได้ตรวจสอบโซลูชัน Expert Parallelism (EP) แบบละเอียดบนทั้ง GPU ของ NVIDIA และ NPU Ascend ของ Huawei ซึ่งแสดงให้เห็นว่าเส้นทางการอนุมานมีความสามารถในการปรับตัวข้ามแพลตฟอร์มการคำนวณ อย่างไรก็ตาม ในระดับโอเพนซอร์ส สิ่งที่ปล่อยออกมาในตอนนี้ยังคงเป็น MegaMoE และ DeepGEMM ที่ใช้ CUDA เป็นหลัก ซึ่งการใช้งานระดับลึกยังคงผูกติดกับชุดเครื่องมือของ NVIDIA
นอกจากนี้ หน้า API อย่างเป็นทางการยังระบุว่า เนื่องจากข้อจำกัดด้านพลังการคำนวณระดับสูง ปัจจุบันปริมาณงานบริการของ V4-Pro ยังคงมีจำกัด คาดว่าหลังจากซูเปอร์โหนด Shengten 950 วางจำหน่ายจำนวนมากในช่วงครึ่งปีหลัง ราคาของ Pro จะลดลงอย่างมาก ซึ่งหมายความว่า DeepSeek กำลังปรับแต่งอย่างสุดขั้วภายในระบบนิเวศ CUDA ที่มีอยู่ไปพร้อมๆ กับการเตรียมพื้นที่สำหรับสภาพแวดล้อมการคำนวณหลายแบบ เช่น Huawei Ascend และเริ่มพยายามแยกการทำงานของโมเดลออกจากการพึ่งพาฮาร์ดแวร์เพียงชนิดเดียว
DeepSeek-V4-Pro: ประสิทธิภาพเทียบเท่าโมเดลปิดชั้นนำ

- ความสามารถของ Agent เพิ่มขึ้นอย่างมาก: เมื่อเทียบกับโมเดลรุ่นก่อน ความสามารถของ Agent ของ DeepSeek-V4-Pro เพิ่มขึ้นอย่างเห็นได้ชัด ในการประเมิน Agentic Coding V4-Pro ทำผลงานได้ดีที่สุดในบรรดาโมเดลโอเพนซอร์สปัจจุบัน และยังทำผลงานได้ดีเยี่ยมในการประเมินอื่นๆ ที่เกี่ยวข้องกับ Agent ปัจจุบัน DeepSeek-V4 กลายเป็นโมเดล Agentic Coding ที่พนักงานภายในบริษัทใช้ ตามความคิดเห็นของผู้ใช้ ประสบการณ์การใช้งานดีกว่า Sonnet 4.5 คุณภาพการส่งมอบใกล้เคียงกับ Opus 4.6 ในโหมดไม่คิด แต่ยังคงมีช่องว่างเมื่อเทียบกับโหมดคิดของ Opus 4.6
- ความรู้โลกที่หลากหลาย: ในการประเมินความรู้โลก DeepSeek-V4-Pro นำหน้าโมเดลโอเพนซอร์สอื่นๆ อย่างมาก และด้อยกว่าโมเดลปิดชั้นนำอย่าง Gemini-Pro-3.1 เพียงเล็กน้อย
- ประสิทธิภาพการอนุมานระดับโลก: ในการประเมินคณิตศาสตร์ STEM และโค้ดประเภทแข่งขัน DeepSeek-V4-Pro เหนือกว่าโมเดลโอเพนซอร์สที่เปิดเผยผลการประเมินทั้งหมดในปัจจุบัน และทำผลงานได้ดีเยี่ยมเทียบเท่าโมเดลปิดชั้นนำของโลก

DeepSeek-V4-Flash: มุ่งเน้นความคุ้มค่า
- เมื่อเทียบกับ DeepSeek-V4-Pro DeepSeek-V4-Flash มีคลังความรู้โลกที่ด้อยกว่าเล็กน้อย แต่แสดงความสามารถในการอนุมานที่ใกล้เคียงกัน และเนื่องจากพารามิเตอร์โมเดลและการเปิดใช้งานที่น้อยกว่า V4-Flash จึงสามารถให้บริการ API ที่รวดเร็วและประหยัดกว่า
- ในการประเมิน Agent DeepSeek-V4-Flash ทำผลงานได้เทียบเท่า DeepSeek-V4-Pro ในงานง่ายๆ แต่ยังคงมีช่องว่างในงานที่ยาก

บริบทล้านตัวอักษรกลายเป็นมาตรฐาน
บทความในบัญชีสาธารณะอย่างเป็นทางการอธิบายว่า DeepSeek-V4 ได้สร้างกลไกความสนใจแบบใหม่ โดยบีบอัดในมิติของ token รวมกับ DSA Sparse Attention (DeepSeek Sparse Attention) ทำให้มีความสามารถด้านบริบทยาวระดับโลก และลดความต้องการในการคำนวณและหน่วยความจำอย่างมากเมื่อเทียบกับวิธีการดั้งเดิม
จากนี้ไป บริบท 1M (หนึ่งล้าน) จะเป็นมาตรฐานของบริการทางการทั้งหมดของ DeepSeek

การเปลี่ยนแปลงของปริมาณการคำนวณและความจุหน่วยความจำของ DeepSeek-V4 และ DeepSeek-V3.2 ตามความยาวของบริบท
เป็นที่น่าสังเกตว่า DeepSeek-V4 ยังได้รับการปรับให้เหมาะสมสำหรับผลิตภัณฑ์ Agent หลัก เช่น Claude Code, OpenClaw, OpenCode, CodeBuddy และอื่นๆ โดยประสิทธิภาพในงานโค้ดและงานสร้างเอกสารดีขึ้น ภาพด้านล่างเป็นตัวอย่างหน้า PPT ที่สร้างโดย V4-Pro ภายใต้กรอบงาน Agent หนึ่ง:

ปัจจุบัน DeepSeek API ได้เปิดตัว V4-Pro และ V4-Flash พร้อมกันแล้ว รองรับอินเทอร์เฟซ OpenAI ChatCompletions และอินเทอร์เฟซ Anthropic เมื่อเข้าถึงโมเดลใหม่ base_url จะไม่เปลี่ยนแปลง แต่พารามิเตอร์ model ต้องเปลี่ยนเป็น deepseek-v4-pro หรือ deepseek-v4-flash

ทั้ง V4-Pro และ V4-Flash มีความยาวบริบท 1M และรองรับทั้งโหมดไม่คิดและโหมดคิด โหมดหลังสามารถปรับความเข้มข้นของการคิดได้ผ่านพารามิเตอร์ reasoning_effort (เลือกได้ high หรือ max) สำหรับงาน Agent ที่ซับซ้อน แนะนำให้เปิดโหมดคิดและตั้งค่าความเข้มข้นเป็น max วิธีการเรียกใช้และการตั้งค่าพารามิเตอร์โดยละเอียดโปรดดูเอกสาร API
หมายเหตุ: ชื่อโมเดล deepseek-chat และ deepseek-reasoner ในอินเทอร์เฟซเก่าจะหยุดใช้งานในวันที่ 24 กรกฎาคม 2026 ในช่วงเปลี่ยนผ่าน โมเดลเหล่านี้จะชี้ไปที่โหมดไม่คิดและโหมดคิดของ deepseek-v4-flash ตามลำดับ
วิเคราะห์นวัตกรรมทางเทคนิคที่สำคัญ: กลไกความสนใจแบบผสม
CSA และ HCA เป็นนวัตกรรมที่สำคัญที่สุดอย่างหนึ่งของซีรีส์ V4 กลไกความสนใจแบบดั้งเดิมเมื่อจัดการกับลำดับยาว แต่ละ token ต้องคำนวณความสนใจกับ token ในประวัติศาสตร์ทั้งหมด ทำให้ปริมาณการคำนวณเพิ่มขึ้นแบบกำลังสองตามความยาวลำดับ V4 ออกแบบสถาปัตยกรรมการบีบอัดความสนใจสองแบบที่เสริมกัน:
Compressed Sparse Attention (CSA): ขั้นแรก บีบอัด KV cache ของทุก m token เป็น 1 รายการ (m=4) จากนั้นใช้ DeepSeek Sparse Attention โดยแต่ละ query token ต้องสนใจ k รายการ KV ที่ถูกบีบอัด (k=512~1024) และใช้ Lightning Indexer (ดัชนีน้ำหนักเบา) เพื่อเลือกบล็อกที่ถูกบีบอัดที่สำคัญอย่างมีประสิทธิภาพ โดยรวมแล้วบีบอัดความยาวลำดับเหลือ 1/m
Highly Compressed Attention (HCA): ใช้อัตราการบีบอัดที่รุนแรงกว่า (m’=128) โดยบีบอัดทุก 128 token เป็น 1 รายการ และคงความสนใจแบบหนาแน่น (ไม่กระจาย) เหมาะสำหรับสถานการณ์ที่มีความหนาแน่นของข้อมูลต่ำ CSA และ HCA ซ้อนกันในลักษณะสลับกัน เพื่อสร้างสมดุลระหว่างประสิทธิภาพและความสามารถในการแสดงออก
จุดเด่นทางวิศวกรรม: รองรับการเข้ารหัสตำแหน่งบางส่วนของ RoPE (เฉพาะ 64 มิติสุดท้าย) เพื่อรักษาข้อมูลตำแหน่งสัมพัทธ์; แนะนำสาขาความสนใจแบบหน้าต่างเลื่อนเพื่อจับการพึ่งพาในท้องถิ่น; ใช้เทคนิค Attention Sink เพื่อให้ผลรวมของคะแนนความสนใจไม่จำเป็นต้องเป็น 1
นอกจากนี้ นวัตกรรมในส่วน Engram และ mHC ก็มีความสำคัญเช่นกัน
โมดูลหน่วยความจำ Engram
ประการแรกคือ Engram (โมดูลหน่วยความจำแบบมีเงื่อนไข): นี่คือแนวคิดหลักในบทความที่ลงนามโดย Liang Wenfeng ผู้ก่อตั้ง DeepSeek โดยพยายามแก้ปัญหาพื้นฐานที่สถาปัตยกรรม Transformer แบบดั้งเดิมผสมผสานความจำและการอนุมานเข้าด้วยกัน โดยโมเดลต้องใช้ความสนใจทั้งในการ “ค้นหา” ความรู้และในการ “อนุมาน”
หลักการทำงานคือ Engram ถ่ายโอนความสามารถของโมเดลจากการคำนวณทางประสาทแบบต่อเนื่องไปเป็นการค้นหาแบบแฮชที่แน่นอน โดยเก็บรูปแบบที่ต้องจดจำ (เช่น ชื่อเอนทิตี การจับคู่คงที่) ไว้ในตารางค้นหาที่คล้าย “พจนานุกรม” ทำให้โมเดลสามารถเรียกใช้ได้อย่างรวดเร็วด้วยความซับซ้อน O(1) โดยไม่ต้องใช้พลังการคำนวณจำนวนมากในการ “คำนวณ” ความจำ
ผลกระทบที่เกิดขึ้นจริง: ทำให้โมเดลสามารถปลดปล่อยทรัพยากรความสนใจอันมีค่าเพื่อมุ่งเน้นไปที่งานผสมผสานและการอนุมานที่ซับซ้อน ในขั้นตอนการทดลอง โมเดลที่รวม Engram ขนาด 27 พันล้านพารามิเตอร์ มีประสิทธิภาพเหนือกว่าโมเดล MoE บริสุทธิ์ เมื่อมีพารามิเตอร์และจำนวนการดำเนินการจุดลอยตัว (FLOPs) เท่ากัน
mHC: Manifold-Constrained Hyper-Connections
mHC (Manifold-Constrained Hyper-Connections): นี่คือนวัตกรรมที่มุ่งแก้ปัญหาความไม่เสถียรในการฝึกเครือข่ายที่ลึกมาก โมเดล Transformer แบบดั้งเดิมเมื่อซ้อนกันลึกมาก มักประสบปัญหาการเสื่อมสภาพของสัญญาณ เช่น การระเบิดหรือการหายไปของเกรเดียนต์
โดยการจำกัดเมทริกซ์การเชื่อมต่อให้อยู่บนแมนิโฟลด์เมทริกซ์สุ่มคู่ mHC ทำให้แน่ใจว่าอัตราขยายของสัญญาณคงที่ในแต่ละชั้น (ประมาณ 1.6 เท่า) ซึ่งช่วยให้การแสดงในชั้นลึกยังคงอยู่ ทำให้สามารถฝึกโมเดลที่ลึกและแข็งแกร่งขึ้นได้ โดยเพิ่มประสิทธิภาพการใช้การคำนวณจากประมาณ 60% โดยเฉลี่ยในอุตสาหกรรมเป็นมากกว่า 85% พร้อมลดการพึ่งพาการคำนวณดั้งเดิมลงมากกว่า 30%
นอกเหนือจากนวัตกรรมสถาปัตยกรรมหลักแล้ว V4 ยังมีการปรับแต่งอย่างมากในระดับวิศวกรรมการฝึกและการอนุมาน
Muon Optimizer: กระบวนทัศน์การฝึกใหม่สำหรับล้านล้านพารามิเตอร์
V4 เป็นครั้งแรกที่ใช้ Muon Optimizer ในวงกว้างกับโมเดล MoE ขนาดล้านล้านพารามิเตอร์
ทีมงานออกแบบกลยุทธ์การวนซ้ำแบบ Newton-Schulz แบบผสม: 8 ขั้นตอนแรกใช้ค่าสัมประสิทธิ์การลู่เข้าที่รวดเร็ว 2 ขั้นตอนหลังเปลี่ยนเป็นค่าสัมประสิทธิ์ที่เสถียร เพื่อให้ได้สมดุลที่ดีที่สุดระหว่างความแม่นยำในการทำ orthogonal และความเร็วในการลู่เข้า เพื่อแก้ไขความขัดแย้งระหว่าง ZeRO Parallelism และความต้องการเมทริกซ์เกรเดียนต์ที่สมบูรณ์ของ Muon ทีมงานได้ออกแบบกลยุทธ์การจัดสรร ZeRO แบบผสม: พารามิเตอร์หนาแน่นจำกัดระดับความขนานและใช้การปรับสมดุลโหลดแบบ背包算法 พารามิเตอร์ผู้เชี่ยวชาญ MoE จะถูกทำให้แบนและกระจายอย่างสม่ำเสมอ นอกจากนี้ เกรเดียนต์ MoE จะถูก量化เป็น BF16 ด้วยการปัดเศษแบบสุ่มก่อนการซิงค์ ทำให้ปริมาณการสื่อสารลดลงครึ่งหนึ่ง; พร้อมใช้ “all-to-all + การรวม FP32 ในเครื่อง” เพื่อหลีกเลี่ยงข้อผิดพลาดสะสมของตัวบวกความแม่นยำต่ำ
FP4 Quantization: การบีบอัดแบบไม่สูญเสียและการเร่งการอนุมาน
V4 ใช้การฝึกที่รับรู้การ量化 FP4 บนน้ำหนักผู้เชี่ยวชาญ MoE และเส้นทาง QK ของ CSA Indexer การค้นพบที่สำคัญคือ: การ dequantization จาก FP4 เป็น FP8 นั้นไม่สูญเสียข้อมูล เนื่องจาก FP8 มีช่วงไดนามิกที่ใหญ่กว่า ข้อมูลมาตราส่วนละเอียดของบล็อกย่อย FP4 จึงสามารถถูกดูดซับได้อย่างสมบูรณ์ ทำให้กระบวนการ量化ทั้งหมดสามารถใช้กรอบงานการฝึก FP8 ที่มีอยู่ได้อย่างราบรื่น ในขั้นตอนการอนุมานและ RL rollout จะใช้น้ำหนัก FP4 จริงโดยตรง เพื่อประหยัดหน่วยความจำและเร่งการคำนวณแบบเรียลไทม์ การ量化คะแนน Indexer จาก FP32 เป็น BF16 ทำให้ความเร็วเพิ่มขึ้น 2 เท่า พร้อมรักษาอัตราการเรียกคืนไว้ที่ 99.7%
Expert Parallelism: การผสานการสื่อสารและการคำนวณอย่างลึกซึ้ง
Expert Parallelism ของโมเดล MoE ถูกจำกัดโดยการสื่อสารข้ามโหนด ในโซลูชันดั้งเดิม ขั้นตอน Dispatch และ Combine เป็นคอขวดของการสื่อสารล้วนๆ นวัตกรรมของ V4 คือการแบ่งผู้เชี่ยวชาญออกเป็น “คลื่น” แต่ละคลื่นประกอบด้วยผู้เชี่ยวชาญจำนวนเล็กน้อย เมื่อการสื่อสารของผู้เชี่ยวชาญภายในคลื่นเสร็จสิ้น การคำนวณจะเริ่มต้นทันที โดยไม่ต้องรอผู้เชี่ยวชาญอื่น ในสภาวะคงที่ การคำนวณของคลื่นปัจจุบัน การส่ง token ของคลื่นถัดไป และการส่งผลลัพธ์ของผู้เชี่ยวชาญที่เสร็จแล้ว จะดำเนินการพร้อมกันทั้งสามอย่าง การวางท่อแบบละเอียดนี้ให้ความเร็วเพิ่มขึ้น 1.5~1.73 เท่าบน GPU NVIDIA และ NPU Huawei Ascend และสูงถึง 1.96 เท่าในสถานการณ์ที่ไวต่อความหน่วง เช่น RL rollout
ทีมงานยังเสนอคำแนะนำการออกแบบฮาร์ดแวร์: แบนด์วิดท์การเชื่อมต่อระหว่างกัน 1 GBps ในปัจจุบันเพียงพอที่จะครอบคลุมความต้องการการคำนวณ 6.1 TFLOP/s การเพิ่มแบนด์วิดท์โดยไม่เลือกปฏิบัติจะทำให้ผลตอบแทนลดลง ข้อมูลเชิงลึกนี้มีแนวทางสำหรับการออกแบบตัวเร่ง AI ในอนาคต
Deterministic Kernels: การรับประกันการทำซ้ำได้สำหรับการฝึกขนาดใหญ่
เมื่อฝึกโมเดลขนาดล้านล้านพารามิเตอร์ พฤติกรรมที่ไม่แน่นอนอาจทำให้เกิดจุดสูงสุดของ loss ที่ยากต่อการดีบัก V4 บรรลุความไม่แปรเปลี่ยนและความแน่นอนของแบตช์อย่างครอบคลุม: ผลลัพธ์ของ token ใดๆ จะไม่เปลี่ยนแปลงตามตำแหน่งภายในแบตช์; ลำดับการสะสมเกรเดียนต์ในการรันแต่ละครั้งจะสอดคล้องกัน ความท้าทายทางเทคนิครวมถึง: ในการ backpropagation ของความสนใจ ละทิ้งโซลูชัน split-KV และใช้กลยุทธ์แบบ dual-core (เมื่อคลื่นเต็ม ใช้ SM เดียว เมื่อคลื่นบางส่วน ใช้ SM หลายตัวร่วมกัน แต่รับประกันลำดับการสะสม); การ backpropagation ของ MoE แก้ปัญหาการแข่งขันผ่านการประมวลผลลำดับ token ภายใน rank ล่วงหน้าและการแยก buffer ระหว่าง rank; เมื่อ mHC ต้องใช้ split-k สำหรับการคูณเมทริกซ์ขนาดเล็ก (มิติเอาต์พุตเพียง 24) จะส่งออกส่วน split แต่ละส่วนก่อนแล้วจึงลดขนาดอย่างแน่นอนผ่าน kernel เฉพาะ การปรับแต่งทางวิศวกรรมเหล่านี้ทำให้การทำซ้ำได้ของการฝึกขนาดใหญ่ถึงระดับใหม่
TileLang DSL: การพัฒนา Kernel ประสิทธิภาพสูงอย่างมีประสิทธิภาพ
เพื่อรองรับการพัฒนา kernel แบบผสานหลายร้อยตัว ทีม V4 ใช้ภาษาเฉพาะโดเมน TileLang และบรรลุการสร้างโค้ดโฮสต์ โดยฝังข้อมูลเมตา เช่น ชนิดข้อมูล ข้อจำกัดรูปร่าง ลงใน launcher ที่สร้างขึ้น ค่าใช้จ่ายในการตรวจสอบรันไทม์ลดลงจากหลายสิบไมโครวินาทีเหลือต่ำกว่า 1 ไมโครวินาที พร้อมรวม Z3 SMT Solver สำหรับการวิเคราะห์จำนวนเต็มแบบทางการ รองรับการเพิ่มประสิทธิภาพการคอมไพล์ขั้นสูง เช่น การเพิ่มประสิทธิภาพแบบเวกเตอร์ การแทรกสิ่งกีดขวาง จัดตำแหน่งความแม่นยำเชิงตัวเลขอย่างเคร่งครัดกับชุดเครื่องมือ CUDA เพื่อรับประกันการทำซ้ำได้ในระดับบิต
ความเสถียรในการฝึก: Prescient Routing และ SwiGLU Clamping
ความเสถียรในการฝึกโมเดล MoE ขนาดล้านล้านพารามิเตอร์เป็นความท้าทายที่สำคัญ V4 ระบุความสัมพันธ์ที่แข็งแกร่งระหว่างจุดสูงสุดของ loss และค่าผิดปกติในชั้น MoE และกลไกการกำหนดเส้นทางทำให้ค่าผิดปกติรุนแรงขึ้น ด้วยเหตุนี้จึงออกแบบ Prescient Routing: ใช้พารามิเตอร์ประวัติ θ_{t-Δt} เพื่อคำนวณดัชนีเส้นทางในขั้นตอน t พารามิเตอร์ปัจจุบันใช้สำหรับการคำนวณคุณลักษณะเท่านั้น โดยควบคุมค่าใช้จ่ายเพิ่มเติมไว้ที่ 20% ผ่านการดำเนินการไปป์ไลน์และการทับซ้อนของการสื่อสาร และเปิดใช้งานแบบไดนามิกเมื่อเกิดจุดสูงสุดเท่านั้น
ร่วมกับ SwiGLU Clamping (จำกัดองค์ประกอบเชิงเส้นไว้ที่ [-10,10] และจำกัดขอบเขตบนขององค์ประกอบเกตไว้ที่ 10) สามารถกำจัดค่าผิดปกติได้อย่างมีประสิทธิภาพโดยไม่กระทบต่อประสิทธิภาพ
การเพิ่มประสิทธิภาพระดับเฟรมเวิร์ก: การนำ RL บริบทยาวไปใช้
การเพิ่มประสิทธิภาพเฟรมเวิร์กของ V4 ครอบคลุมกระบวนการฝึกและการอนุมานทั้งหมด:
-
การปรับ Context Parallelism: กลยุทธ์การสื่อสารสองเฟสแก้ปัญหาขอบเขตการบีบอัดข้าม rank แต่ละ rank ส่ง KV ที่ไม่ได้บีบอัด m ตัวสุดท้าย หลังจาก all-gather แล้วรวมเป็นลำดับที่สมบูรณ์
-
Tensor-level Activation Checkpointing: ขยายกรอบงานการสร้างความแตกต่างอัตโนมัติ รองรับการทำเครื่องหมายการคำนวณใหม่สำหรับ tensor แต่ละตัว เฟรมเวิร์กจะคำนวณกราฟย่อยการคำนวณใหม่ขั้นต่ำโดยอัตโนมัติ ปลดปล่อยหน่วยความจำและใช้พอยน์เตอร์ซ้ำ นักพัฒนาไม่ต้องกังวลเกี่ยวกับรายละเอียดหน่วยความจำระดับล่าง
-
การจัดการ KV Cache แบบ Heterogeneous: แยก state cache (SWA + token ที่ถูกบีบอัดที่ยังไม่พร้อม) และ KV cache แบบคลาสสิก รองรับการจัดเก็บดิสก์เพื่อให้เกิดการเติมล่วงหน้าแบบไม่ซ้ำสำหรับคำขอที่มีคำนำหน้าร่วมกัน
กระบวนทัศน์หลังการฝึก: On-Policy Distillation
การฝึกหลังของ V4 ใช้กระบวนทัศน์สองเฟส “การฝึกผู้เชี่ยวชาญอิสระ → On-Policy Distillation” ขั้นแรก ฝึกโมเดลผู้เชี่ยวชาญอิสระในด้านต่างๆ เช่น คณิตศาสตร์ โค้ด Agent การทำตามคำสั่ง ผู้เชี่ยวชาญแต่ละคนผ่าน SFT และ GRPO Reinforcement Learning รองรับสามโหมดการอนุมาน (Non-think/Think High/Think Max)
โดยเฉพาะอย่างยิ่ง ใช้ Generative Reward Model แทนโมเดลรางวัลสเกลาร์แบบดั้งเดิม โดยรวมบทบาท actor และ judge ของโมเดลเข้าด้วยกัน ทำให้ความสามารถในการอนุมานกลายเป็นส่วนหนึ่งของการประเมิน
จากนั้นรวมผู้เชี่ยวชาญหลายสิบคนเป็นโมเดลเดียวผ่าน On-Policy Distillation ใช้ Reverse KL Divergence เป็นเป้าหมาย และใช้การกลั่น logit ทั้งคำศัพท์ (แทนการประมาณ KL ระดับ token) ทำให้การประมาณเกรเดียนต์มีเสถียรภาพมากขึ้น ในทางวิศวกรรม น้ำหนักของครูถูก offload ไปยังที่เก็บแบบกระจาย แคชเฉพาะ hidden states ของเลเยอร์สุดท้าย ตัวอย่างการฝึกถูกจัดเรียงตามดัชนีครูเพื่อให้แน่ใจว่าแต่ละหัวครูโหลดเพียงครั้งเดียว ทำให้การกลั่นหลายครูในระดับล้านล้านพารามิเตอร์เป็นจริงได้
ต้องบอกว่า DeepSeek-V4-Pro-Max (โหมดความเข้มข้นการอนุมานสูงสุด) ได้กำหนดเพดานใหม่สำหรับโมเดลโอเพนซอร์สในเกณฑ์มาตรฐานหลายประการ:
-
ความรู้: SimpleQA-Verified ถึง 57.9% สูงกว่าโมเดลโอเพนซอร์สรุ่นก่อนหน้าอย่างมาก (ประมาณ 30%);
-
การเขียนโปรแกรม: Codeforces Elo 3206 คะแนน อันดับที่ 23 ในมนุษย์ เป็นครั้งแรกที่โมเดลโอเพนซอร์สทำคะแนนเท่ากับ GPT-5.4 ในงานนี้;
-
Agent: SWE-Verified 80.6% ใกล้เคียงกับ Claude Opus 4.6 ที่ 80.8%; Terminal Bench 2.0 67.9% เท่ากับ GPT-5.4 ที่ 68.5%;
-
งานภาษาจีน: การเขียนเชิงฟังก์ชันมีอัตราชนะ 62.7% เหนือ Gemini 3.1 Pro การเขียนเชิงสร้างสรรค์มีอัตราชนะ 77.5% ในมิติคุณภาพการเขียน
V4-Flash-Max ด้วยต้นทุนที่ต่ำมาก สามารถทำประสิทธิภาพการอนุมานเทียบเท่า GPT-5.2 และ Gemini 3.0 Pro พิสูจน์ความเป็นไปได้ของสถาปัตยกรรมที่มีประสิทธิภาพ
回顾过去一年 DeepSeek 的重要发布
ในคืนวันตรุษจีนปี 2025 ขณะที่ผู้ใช้ส่วนใหญ่ยังคงดื่มด่ำกับบรรยากาศปีใหม่ DeepSeek ได้เปิดตัว DeepSeek-R1 อย่างเงียบๆ ไม่มีงานแถลงข่าว ไม่มีการโปรโมทอย่างอึกทึก แต่ภายในไม่กี่วัน โมเดลนี้ก็แพร่กระจายอย่างรวดเร็วในชุมชนเทคนิค วงการวิจัย และชุมชนนักพัฒนา เมื่อมองย้อนกลับไป R1 เปรียบเสมือนสัญญาณ: โมเดลการอนุมานเริ่มเปลี่ยนจาก “หัวข้อการวิจัย” ไปสู่ “ความเป็นจริงทางวิศวกรรม”
DeepSeek เปิดตัวโมเดล DeepSeek-R1 ที่มีความเป็นเลิศในด้านคณิตศาสตร์ การเขียนโค้ด และการอนุมานเชิงตรรกะ ประสิทธิภาพของมันไล่ตาม OpenAI o1 และสามารถแสดงห่วงโซ่ความคิดโดยละเอียด โมเดลนี้เปิดซอร์สน้ำหนักและโค้ดผ่านสัญญาอนุญาต MIT ไม่เพียงแต่สร้างผลกระทบทางเทคนิคอย่างลึกซึ้ง แต่ยังปรับเปลี่ยนภูมิทัศน์การแข่งขันทางเทคนิคของโมเดลใหญ่โอเพนซอร์สและเชิงพาณิชย์ทั่วโลก รวมถึงระหว่างจีนและสหรัฐอเมริกาโดยตรง
หลังจาก R1: การพัฒนาอย่างต่อเนื่อง ไม่ใช่ “สินค้าดังชั่วคราว”
ในวันที่ 25 มีนาคม โมเดล DeepSeek V3 ได้รับการอัปเกรดเป็นเวอร์ชันย่อย ยินดีต้อนรับไปทดลองใช้บนเว็บไซต์ทางการ แอป และมินิโปรแกรม (ปิดการคิดเชิงลึก) อินเทอร์เฟซ API และวิธีการใช้งานยังคงเหมือนเดิม
DeepSeek 反馈称此次 DeepSeek-V3 的小版本升级,版本号为 V3-0324,主要聚焦于体验优化和性能提升。在官方网页、App 和小程序中,用户关闭“深度思考”功能,可获取更快的响应速度,适合对实时性要求高的场景(如简单问答、代码片段生成)。
ในวันที่ 28 พฤษภาคม โมเดล DeepSeek R1 ได้รับการอัปเกรดเป็นเวอร์ชันย่อย เวอร์ชัน DeepSeek-R1-0528 โมเดลโอเพนซอร์สนี้รองรับบริบทยาวพิเศษ 128K ความสามารถภาษาจีนเหนือกว่า GPT-4-Turbo ขึ้นอันดับ 1 ใน SuperCLUE ประสิทธิภาพโค้ดเทียบเท่าโมเดลปิดชั้นนำ จุดเด่นรวมถึง: ความสามารถในการจัดการนวนิยายทั้งเล่ม/เอกสารยาว, สัญญาอนุญาต MIT รองรับการใช้งานเชิงพาณิชย์, เปิดให้ใช้ฟรี สถานการณ์การใช้งานครอบคลุมการวิเคราะห์เอกสารองค์กร การศึกษาและการวิจัย การช่วยเขียนโปรแกรม ฯลฯ
ในวันที่ 21 สิงหาคม DeepSeek-V3.1 เปิดตัวอย่างเป็นทางการ การอัปเกรดครั้งนี้รวมถึงการเปลี่ยนแปลงหลักดังต่อไปนี้:
- สถาปัตยกรรมการอนุมานแบบผสม: โมเดลเดียวรองรับทั้งโหมดคิดและโหมดไม่คิด
- ประสิทธิภาพการคิดที่สูงขึ้น: เมื่อเทียบกับ DeepSeek-R1-0528 DeepSeek-V3.1-Think สามารถให้คำตอบได้ในเวลาที่สั้นลง
- ความสามารถของ Agent ที่แข็งแกร่งขึ้น: ผ่านการปรับแต่ง Post-Training โมเดลใหม่มีประสิทธิภาพดีขึ้นอย่างมากในการใช้เครื่องมือและงานตัวแทนอัจฉริยะ
โมเดลในแอปและเว็บไซต์ทางการได้รับการอัปเกรดเป็น DeepSeek-V3.1 พร้อมกัน ผู้ใช้สามารถสลับระหว่างโหมดคิดและโหมดไม่คิดได้อย่างอิสระผ่านปุ่ม “การคิดเชิงลึก”
บริบทของ DeepSeek-V3.1 ได้ขยายเป็น 128K ในขณะเดียวกัน อินเทอร์เฟซ API เบต้าได้รองรับ Function Calling ในโหมด strict เพื่อให้แน่ใจว่า Function ที่ส่งออกเป็นไปตามคำจำกัดความของ schema
ในวันที่ 22 กันยายน DeepSeek-V3.1 ได้รับการอัปเดตเป็นเวอร์ชัน DeepSeek-V3.1-Terminus ตามที่ DeepSeek กล่าว การอัปเดตนี้ยังคงความสามารถดั้งเดิมของโมเดลไว้ พร้อมปรับปรุงตามปัญหาที่ผู้ใช้反馈 รวมถึง: ความสอดคล้องของภาษา: บรรเทาปัญหาการปนกันของจีน-อังกฤษ และอักขระผิดปกติเป็นครั้งคราว ในด้านความสามารถของ Agent ได้ปรับแต่งประสิทธิภาพของ Code Agent และ Search Agent เพิ่มเติม ผลลัพธ์ของ DeepSeek-V3.1-Terminus มีเสถียรภาพมากขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า
ในวันที่ 29 กันยายน DeepSeek เปิดตัวโมเดล DeepSeek-V3.2-Exp ซึ่งเป็นเวอร์ชันทดลอง (Experimental)
ในฐานะขั้นตอนกลางสู่สถาปัตยกรรมรุ่นใหม่ V3.2-Exp ได้แนะนำ DeepSeek Sparse Attention (กลไกความสนใจแบบกระจาย) บนพื้นฐานของ V3.1-Terminus และทำการปรับแต่งและตรวจสอบเชิงสำรวจสำหรับประสิทธิภาพการฝึกและการอนุมานข้อความยาว
DeepSeek Sparse Attention (DSA) เป็นครั้งแรกที่บรรลุกลไกความสนใจแบบกระจายละเอียด ซึ่งช่วยเพิ่มประสิทธิภาพการฝึกและการอนุมานข้อความยาวได้อย่างมาก โดยแทบไม่ส่งผลกระทบต่อผลลัพธ์ของโมเดล
ในวันที่ 1 ธันวาคม DeepSeek เปิดตัวโมเดลเวอร์ชันทางการสองรุ่นพร้อมกัน: DeepSeek-V3.2 และ DeepSeek-V3.2-Speciale
DeepSeek-V3.2 มีเป้าหมายเพื่อสร้างสมดุลระหว่างความสามารถในการอนุมานและความยาวของผลลัพธ์ เหมาะสำหรับการใช้งานประจำวัน เช่น สถานการณ์ถามตอบและงาน Agent ทั่วไป
ในการทดสอบ Benchmark การอนุมานที่เปิดเผยต่อสาธารณะ DeepSeek-V3.2 ทำได้ถึงระดับ GPT-5 และต่ำกว่า Gemini-3.0-Pro เพียงเล็กน้อย; เมื่อเทียบกับ Kimi-K2-Thinking ความยาวผลลัพธ์ของ V3.2 ลดลงอย่างมาก ลดค่าใช้จ่ายในการคำนวณและเวลารอของผู้ใช้
DeepSeek-V3.2-Speciale มีเป้าหมายเพื่อผลักดันความสามารถในการอนุมานของโมเดลโอเพนซอร์สให้ถึงขีดสุด และสำรวจขอบเขตความสามารถของโมเดล
V3.2-Speciale เป็นเวอร์ชันเสริมการคิดระยะยาวของ DeepSeek-V3.2 พร้อมรวมความสามารถในการพิสูจน์ทฤษฎีบทของ DeepSeek-Math-V2 โมเดลนี้มีความสามารถในการทำตามคำสั่ง การพิสูจน์ทางคณิตศาสตร์ และการตรวจสอบตรรกะที่ดีขึ้น และมีประสิทธิภาพเทียบเท่า Gemini-3.0-Pro ในการทดสอบ Benchmark การอนุมานหลัก
โมเดล V3.2-Speciale ประสบความสำเร็จในการคว้าเหรียญทอง IMO 2025 (คณิตศาสตร์โอลิมปิกระหว่างประเทศ), CMO 2025 (คณิตศาสตร์โอลิมปิกจีน), ICPC World Finals 2025 (การแข่งขันโปรแกรมคอมพิวเตอร์ระหว่างประเทศ รอบชิงชนะเลิศโลก) และ IOI 2025 (สารสนเทศโอลิมปิกระหว่างประเทศ) โดยผลงาน ICPC และ IOI อยู่ในระดับที่สองและสิบของมนุษย์ตามลำดับ
DeepSeek ระบุว่า ในงานที่ซับซ้อนสูง โมเดล Speciale ดีกว่าเวอร์ชันมาตรฐานอย่างมาก แต่ใช้ Tokens มากกว่าและมีต้นทุนสูงกว่า ปัจจุบัน DeepSeek-V3.2-Speciale ใช้สำหรับการวิจัยเท่านั้น ไม่รองรับการเรียกใช้เครื่องมือ และยังไม่ได้รับการปรับแต่งเฉพาะสำหรับงานสนทนาและการเขียนในชีวิตประจำวัน
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/31961
