DeepSeek V4 เปิดตัว: รองรับบริบทนับล้านโทเค็นแบบโอเพนซอร์ส พร้อมปรับให้เข้ากับชิปที่ผลิตในประเทศ

2 hours ago • ข่าวสารอุตสาหกรรม AI • 11 views

DeepSeek V4 “มาช้า” ไปครึ่งปี แต่กระแสตอบรับดีล้นหลามหลังเปิดตัวยังคงท่วมท้น

ติดเทรนด์ฮอตทั้งในและต่างประเทศ พื้นที่หน้าหนังสือพิมพ์เทคโนโลยีวันนี้ยกให้มันทั้งหมด OpenAI ก็กลายเป็นเพียงตัวประกอบ

ทุกคนประหลาดใจกับความคิดสร้างสรรค์ของ DeepSeek ในการสร้างความก้าวหน้าครั้งสำคัญภายใต้ข้อจำกัด และชื่นชมความมุ่งมั่นในการเลือกแนวทางโอเพนซอร์สในปี 2026

อาจกล่าวได้ว่า ชั่วขณะหนึ่งข้อมูลมีมากเกินไปเล็กน้อย แต่ถึงจะมาก ก็มีเพียงสองประเด็นหลัก

ประเด็นแรก โอเพนซอร์สเต็มรูปแบบด้วยบริบท百万โทเค็น KV cache ลดลงอย่างมาก

V4-Pro และ V4-Flash 1.6 ล้านล้านพารามิเตอร์ / 284 พันล้านพารามิเตอร์ บริบททั้งหมด 1M ในสถานการณ์ 1M FLOPs ต่อโทเค็นของ V4-Pro มีเพียง 27% ของ V3.2 และ KV cache มีเพียง 10%

GPD วิศวกรฮาร์ดแวร์ของ Amazon กล่าวว่า นี่หมายความว่า DeepSeek อาจแก้ปัญหาการขาดแคลน HBM ในปัจจุบันได้

ประเด็นที่สอง การปรับให้เข้ากับชิปในประเทศ รองรับพลังประมวลผลของ Huawei แล้ว คาดว่าโหนดซูเปอร์ Ascend 950 จะวางจำหน่ายเป็นจำนวนมากในช่วงครึ่งปีหลัง

นอกจากนี้ สิ่งที่ทุกคนกังวลมากที่สุดก็คือ ในช่วงสี่เดือนที่ผ่านมา DeepSeek ได้เผยแพร่บทความวิจัยหลายฉบับที่ “อาจเข้า V4” และวันนี้รายงานทางเทคนิคก็ถูกเปิดเผยแล้ว สามารถตรวจสอบบัญชีได้

mHC (Manifold-Constrained Hyper-Connections) : อัปโหลดไปยัง arXiv เมื่อวันที่ 31 ธันวาคม 2025 Liang Wenfeng เป็นผู้ร่วมเขียน เข้า V4
Engram (Conditional Memory Module) : มกราคม DeepSeek ร่วมกับมหาวิทยาลัยปักกิ่งเผยแพร่ ไม่เข้า V4 แต่ถูกกล่าวถึงในทิศทางอนาคต ไว้ให้ V5
DualPipe : เพื่อนเก่าจาก V3 ใช้ต่อ ปรับเปลี่ยนสำหรับ mHC
Muon Optimizer : ยืมมาจาก Kimi V4 เปลี่ยน AdamW รับผิดชอบการฝึกพารามิเตอร์ส่วนใหญ่

สี่ความคาดหวัง สามสำเร็จ หนึ่งไว้ให้รุ่นถัดไป

สถาปัตยกรรมโดยรวม

V4 รุ่นนี้ เป็นรุ่นที่มีการเปลี่ยนแปลงมากที่สุดในซีรีส์ DeepSeek เมื่อเทียบกับ V3 V4 ได้รับการอัปเกรดในสามจุด

ประการแรก นำ mHC (Manifold-Constrained Hyper-Connections) มาใช้เพื่อเสริมสร้าง Residual Connection

ประการที่สอง ออกแบบสถาปัตยกรรม Hybrid Attention สลับ CSA และ HCA เพื่อแก้ปัญหาประสิทธิภาพของข้อความยาว

ประการที่สาม ใช้ Muon เป็น Optimizer หลัก

ส่วน MoE ยังคงใช้ DeepSeekMoE โมดูล MTP (Multi-Token Prediction) คงเดิมเหมือน V3

รายละเอียดการปรับแต่งบางอย่างรวมถึง เปลี่ยนฟังก์ชัน Activation ของ Affinity Score จาก Sigmoid เป็น Sqrt(Softplus(·)) เอา Constraint จำนวน Target Nodes ของ Routing ออก และเปลี่ยน Dense FFN สองสามชั้นแรกเป็น MoE Layer ที่ใช้ Hash Routing

ต่อไป เรามาดูทีละอย่าง

mHC เพิ่ม Constraint ให้กับ Residual Connection

Residual Connection ถูกเสนอโดย He Kaiming ใน ResNet เมื่อปี 2016 สิบปีไม่ค่อยเปลี่ยนแปลง เมื่อโมเดลซ้อนกันทีละชั้น Gradient จะส่งกลับไปตาม Residual ซึ่งเป็นข้อกำหนดเบื้องต้นที่ Deep Learning จะทำงานได้

แต่เมื่อโมเดลลึกขึ้นและมีพารามิเตอร์มากขึ้น Residual แบบดั้งเดิมเริ่มแสดงจุดอ่อน การส่งสัญญาณไม่เสถียร การฝึกง่ายต่อการล่ม

พูดถึง Hyper-Connections (HC) ก่อน นี่คือแนวคิดที่ทีม Kimi เสนอมาก่อนหน้านี้ แกนหลักคือเปลี่ยน Residual Flow จากมิติเดียวเป็น n_hc ช่องทางคู่ขนาน แต่ละชั้นผสมผ่านเมทริกซ์ B

A, B, C คือ Linear Mapping สามตัว แนวคิดสวยงาม เทียบเท่ากับการเพิ่มมิติ Scaling ใหม่ให้กับ Residual Flow แต่ DeepSeek พบว่าเมื่อซ้อนหลายชั้น HC มักจะเกิดความไม่เสถียรของตัวเลข การฝึกพูดล่มก็ล่ม

วิธีของ V4 เรียกว่า mHC จำกัดเมทริกซ์ B ไว้บน Manifold ของ “Doubly Stochastic Matrix” (ทางคณิตศาสตร์เรียกว่า Birkhoff Polytope) ทำให้ทั้งแถวและคอลัมน์ Normalize เป็น 1 Constraint นี้ให้ข้อดีสองประการ

Spectral Norm ของเมทริกซ์โดยธรรมชาติไม่เกิน 1 การแพร่กระจายของ Residual มีขีดจำกัดบนที่แข็ง ไม่ระเบิด
เมทริกซ์ประเภทนี้ปิดภายใต้การคูณ ซ้อนหลายชั้นก็เสถียร

Input Mapping A และ Output Mapping C รับประกันว่าไม่เป็นลบและมีขอบเขตผ่านฟังก์ชัน Sigmoid เพื่อหลีกเลี่ยงการหักล้างสัญญาณซึ่งกันและกัน

ในการใช้งาน ใช้ Sinkhorn-Knopp Iteration สลับทำ Row Normalization และ Column Normalization ทำซ้ำ 20 ครั้งเพื่อลู่เข้า กระบวนการทั้งหมดรันทุกชั้น

ฟังดูแพง แต่ DeepSeek ทำ Fused Kernel จากนั้นจับคู่กับ Selective Recomputation การวัดจริงพบว่า Overhead ของ Wall-time ที่เกิดจาก mHC ถูกควบคุมไว้ที่ 6.7% ของ Overlapped Pipeline

ในแง่การตัดสินใจทางเทคนิค mHC ไม่ใช่นวัตกรรมสถาปัตยกรรมที่ดูโดดเด่น แต่เป็น “แพตช์ทางวิศวกรรม” ที่ทำให้โมเดลขนาดใหญ่ “อยู่ตัว” แต่เมื่อความลึกของโมเดลและจำนวนพารามิเตอร์เพิ่มขึ้นไปอีก แพตช์แบบนี้จะกลายเป็นสิ่งจำเป็น

กลไก Hybrid Attention

นี่คือส่วนที่หนาที่สุดของรายงานทั้งหมด และเป็นเวทมนตร์หลักของ “ประสิทธิภาพ百万โทเค็น”

ชั้น Attention ของ V4 ไม่ใช่แบบเดียว แต่เป็นโครงสร้างที่ใช้สลับกันสองแบบ คือ CSA (Compressed Sparse Attention) และ HCA (Heavily Compressed Attention)

CSA ทำสองสิ่ง บีบอัดก่อน จากนั้นเลือกแบบ Sparse

ขั้นตอนที่หนึ่ง การบีบอัด KV ทุก m โทเค็นของ KV entries ถูกบีบอัดเป็นหนึ่งเดียวผ่านกลไกแบบ Attention-like ที่มีน้ำหนักเรียนรู้ได้

ขั้นตอนที่สอง Lightning Indexer + การเลือก Top-k ส่วนนี้สืบทอดมาจาก DSA ของ V3.2 สำหรับแต่ละ Query Token ใช้ Indexer ที่มีน้ำหนักเบาในการคำนวณคะแนนความเกี่ยวข้องกับแต่ละ KV Block ที่ถูกบีบอัด

ขั้นตอนที่สาม Core Attention ทำ Multi-Query Attention บน KV Block ที่ถูกบีบอัด Top-k ที่เลือกไว้ เพื่อให้ได้ Attention Output

ขั้นตอนที่สี่ Grouped Output Projection เนื่องจาก V4 กำหนด Head Dimension c เป็น 512 (ใหญ่กว่า 128 ของ V3.2 มาก) หาก Project Output ของ Head ทั้งหมดกลับไปเป็นมิติ d โดยตรงจะแพงมาก จึงทำ Grouped Projection แบ่ง n_h Head ออกเป็น g กลุ่ม แต่ละกลุ่ม Project ไปยังมิติกลาง d_g ก่อน สุดท้ายรวมแล้ว Project กลับไปเป็น d

CSA ทั้งหมดเท่ากับทำการบีบอัดสองชั้น ชั้นแรกคือการบีบอัดความยาวลำดับ n กลายเป็น n/m ชั้นที่สองคือการเลือกแบบ Sparse n/m กลายเป็น top-k สำหรับลำดับ 1M Token เดิมต้อง Attend 1M Token ตอนนี้ต้อง Attend เพียง 1024 Compressed Blocks

แนวคิดของ HCA นั้นตรงไปตรงมาและรุนแรงกว่า บีบอัดหนักกว่า แต่ไม่ทำ Sparse

อัตราส่วนการบีบอัด m’=128 ทุก 128 Token บีบอัดเป็นหนึ่งเดียว กระบวนการบีบอัดไม่มี Overlap เหมือน CSA บีบอัดทุก m’ ตัวเป็นกลุ่มโดยตรง จากนั้นทำ Dense Attention กับ KV ที่ถูกบีบอัดทั้งหมด

รายงานไม่ได้อธิบายยาวเหยียดว่าทำไมต้องใช้ CSA และ HCA คู่กัน แต่หลังจากอ่านบทสถาปัตยกรรมทั้งหมด จะเห็นการแบ่งงานของพวกมัน

การบีบอัดของ CSA นั้นอ่อนโยน อาศัย Sparse เป็นตัวควบคุม เหมาะสำหรับการดึงข้อมูลระดับ Token ที่ละเอียด การบีบอัดของ HCA นั้นรุนแรง คงความ Dense เหมาะสำหรับการสรุปสัญญาณระดับโลกในระยะไกล

V4 สลับทั้งสองแบบทีละชั้น Pro มี 61 ชั้น Flash มี 43 ชั้น CSA และ HCA ซ้อนกันทีละชั้น ไม่พลาดรายละเอียด และไม่ถูกดึงโดยรายละเอียด

นอกจากนี้ รายงานยังเปิดเผยเคล็ดลับอีกสองสามข้อ

Q/KV Normalization ก่อน Core Attention ทั้ง CSA และ HCA ทำ RMSNorm กับ Query และ KV Entries เพื่อป้องกัน Attention Logits ระเบิด

Partial RoPE ใช้ Rotary Position Encoding เฉพาะกับ 64 มิติสุดท้ายของ Query และ KV Entries ส่วนมิติอื่นไม่ขยับ

เนื่องจาก KV Entries ทำหน้าที่ทั้ง Key และ Value RoPE แบบ Naive จะทำให้ Output มีข้อมูลตำแหน่งสัมบูรณ์ ดังนั้นที่ฝั่ง Output จึงใช้ RoPE ที่ตำแหน่ง -i เพื่อหักล้าง คงไว้เฉพาะข้อมูลตำแหน่งสัมพัทธ์ นี่คือการจัดการทางวิศวกรรมที่ชาญฉลาด

Sliding Window Attention เป็นสาขาช่วย

เนื่องจาก Compressed Attention รับประกัน Causality ที่เข้มงวด Query Token หนึ่งจะไม่เห็นข้อมูลของ Token อื่นภายใน Compressed Block ของตัวเอง เพื่อชดเชย Dependency ระยะใกล้ V4 เพิ่ม Sliding Window Branch พิเศษ แต่ละ Query นอกเหนือจากการดู Compressed KV แล้ว ยังสามารถดู Uncompressed KV ของ 128 Token ล่าสุดได้

Attention Sink ยืมเคล็ดลับจาก OpenAI และ StreamingLLM เพิ่ม Learnable Sink Logit ในตัวส่วนของ Attention อนุญาตให้ผลรวมของ Attention Score ไม่เท่ากับ 1

Muon Optimizer

การเพิ่มประสิทธิภาพพารามิเตอร์ส่วนใหญ่ในการฝึก V4 ไม่ได้ใช้ AdamW แต่ใช้ Muon

Muon เป็น Optimizer ที่ Keller Jordan และทีม (ตอนนี้เขาอยู่ที่ OpenAI) เคยตรวจสอบบนโมเดลขนาดเล็กเมื่อไม่กี่ปีก่อน โดยอาศัย Matrix Orthogonalization

มันปรับเฉพาะเมทริกซ์พารามิเตอร์ 2D พารามิเตอร์อื่นๆ (Embedding, Prediction Head, น้ำหนัก RMSNorm, Static Bias ของ mHC ฯลฯ) ยังคงใช้ AdamW

การตรวจสอบขนาดใหญ่ครั้งแรกของ Muon ในระดับ LLM คือ Kimi K2 ในปี 2025 Moonshot ใช้ Muon (รวมถึง QK-Clip Variant ของพวกเขา เรียกรวมกันว่า MuonClip) ฝึก MoE ขนาด 1T พารามิเตอร์ 15.5T Token ตลอดการฝึกไม่มีการล่มเลย

ตอนนี้ DeepSeek ก็ใช้เช่นกัน แต่พวกเขาทำเวอร์ชันของตัวเอง Hybrid Newton-Schulz Iteration 10 ขั้นตอนแบ่งเป็นสองช่วง

8 ขั้นตอนแรกใช้ค่าสัมประสิทธิ์เชิงรุก ผลักค่า Singular Value ไปใกล้ 1 อย่างรวดเร็ว
2 ขั้นตอนหลังใช้ค่าสัมประสิทธิ์ที่นุ่มนวล ทำให้ค่า Singular Value คงที่ที่ 1 อย่างแม่นยำ

มีรายละเอียดที่น่าสังเกต Kimi ใช้ Muon ต้องใช้ QK-Clip เพื่อป้องกัน Attention Logits ระเบิด DeepSeek ไม่ได้ใช้วิธีนี้ เหตุผลของพวกเขาคือ สถาปัตยกรรม Attention ของ V4 อนุญาตให้ทำ RMSNorm กับ Query และ KV ได้โดยตรง ควบคุมความเป็นไปได้ของการระเบิดตั้งแต่ต้นทาง

สองบริษัท Optimizer เดียวกัน แก้ปัญหาเดียวกัน แต่เดินคนละเส้นทาง การแบ่งปันเทคโนโลยีข้ามทีมและวิวัฒนาการของแต่ละฝ่ายนี้ เป็นด้านที่น่าสนใจที่สุดของชุมชนโอเพนซอร์สในปี 2026

การฝึกโมเดล

ซีรีส์ DeepSeek-V4 เพิ่มปริมาณข้อมูล Pre-training เป็นสองเท่า

เมื่อเทียบกับ V3 ที่ใช้เพียง 14.8T Token ในการฝึก ปริมาณข้อมูลที่ใช้ของ V4-Flash และ V4-Pro สูงถึง 32T และ 33T ตามลำดับ ปริมาณข้อมูลการฝึกเพิ่มขึ้นมากกว่าสองเท่า (เพิ่มขึ้นประมาณ 1.2 เท่า)

ในแง่ขององค์ประกอบข้อมูล ข้อมูลเอกสารยาวถูก Curate แยกต่างหาก ให้ความสำคัญกับเอกสารทางวิทยาศาสตร์และรายงานทางเทคนิคที่มีคุณค่าทางวิชาการ Tokenizer ยังคงใช้คำศัพท์ 128K ของ V3

ในสถาปัตยกรรมโมเดล V4-Flash 43 ชั้น Hidden Dimension 4096

MoE ใช้ 1 Shared Expert + 256 Routed Experts เปิดใช้งาน 6 ตัวต่อ Token พารามิเตอร์รวม 284B เปิดใช้งาน 13B

V4-Pro 61 ชั้น Hidden Dimension 7168 MoE ใช้ 1 Shared Expert + 384 Routed Experts เปิดใช้งาน 6 ตัวต่อ Token พารามิเตอร์รวม 1.6T เปิดใช้งาน 49B

ในการจัดตารางการฝึก ความยาวลำดับแบ่งเป็นสี่ช่วง 4K → 16K → 64K → 1M Sparse Attention ไม่ได้เปิดตั้งแต่แรก 1T Token แรกใช้ Dense Attention ทำ Warmup เมื่อขยายเป็น 64K จึง Introduce Sparsity

รายงานระบุว่า ระหว่างการฝึกเกิด Loss Spike รุนแรงหนึ่งครั้ง DeepSeek พบวิธีแก้ไขแบบบ้านๆ สองวิธีคือ Anticipatory Routing และ SwiGLU Clamping ถ้อยคำดั้งเดิมในรายงานซื่อสัตย์มาก Trick ทั้งสองนี้ใช้ได้ แต่กลไกเบื้องลึกยังคงเป็น Open Question

ทีมที่ฝึก MoE สองล้านล้านพารามิเตอร์ยอมรับต่อสาธารณะว่า “เราไม่รู้ว่าทำไม Trick ทั้งสองนี้ถึงได้ผล” ซึ่งเป็นเรื่องที่ค่อนข้างหายากในปี 2026

ในขั้นตอน Post-training V4 รุ่นนี้ทำการเปลี่ยน Methodology Mixed RL Stage แบบดั้งเดิมถูกแทนที่ด้วย On-Policy Distillation (OPD) อย่างสมบูรณ์

กระบวนการแบ่งเป็นสองขั้นตอน

ขั้นตอนที่หนึ่ง ฝึก Domain Specialist

สี่โดเมนคือ คณิตศาสตร์ โค้ด Agent และการทำตามคำสั่ง แต่ละโดเมนฝึก Expert แยกกัน ใช้ SFT เป็นพื้นฐานก่อน จากนั้นใช้ GRPO ทำ Domain-specific RL V4 ยังแนะนำโหมด Reasoning Effort สามระดับ Non-think, Think High, Think Max แต่ละระดับความยาวเอาต์พุตต่างกัน

ขั้นตอนที่สอง รวม OPD

Expert หลายสิบตัวถูกรวมเป็น Student ตัวเดียวผ่าน On-policy Distillation Student สร้าง Rollout ของตัวเอง ลด Reverse KL ให้สอดคล้องกับ Expert ในโดเมนที่เกี่ยวข้อง งานคณิตศาสตร์เข้าใกล้ Math Expert งานเขียนโปรแกรมเข้าใกล้ Coding Expert

Methodology ฟังดูสวยงาม แต่ในทางวิศวกรรมใส่ไม่ลง Teacher หลายสิบตัวแต่ละตัวมีขนาดล้านล้าน Vocab Size เกิน 100,000

วิธีของ V4 คือ Offload น้ำหนัก Teacher ไปยัง Distributed Storage โหลดตามต้องการ แคชเฉพาะ Hidden States ไม่ Materialize Logits จัดเรียงตัวอย่างตาม Teacher เพื่อให้แน่ใจว่าแต่ละ Mini-batch โหลด Teacher Head เพียงตัวเดียว

ชุด Methodology Post-training ที่ดูสวยงาม เบื้องหลังคือการประนีประนอมทางวิศวกรรมมากมายที่ “ถ้าไม่ทำแบบนี้ก็ใส่ไม่ลง”

ข้อสรุปการทดลอง

ในส่วนการทดลอง มีสามสิ่งที่ควรพูดถึงมากที่สุด

DeepSeek V4 เปิดตัว: รองรับบริบทนับล้านโทเค็นแบบโอเพนซอร์ส พร้อมปรับให้เข้ากับชิปที่ผลิตในประเทศ

โอเพนซอร์สเป็นผู้นำ

บน SimpleQA-Verified V4-Pro-Max ได้ 57.9 K2.6 ได้ 36.9 GLM-5.1 ได้ 38.1 นำโมเดลโอเพนซอร์สทั้งหมด 20 จุดเปอร์เซ็นต์

เทียบเท่า Closed-source

Codeforces Rating 3206 เกิน GPT-5.4 ที่ 3168 และ Gemini-3.1-Pro ที่ 3052 อยู่ในอันดับที่ 23 ในรายชื่อผู้เข้าแข่งขันมนุษย์ โมเดลโอเพนซอร์สเทียบเท่า Closed-source ชั้นนำ ครั้งนี้เทียบเท่าจริงๆ

ช่องว่างยังคงมีอยู่

บน HLE V4-Pro-Max 37.7 Gemini-3.1-Pro 44.4 Claude-Opus-4.6-Max 40.0 บน 1M MRCR V4 ดีกว่า Gemini แต่ด้อยกว่า Claude อย่างชัดเจน งานด้านความรู้และการอนุมานที่ล้ำสมัยที่สุดยังคงมีช่องว่าง 3-6 เดือน

ในรายงาน DeepSeek ระบุว่า:

DeepSeek-V4-Pro-Max มีประสิทธิภาพดีกว่า GPT-5.2 และ Gemini-3.0-Pro ใน Benchmark การอนุมานมาตรฐาน แต่ด้อยกว่า GPT-5.4 และ Gemini-3.1-Pro เล็กน้อย ซึ่งบ่งชี้ว่าเส้นทางการพัฒนาของมันล้าหลังโมเดล Closed-source ที่ล้ำสมัยที่สุดประมาณ 3 ถึง 6 เดือน

Flash-Max อาจเป็นส่วนที่ถูกประเมินต่ำที่สุดของรายงานนี้

V4-Flash-Max เปิดใช้งานเพียง 13B พารามิเตอร์ ในงานอนุมานสามารถเทียบเท่า GPT-5.2 และ Gemini-3.0-Pro โค้ดและคณิตศาสตร์ยังเหนือกว่า K2.6-Thinking

หากดูเฉพาะจำนวนพารามิเตอร์ที่เปิดใช้งาน นี่คือหนึ่งในโมเดลอนุมานที่มีประสิทธิภาพสูงที่สุดในปัจจุบัน

สิ่งที่ควรพูดถึงมากที่สุดในงานจริงคือ Internal R&D Code Benchmark V4-Pro-Max 67% ใกล้เคียงกับ Claude Opus 4.5 ที่ 70%

ในการสำรวจนักพัฒนาภายใน 85 คน 91% ระบุว่า V4-Pro สามารถใช้เป็นโมเดล Coding หลักได้

ในโพสต์อย่างเป็นทางการ ก็ยืนยันข้อความนี้โดยอ้อม:

ปัจจุบัน DeepSeek-V4 กลายเป็นโมเดล Agentic Coding ที่พนักงานภายในบริษัทใช้ ตามผลตอบรับจากการประเมิน ประสบการณ์การใช้งานดีกว่า Sonnet 4.5 คุณภาพการส่งมอบใกล้เคียงกับ Opus 4.6 โหมดไม่คิด แต่ยังคงมีช่องว่างกับ Opus 4.6 โหมดคิด

ในตอนท้ายของรายงาน DeepSeek ยังระบุว่า:

เพื่อแสวงหาประสิทธิภาพข้อความยาวที่สูงสุด ซีรีส์ V4 ได้ใช้การออกแบบสถาปัตยกรรมที่ค่อนข้างรุนแรง เพื่อลดความเสี่ยง เราได้คงส่วนประกอบและ Trick ที่ผ่านการตรวจสอบแล้วไว้มากมาย ซึ่งทำให้สถาปัตยกรรมค่อนข้างซับซ้อน ในการทำซ้ำในอนาคต เราจะทำการวิจัยที่ครอบคลุมและมีหลักการมากขึ้น เพื่อลดความซับซ้อนของสถาปัตยกรรมให้เหลือส่วนที่จำเป็นที่สุด

ทิศทางในอนาคตหลายประการ สำรวจ Sparsity ในมิติใหม่ (ระบุสายงาน Engram) สถาปัตยกรรม Latency ต่ำ งาน Agentic หลายรอบระยะยาว Multimodal การ Curate ข้อมูลที่ดีขึ้น

มีรายละเอียดเล็กๆ น้อยๆ ที่น่าสนใจ ในการประเมินคณิตศาสตร์เชิงรูปแบบ DeepSeek ก็แซวคู่แข่งเล็กน้อย:

เราเว้นว่างบางรายการของ K2.6 และ GLM-5.1 ไว้ เนื่องจาก API ของพวกมันยุ่งเกินไป ไม่สามารถส่งคืนผลลัพธ์ที่เราสอบถามได้ทันเวลา

มันฮอตมาก ว่าอย่างนั้น

สรุป

เมื่อมอง V4 ในเส้นทางที่สมบูรณ์ของ DeepSeek มันไม่ได้กำลังไล่ตาม Frontier

แนวโน้มในช่วงสามปีที่ผ่านมาชัดเจนมาก บริษัท Closed-source ขนาดใหญ่แสวงหาขีดจำกัดความสามารถ ว่าโมเดลของใครจะได้คะแนนสูงกว่าบน HLE DeepSeek แสวงหาอีกเส้นหนึ่งมาโดยตลอด นั่นคือขีดจำกัดล่างของต้นทุนภายใต้ความสามารถเดียวกัน

V4 ผลักดันสิ่งนี้ไปถึง百万โทเค็น บริบท 1M ภายใต้โครงสร้างต้นทุนของ V3.2 นั้นไม่ยั่งยืน KV cache จะกินหน่วยความจำกราฟิกจนหมด V4 บีบอัดให้เหลือ 10% ของ V3.2 เส้นต้นทุนก็ราบเรียบลงทันที

แล้วผลลัพธ์จะเป็นอย่างไร เซสชัน Agent ที่ยาวนาน เอกสารทางเทคนิคที่ต้องอ่านซ้ำแล้วซ้ำอีก การ Refactor ข้ามหลาย Repository สถานการณ์เหล่านี้ที่เคยต้องตัดหน้าต่าง เพิ่ม Retrieval จัดการบริบทอย่างพิถีพิถัน กลายเป็น “ใส่ทั้งหมดแล้วค่อยดู” ใน V4

สิ่งที่ DeepSeek ทำในช่วงไม่กี่ปีที่ผ่านมา การกระทำเบื้องล่างชัดเจนมาก คือการลบตลอด ตั้งแต่ MLA ของ V2 แต่ละรุ่นลบ KV cache ลบ Activation Parameters ลบปริมาณการคำนวณ Attention

ลบจนถึง V4 FLOPs การอนุมานต่อโทเค็นลดลงเหลือหนึ่งในสี่ KV cache ลดลงเหลือหนึ่งในสิบ

百万โทเค็นไม่ใช่ความสามารถใหม่ แต่เป็นหน้าต่างบริบทเดียวกันที่ถูกบีบอัดให้มีต้นทุนที่รับได้

One more thing

ท้ายรายงานมีรายชื่อผู้มีส่วนร่วมยาวเหยียด

Liang Wenfeng อยู่ในนั้น

ในนั้นมีหลายชื่อที่มีเครื่องหมายดอกจัน ซึ่งเป็นนักวิจัยที่ออกจากทีมไปแล้ว แต่ยังคงมีส่วนสำคัญต่อ V4

ปีที่ผ่านมา มีข่าวเกี่ยวกับการสูญเสียบุคลากรของ DeepSeek หลายรอบ แต่รายชื่อนี้ผูกชื่อของพวกเขาและ V4 โมเดลที่ทุกคนรอคอยมานานกว่าหนึ่งปี ไว้บนกระดาษแผ่นเดียวกัน

ทุกคนมีความหมาย ทุกวันก็มีความหมาย

ในวันเปิดตัว V4 Chen Deli นักวิจัย DeepSeek โพสต์บน X และเขียนว่า:

DeepSeek-V3: 26 ธันวาคม 2024

DeepSeek-V4: 24 เมษายน 2026

484 วันต่อมา เราถ่อมตนแบ่งปันผลงานแห่งความรักนี้

เช่นเคย เรายึดมั่นใน Long-termism และ Open-source สำหรับทุกคนเสมอ

AGI เป็นของทุกคน

ลิงก์อ้างอิง

[1]https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro

[2]https://arxiv.org/pdf/2512.24880

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง