DeepSeek V4 เปิดตัวอย่างเป็นทางการ: โมเดลพารามิเตอร์ 1.6T มีประสิทธิภาพเทียบเท่าโมเดลปิดชั้นนำ ความสามารถของ Agent ถือเป็นจุดเด่นที่สำคัญที่สุด

2 days ago • ข่าวสารอุตสาหกรรม AI • 37 views

ตอนเที่ยงวันศุกร์ ซึ่งปกติแล้วจะเป็นช่วงเวลาทองที่ผู้คนเริ่มวางแผนว่าจะไปเที่ยวที่ไหนในวันหยุดสุดสัปดาห์ แต่ไม่คิดว่า DeepSeek จะประกาศเปิดตัวและปล่อยซอร์สโค้ดรุ่นพรีวิวของซีรีส์โมเดล V4 อย่างเป็นทางการเสียก่อน เปิดตัวมาก็เป็นระดับระเบิดนิวเคลียร์ทันที และทั้งคู่มาพร้อมกับบริบทโทเค็นนับล้านเป็นมาตรฐาน:

DeepSeek-V4-Pro (พารามิเตอร์ 49B ที่เปิดใช้งาน) ซึ่งมีพารามิเตอร์ 1.6T
DeepSeek-V4-Flash (พารามิเตอร์ 13B ที่เปิดใช้งาน) ซึ่งมีพารามิเตอร์ 284B สามารถทดลองใช้ได้ตั้งแต่วันนี้ที่เว็บไซต์ทางการ chat.deepseek.com หรือแอปพลิเคชันทางการ พร้อมเปิดให้บริการ API พร้อมกัน

DeepSeek V4 เปิดตัว นักเล่น Agent เตรียมตัวสนุกกันได้เลย

ความสามารถของ Agent คือทิศทางหลักที่สุดของการอัปเกรดครั้งนี้ V4-Pro ถูกใช้เป็นเครื่องมือ Agentic Coding ภายในองค์กร DeepSeek อยู่แล้ว ผลการทดสอบจริงจากพนักงานคือ: ใช้งานได้คล่องกว่า Sonnet 4.5 คุณภาพการส่งมอบใกล้เคียงกับโหมดไม่คิดของ Opus 4.6 แต่ยังมีช่องว่างเมื่อเทียบกับโหมดคิดของ Opus 4.6 การทดสอบเกณฑ์มาตรฐานการเขียนโปรแกรม R&D ภายในองค์กรก็ให้ตำแหน่งที่คล้ายกัน ในงานจริงประมาณ 200 งานจากวิศวกรกว่า 50 คน Pass Rate ของ V4-Pro-Max คือ 67% Sonnet 4.5 คือ 47% Opus 4.5 Thinking คือ 73% Opus 4.6 Thinking คือ 80%

DeepSeek V4 เปิดตัวอย่างเป็นทางการ: โมเดลพารามิเตอร์ 1.6T มีประสิทธิภาพเทียบเท่าโมเดลปิดชั้นนำ ความสามารถของ Agent ถือเป็นจุดเด่นที่สำคัญที่สุด

ในกลุ่มนักพัฒนาและนักวิจัย 85 คนที่มีประสบการณ์ใช้งานซึ่งเข้าร่วมการสำรวจภายใน กว่าเก้าสิบเปอร์เซ็นต์คิดว่า V4-Pro สามารถเป็นโมเดลการเขียนโปรแกรมอันดับหนึ่งหรือใกล้เคียงอันดับหนึ่งได้แล้ว โมเดลนี้ได้รับการปรับแต่งเฉพาะสำหรับผลิตภัณฑ์ Agent หลักๆ เช่น Claude Code, OpenClaw, OpenCode, CodeBuddy แล้ว งานโค้ดและการสร้างเอกสารก็ดีขึ้น ในด้านการเรียกใช้เครื่องมือ ซีรีส์ V4 ได้แนะนำรูปแบบ tool-call schema แบบ XML ใหม่ โดยใช้โทเค็นพิเศษ “|DSML|” เพื่อกำหนดขอบเขตการเรียกใช้ ทางการระบุว่าการออกแบบนี้ช่วยลดความล้มเหลวในการแปลงและการเรียกใช้เครื่องมือที่ผิดพลาดได้อย่างมีประสิทธิภาพ เชื่อถือได้มากกว่ารุ่นก่อนหน้า

ในด้านความรู้และการให้เหตุผล V4-Pro มีคะแนนนำโมเดลโอเพนซอร์สอื่นๆ อย่างมากในการประเมินความรู้โลก คะแนน SimpleQA-Verified อยู่ที่ 57.9 สูงกว่าคู่แข่งโอเพนซอร์สที่ใกล้เคียงที่สุดประมาณ 20 จุด百分点 แต่ยังด้อยกว่า Gemini-3.1-Pro เล็กน้อยที่ 75.6 คณิตศาสตร์ STEM และโค้ดแข่งขันทั้งสามด้านเหนือกว่าโมเดลโอเพนซอร์สทั้งหมดที่เปิดเผยผลการประเมินแล้ว ถึงระดับโมเดลปิดชั้นนำ ในระดับโมเดลพื้นฐาน V4-Pro-Base มีคะแนนในการประเมิน MMLU 5-shot, MMLU-Pro 5-shot, Simple-QA Verified 25-shot และ LongBench-V2 ข้อความยาว分别为 90.1, 73.5, 55.2 และ 51.5 ซึ่งเหนือกว่า V3.2-Base (ซึ่งมีคะแนน分别为 87.8, 65.5, 28.3 และ 40.2) อย่างมากในทุกด้าน เป็นที่น่าสังเกตว่า V4-Flash-Base ซึ่งมีพารามิเตอร์น้อยกว่าก็ยังเหนือกว่า V3.2-Base ในการทดสอบเกณฑ์มาตรฐานส่วนใหญ่ แสดงให้เห็นว่าการปรับปรุงในระดับสถาปัตยกรรมนั้นทำให้ประสิทธิภาพเพิ่มขึ้นอย่างมาก ในการเปรียบเทียบโมเดลคำสั่งในแนวนอน LiveCodeBench Pass@1 ของ V4-Pro Max อยู่ที่ 93.5 และ Codeforces Rating อยู่ที่ 3206 ซึ่งสูงที่สุดในบรรดาโมเดลที่เข้าร่วมการทดสอบ

ในอันดับนักแข่งมนุษย์ของ Codeforces ปัจจุบัน V4-Pro-Max อยู่ในอันดับที่ 23 IMOAnswerBench Pass@1 อยู่ที่ 89.8 รองจาก GPT-5.4 ที่ 91.4 เท่านั้น เกณฑ์มาตรฐานคณิตศาสตร์แข่งขัน HMMT 2026 Feb Pass@1 อยู่ที่ 95.2 ใกล้เคียงกับ Opus-4.6 Max ที่ 96.2 และ GPT-5.4 ที่ 97.7 Apex Shortlist Pass@1 อยู่ที่ 90.2 สูงกว่าโมเดลทั้งหมดที่เปรียบเทียบในครั้งนี้ ในการประเมิน Agent SWE Verified Resolved อยู่ที่ 80.6 เทียบเท่ากับ Opus-4.6 Max ที่ 80.8 BrowseComp Pass@1 อยู่ที่ 83.4 MCPAtlas Public Pass@1 อยู่ที่ 73.6 ซึ่งอยู่ในระดับแนวหน้าของโมเดลที่ทดสอบ ตัวเลขสองรายการหลังแสดงให้เห็นว่า V4 มีความสามารถในการทำงานร่วมกับระบบนิเวศเครื่องมือ MCP ที่แข็งแกร่ง ไม่ใช่แค่ทำงานได้ดีบนเฟรมเวิร์กภายในเท่านั้น

ในการประเมินข้อความยาว MRCR 1M MMR อยู่ที่ 83.5 CorpusQA 1M ACC อยู่ที่ 62.0 สูงกว่า Gemini-3.1-Pro ที่ 76.3 และ 53.8 แต่ยังตามหลัง Claude Opus 4.6 ที่ 92.9 ใน MRCR จากข้อมูลแบบแบ่งส่วน ความสามารถในการค้นคืนภายใน 128K นั้นค่อนข้างคงที่ หลังจาก 128K เริ่มลดลงอย่างเห็นได้ชัด แต่ประสิทธิภาพที่ 1M ก็ยังเหนือกว่าโมเดลคล้ายคลึงส่วนใหญ่ การเขียนภาษาจีนก็เป็นจุดแข็งของ V4-Pro เช่นกัน ทางการใช้ Gemini-3.1-Pro เป็นโมเดลเกณฑ์มาตรฐานสำหรับการเขียนภาษาจีน ในการประเมินการเขียนเชิงฟังก์ชันที่มีตัวอย่าง 3170 ตัวอย่าง อัตราชนะของ V4-Pro อยู่ที่ 62.7% ในขณะที่ Gemini อยู่ที่ 34.1% ในการเขียนเชิงสร้างสรรค์ อัตราชนะของ V4-Pro ในด้านคุณภาพการเขียนสูงถึง 77.5% อย่างไรก็ตาม เมื่อเจอข้อจำกัดคำสั่งที่ยากหรืองานเขียนหลายรอบ Claude Opus 4.5 ยังคงมีข้อได้เปรียบ โดยมีอัตราชนะ 52.0% ต่อ 45.9%

อย่าคิดว่า Flash เป็น “รุ่นลดสเปก” การเลือกโหมดคิดต่างหากคือกุญแจสำคัญ

หลายคนเมื่อเห็นสองระดับ Pro และ Flash ปฏิกิริยาแรกคือ “Flash คือรุ่นลดสเปก” ผิด ผิดอย่างมหันต์ ตรรกะการวางตำแหน่งของ DeepSeek นั้นซับซ้อนกว่านั้น V4-Flash มีพารามิเตอร์และพารามิเตอร์ที่เปิดใช้งานน้อยกว่ามาก ราคา API ก็มีการแข่งขันมากกว่า ความสามารถในการให้เหตุผลใกล้เคียงกับ Pro มาก คลังความรู้โลกด้อยกว่าเล็กน้อย ในงาน Agent ง่ายๆ ทั้งสองต่างกันไม่มากนัก สิ่งที่ทำให้เกิดความแตกต่างอย่างแท้จริงคืองานที่ยาก และการเลือกโหมดคิด ในโหมด Think Max ประสิทธิภาพการให้เหตุผลของ V4-Flash สามารถไล่ตาม Pro ได้อย่างมาก: LiveCodeBench Flash Max อยู่ที่ 91.6, Codeforces Flash Max Rating อยู่ที่ 3052, GPQA Diamond Pass@1 อยู่ที่ 88.1, IMOAnswerBench Pass@1 อยู่ที่ 88.4 ซึ่งช่องว่างกับ Pro Max นั้นค่อนข้างจำกัด

งานประจำวันใช้ Flash เจองานหนักเปิด Think Max คุ้มค่ามาก ความแตกต่างของประสิทธิภาพระหว่างโหมดนั้นใหญ่กว่าความแตกต่างระหว่างเวอร์ชันมาก ยกตัวอย่าง V4-Pro HLE Pass@1 เพิ่มขึ้นจาก 7.7 ในโหมดไม่คิดเป็น 37.7 ในโหมด Max, Apex Pass@1 เพิ่มขึ้นจาก 0.4 เป็น 38.3, BrowseComp Pass@1 พุ่งขึ้นเป็น 83.4 สำหรับงานที่ซับซ้อน การเลือกความเข้มข้นในการคิดที่ถูกต้องสำคัญกว่าการกังวลว่าจะเลือกเวอร์ชันไหน โมเดลทั้งสองรองรับความเข้มข้นในการให้เหตุผลสามระดับ สามารถสลับได้ผ่านพารามิเตอร์ reasoning_effort โหมดไม่คิดตอบสนองเร็ว เหมาะกับงานเบาทั่วไป Think High เปิดการให้เหตุผลเชิงตรรกะที่ชัดเจน เหมาะกับปัญหาที่ซับซ้อนและการวางแผน Think Max ดึงความสามารถในการให้เหตุผลสูงสุด เหมาะสำหรับการสำรวจขีดจำกัดของโมเดล ทางการแนะนำให้ตั้งค่าหน้าต่างบริบทอย่างน้อย 384K token สำหรับสถานการณ์ Agent ที่ซับซ้อน ให้ตั้งเป็น max โดยตรง ในโหมด Think Max ยังมีคำสั่งเพิ่มเติมที่แทรกไว้ที่จุดเริ่มต้นของระบบ prompt โดยกำหนดให้โมเดล “ใช้ความพยายามในการให้เหตุผลสูงสุดเท่าที่จะเป็นไปได้ ห้ามใช้ทางลัด” และบังคับให้เขียนทุกขั้นตอนการให้เหตุผล ทุกสมมติฐานที่ถูกปฏิเสธออกมาอย่างชัดเจน

ผลของการออกแบบนี้เห็นได้ชัดเจนจากข้อมูล และยังอธิบายว่าทำไมโมเดลเดียวกันถึงมีประสิทธิภาพแตกต่างกันมากในโหมดต่างๆ

บริบทยาวนับล้าน ใช้ทุกโทเค็นให้คุ้มค่า

บริบทโทเค็นนับล้านมีหลายโมเดลที่โปรโมท แต่ต้นทุนทางวิศวกรรมในการรองรับขนาดนี้แตกต่างกันโดยสิ้นเชิง DeepSeek V4 ได้ปรับเปลี่ยนครั้งใหญ่ในระดับสถาปัตยกรรม กลไกความสนใจคือแกนหลักของการเปลี่ยนแปลงครั้งนี้

การคำนวณความสนใจแบบดั้งเดิมเพิ่มขึ้นตามกำลังสองของความยาวลำดับ เมื่อบริบทยาวขึ้นก็กลายเป็นคอขวดหลักในการคำนวณ V4 ได้แนะนำการบีบอัดความสนใจสองประเภทและใช้สลับกัน CSA บีบอัด KV cache ของทุก m โทเค็นเป็นหนึ่งรายการ จากนั้นใช้ความสนใจแบบ稀疏เพื่อเลือกเฉพาะ k รายการจากนั้นมาเข้าร่วมการคำนวณหลัก

HCA ใช้อัตราการบีบอัดที่รุนแรงกว่า บีบอัดโทเค็นในช่วงที่ยาวกว่าเป็นหนึ่งรายการ แต่ยังคงความสนใจแบบหนาแน่น

ใน CSA ยังมีดัชนี闪电ที่ใช้ FP4 ความแม่นยำต่ำเพื่อคำนวณคะแนนความสัมพันธ์ระหว่างโทเค็น查询แต่ละตัวกับแต่ละบล็อกที่ถูกบีบอัดอย่างรวดเร็ว จากนั้นเลือกบล็อก top-k เพื่อเข้าร่วมความสนใจในภายหลัง ซึ่งช่วยลดปริมาณการคำนวณลงอีก เพื่อหลีกเลี่ยงการสูญเสียรายละเอียดในท้องถิ่นจากการบีบอัด ความสนใจทั้งสองประเภทจึงเพิ่มสาขาหน้าต่างเลื่อนเพิ่มเติม เพื่อให้แต่ละโทเค็นสามารถมองเห็นโทเค็นข้างเคียงจำนวนหนึ่งที่ใกล้ที่สุดได้อย่างสมบูรณ์ ผลลัพธ์นั้นมีนัยสำคัญ ในสถานการณ์บริบท 1M ปริมาณการคำนวณการอนุมานต่อโทเค็นของ V4-Pro คิดเป็นเพียง 27% ของ V3.2 และการใช้ KV cache ลดลงเหลือ 10% ของ V3.2 V4-Flash รุนแรงยิ่งกว่า ในสถานการณ์เดียวกัน ปริมาณการคำนวณการอนุมานคิดเป็นเพียง 10% ของ V3.2 และ KV cache ลดลงเหลือ 7%

ทางการระบุว่าบริบทนับล้านจากนี้ไปจะเป็นมาตรฐานของบริการทางการทั้งหมดของ DeepSeek จริงๆ แล้วมันยาว ยาว ยาว ยาว ยาว ยาว ยาว ยาว ยาว ยาว นอกเหนือจากกลไกความสนใจแล้ว V4 ยังแนะนำ manifold-constrained hyperconnection (mHC) เพื่อเสริมสร้างการเชื่อมต่อ残差 การเชื่อมต่อ残差แบบดั้งเดิมจะบวกสัญญาณระหว่างเลเยอร์โดยตรง ในขณะที่ mHC จะขยายความกว้างของกระแส残差หลายเท่า จากนั้นใช้การแมปเชิงเส้นที่เรียนรู้ได้สามชุดเพื่อควบคุมวิธีการผสมสัญญาณแบบไดนามิก เมทริกซ์ที่รับผิดชอบการแปลง残差ถูกจำกัดอยู่ในชุดเมทริกซ์双随机 เพื่อให้แน่ใจว่า spectral norm ไม่เกิน 1 ทำให้การแพร่กระจายสัญญาณข้ามเลเยอร์มีเสถียรภาพมากขึ้น ในระดับการฝึกอบรม ใช้ Muon optimizer ซึ่งอัปเดตพารามิเตอร์โดยการทำ orthogonalize เมทริกซ์เกรเดียนต์แบบวนซ้ำ เพื่อเร่งความเร็วในการลู่เข้าและเพิ่มความเสถียร ใช้ร่วมกับ AdamW: โมดูลส่วนใหญ่ใช้ Muon ส่วน embedding layer, prediction head, น้ำหนัก RMSNorm ยังคงใช้ AdamW ในระหว่างการฝึกอบรมพบปัญหา Loss Spike Loss Spike หมายถึงปรากฏการณ์ที่ฟังก์ชัน Loss เพิ่มขึ้นอย่างรวดเร็วในระยะเวลาอันสั้นระหว่างการฝึกอบรมโมเดล深度学习 โดยปกติ loss จะลดลงอย่าง平稳หรือผันผวน แต่ในขั้นตอนหนึ่ง/ไม่กี่รอบ มันจะพุ่งสูงขึ้นอย่างกะทันหันเป็นค่าที่สูงมาก สำหรับปัญหานี้ DeepSeek ได้ค้นพบวิธีการที่มีประสิทธิภาพสองวิธี วิธีแรกเรียกว่า “anticipatory routing” ในขั้นตอนการฝึกอบรมที่ t ใช้พารามิเตอร์เก่าจากขั้นตอน t-Δt เพื่อคำนวณดัชนีเส้นทาง แยกการอัปเดตของเครือข่ายหลักและเครือข่ายเส้นทางออกจากกัน ทำลายวงจรอุบาทว์ระหว่างทั้งสอง วิธีที่สองคือการตัดทอนองค์ประกอบเชิงเส้นของฟังก์ชัน激活 SwiGLU โดยจำกัดช่วงตัวเลขไว้ที่ [-10, 10] เพื่อระงับการเกิดค่าผิดปกติโดยตรง อย่างไรก็ตาม ปัจจุบันรู้แค่ว่าทั้งสองวิธีได้ผล แต่กลไกยังไม่ชัดเจนเพียงพอ DeepSeek ยอมรับในเอกสารว่าปัญหานี้รอการวิจัยในภายหลัง

นอกจากนี้ โมเดลทั้งสองได้รับการฝึกอบรมล่วงหน้าบนข้อมูลคุณภาพสูงมากกว่า 32T token องค์ประกอบของข้อมูลครอบคลุมหลายประเภท เช่น คณิตศาสตร์ โค้ด เว็บ เอกสารยาว เป็นต้น ในช่วงการฝึกอบรมระดับกลาง ยังได้เพิ่มข้อมูล agentic เพื่อเสริมความสามารถด้านโค้ด ในช่วงหลังการฝึกอบรม ใช้กระบวนทัศน์สองขั้นตอน ขั้นแรก ฝึกอบรมผู้เชี่ยวชาญเฉพาะด้านอย่างอิสระผ่าน SFT และ GRPO reinforcement learning ครอบคลุมหลายด้าน เช่น คณิตศาสตร์ โค้ด Agent การปฏิบัติตามคำสั่ง จากนั้นรวมความสามารถของแต่ละด้านเข้าเป็นโมเดลเดียวผ่าน online distillation (OPD) OPD ใช้การกลั่น logit ทั้งพจนานุกรม แทนที่จะเป็นการประมาณ KL ระดับ token การประมาณเกรเดียนต์มีความเสถียรมากกว่า การถ่ายโอนความรู้สมบูรณ์กว่า 代价คือความยากในการใช้งานด้านวิศวกรรมเพิ่มขึ้นอย่างมาก — น้ำหนักของโมเดลครูมากกว่าสิบตัวถูกจัดเก็บแบบรวมศูนย์และโหลดตามความต้องการ สถานะของ hidden layer ก็ถูกแคชไว้เป็นพิเศษเพื่อหลีกเลี่ยงหน่วยความจำระเบิด แน่นอนว่า Yuan Shen ยังคงเป็น Yuan Shen คนเดิม! ปัจจุบันน้ำหนักทั้งสี่เวอร์ชันได้ถูกปล่อยเป็นโอเพนซอร์สแล้ว สามารถดาวน์โหลดได้ที่ HuggingFace หรือ ModelScope เวอร์ชัน Base ใช้ความแม่นยำ FP8 Mixed เวอร์ชันคำสั่งใช้ความแม่นยำแบบผสม FP4 และ FP8 พารามิเตอร์ผู้เชี่ยวชาญ MoE ใช้ FP4 พารามิเตอร์อื่นๆ ใช้ FP8 การแปลง FP4 เป็น FP8 แบบ dequantization นั้นไม่มีการสูญเสีย เนื่องจาก FP8 (E4M3) มีบิต指数มากกว่า FP4 (E2M1) สองบิต ช่วงไดนามิกจึงใหญ่กว่า สามารถดูดซับข้อมูล quantization ของ FP4 ได้อย่างสมบูรณ์ การ部署ในเครื่อง แนะนำให้ตั้งค่าพารามิเตอร์การสุ่มตัวอย่างเป็น temperature=1.0, top_p=1.0 การเปิดตัวครั้งนี้ไม่ได้ให้ chat template ในรูปแบบ Jinja ทางการได้ให้สคริปต์ Python และกรณีทดสอบในโฟลเดอร์ encoding เพื่ออธิบายวิธีการเข้ารหัสข้อความในรูปแบบที่เข้ากันได้กับ OpenAI เป็นสตริงอินพุตของโมเดล และวิธีการแยกวิเคราะห์เอาต์พุตข้อความของโมเดล

ในด้านการเชื่อมต่อ API V4-Pro และ V4-Flash ได้เปิดให้บริการพร้อมกันแล้ว รองรับทั้งอินเทอร์เฟซ OpenAI ChatCompletions และอินเทอร์เฟซ Anthropic ราคาดังรูป เมื่อเรียกใช้ base_url ไม่เปลี่ยนแปลง เพียงเปลี่ยนพารามิเตอร์ model เป็น deepseek-v4-pro หรือ deepseek-v4-flash ชื่ออินเทอร์เฟซเก่า deepseek-chat และ deepseek-reasoner จะหยุดใช้งานหลังจากสามเดือน (24 กรกฎาคม 2026) ในระยะปัจจุบัน ทั้งสองชี้ไปที่โหมดไม่คิดและโหมดคิดของ V4-Flash ตามลำดับ นักพัฒนาต้องย้ายข้อมูลก่อนวันหมดอายุ ดูเหมือนว่าวันหยุดสุดสัปดาห์นี้จะยุ่งเสียแล้ว

นอกเหนือจากสถาปัตยกรรมทางเทคนิคแล้ว การเปลี่ยนแปลงที่ควรให้ความสนใจมากขึ้นใน DeepSeek V4 ครั้งนี้ก็คือ NVIDIA ไม่ใช่ตัวเลือกเดียวอีกต่อไป

นั่นหมายความว่า DeepSeek ไม่ได้ให้โอกาส NVIDIA หรือ AMD ในการปรับแต่งและเพิ่มประสิทธิภาพล่วงหน้า แต่กลับเปิดสิทธิ์การเข้าถึงล่วงหน้าให้กับผู้ผลิตชิปในประเทศโดยเฉพาะ ซึ่งหมายความว่าโมเดลในประเทศได้ก้าวสำคัญใน “การลดการพึ่งพา NVIDIA”

DeepSeek เลือกที่จะทำสิ่งนี้ในจังหวะของ V4 ซึ่งเป็นช่วงเวลาที่แม่นยำ

ประสิทธิภาพของ V4 เทียบเท่ากับโมเดลปิดชั้นนำแล้ว ถ้ามันทำงานได้เฉพาะบนชิป NVIDIA ป้าย “โมเดลโอเพนซอร์สที่แข็งแกร่งที่สุดในประเทศ” ก็จะดูขาดอะไรไปสักอย่าง ตอนนี้มันทำงานบน昇腾ได้แล้ว เรื่องเล่านี้ก็สมบูรณ์: อัลกอริทึมเป็นของเรา โค้ดเป็นโอเพนซอร์ส ชิปเป็นของประเทศ

巧合的是，黄仁勋最近就在与科技播客 Dwarkesh Patel 的访谈节目中表示，DeepSeek不是一个无足轻重的进展。

他还假设了一个情况，那就是 DeepSeek 新模型在华为平台上首发，黄仁勋表示这一天对美国来说将是一个可怕的结果，因为这意味着 AI 模型被优化为在中国 AI 硬件上表现最佳，而这些模型扩散到全球之后，就会推动中国技术成为世界标准。

DeepSeek 用万亿参数级别的模型验证了昇腾可以承载顶级大模型的推理，这对整个国产算力生态是一针强心剂。国内大厂本就在加大昇腾芯片的采购力度，V4 的成功适配让这个决策有了更充分的技术背书。寒武纪、海光信息等其他国产芯片厂商也会被倒逼着加速自己的大模型适配进度。

一个顶级开源模型的芯片选择，正在撬动一整条产业链的洗牌。

DeepSeek-V4 模型开源链接：https://huggingface.co/collections/deepseek-ai/deepseek-v4https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4DeepSeek-V4 技术报告：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง