โมเดล LongCat-2.0 พารามิเตอร์ล้านล้านของ Meituan เปิดตัว ฝึกฝนด้วยพลังคำนวณภายในประเทศทั้งหมด ท้าทายระบบนิเวศของ NVIDIA

1 hour ago • ข่าวสารอุตสาหกรรม AI • 6 views

ในวันเดียวกัน วงการ AI ได้เผชิญหน้ากับเหตุการณ์สำคัญสองเหตุการณ์ที่เกิดขึ้นพร้อมกัน

ด้านหนึ่ง DeepSeek ได้เปิดตัวโมเดลรุ่นใหม่ DeepSeek-V4 Series Preview อย่างเป็นทางการเมื่อวันที่ 24 เมษายน 2026 และเปิดซอร์สพร้อมกัน โมเดลดังกล่าวมีพารามิเตอร์รวมถึงระดับล้านล้าน รองรับบริบทที่ยาวเป็นพิเศษถึงหนึ่งล้านตัวอักษร

อีกด้านหนึ่ง Meituan ได้ประสบความสำเร็จอย่างเงียบๆ ด้วยการใช้คลัสเตอร์พลังประมวลผลในประเทศทั้งหมด ฝึกฝนโมเดลพารามิเตอร์ระดับล้านล้าน LongCat-2.0 Series Preview (LongCat-2.0-Preview)

ตามรายงานจากผู้ที่เกี่ยวข้อง LongCat-2.0-Preview และ DeepSeek V4 Pro ที่เปิดตัวในวันเดียวกันนั้นมีขนาดพารามิเตอร์รวมและจำนวนพารามิเตอร์ที่เปิดใช้งานอยู่ในระดับใกล้เคียงกัน และรองรับบริบท 1M เช่นกัน

แต่ประเด็นที่น่าสนใจจริงๆ ไม่ใช่ “การปรับพารามิเตอร์ให้เท่ากัน” ระหว่างสมาชิกระดับแนวหน้า แต่เป็นการแยกทางของเส้นทางเลือก นั่นคือ โมเดลพารามิเตอร์ระดับล้านล้านที่ล้ำสมัย ซึ่งในกระบวนการทั้งหมดตั้งแต่การฝึกไปจนถึงการอนุมาน “ไม่มีส่วนเกี่ยวข้องกับ NVIDIA” ถือเป็นครั้งแรกในอุตสาหกรรม แม้แต่ DeepSeek V4 ก็เลือกใช้พลังประมวลผลในประเทศสำหรับ “การอนุมานครั้งแรก” เท่านั้น ไม่ได้หมายความว่ากระบวนการทั้งหมดจะหลุดพ้นจาก NVIDIA

ในช่วงสองปีที่ผ่านมา ปัญหาที่สำคัญและน่ากังวลที่สุดในวงการโมเดลขนาดใหญ่ในประเทศ ในที่สุดก็มีคำตอบที่ชัดเจนแล้ว:

โมเดลระดับพารามิเตอร์ล้านล้าน สามารถทำงานได้อย่างเสถียรและมีประสิทธิภาพด้วยชิปในประเทศหรือไม่?

คำตอบคือ: ได้

เพียงแต่หลายคนไม่คาดคิดว่า บนเส้นทางที่ยากลำบากอย่าง “พลังประมวลผลในประเทศรองรับการพัฒนาโมเดลระดับล้านล้าน” ผู้ที่บุกทะลวงความก้าวหน้าครั้งสำคัญเป็นรายแรกกลับกลายเป็น Meituan

ในระดับหนึ่ง สิ่งนี้สอดคล้องกับคำพูดก่อนหน้านี้ของ Wang Xing: “ในปีที่ผ่านมา การรับประกันอุปทานทรัพยากร GPU ที่เพียงพอ เป็นภารกิจหลักของ Meituan” “เราจะพยายามอัปเกรดแอป Meituan ให้เป็นแอปที่ขับเคลื่อนด้วย AI ก่อน” เห็นได้ชัดว่านี่คือผลลัพธ์ของการคาดการณ์เชิงกลยุทธ์

ปัจจุบัน LongCat-2.0-Preview ยังอยู่ในช่วงทดสอบภายในแบบได้รับเชิญ โดยให้โควต้า 10 ล้านโทเค็นต่อวัน

เราอดสงสัยไม่ได้ว่าพวกเขาทำได้อย่างไร?

โมเดล LongCat-2.0 พารามิเตอร์ล้านล้านของ Meituan เปิดตัว ฝึกฝนด้วยพลังคำนวณภายในประเทศทั้งหมด ท้าทายระบบนิเวศของ NVIDIA

สืบสาวถึง Flash พบว่ามีสัญญาณบอกเหตุมานานแล้ว

ทันที เรานึกถึงโมเดล LongCat-Flash ที่เปิดซอร์สเมื่อเดือนกันยายนปีที่แล้ว

ใช้สถาปัตยกรรม MoE เช่นเดียวกัน มีพารามิเตอร์รวม 5.6 แสนล้าน พารามิเตอร์ที่เปิดใช้งานแบบไดนามิกอยู่ระหว่าง 1.86 หมื่นล้านถึง 3.13 หมื่นล้าน สร้างสมดุลที่ยอดเยี่ยมระหว่างประสิทธิภาพและประสิทธิภาพในการคำนวณ ความเร็วในการอนุมานและต้นทุนการดำเนินงานก็โดดเด่นเช่นกัน

ในเวลานั้น มีข่าวในอุตสาหกรรมว่าโมเดลดังกล่าวไม่ได้ใช้ GPU ของ NVIDIA ในขั้นตอนการฝึก แต่ใช้การ์ดเร่งความเร็วในประเทศ Meituan ไม่เคยแสดงความคิดเห็นเกี่ยวกับเรื่องนี้

แต่ตอนนี้ เมื่อ LongCat-2.0-Preview ปรากฏตัวขึ้น เรากลับมาอ่านรายงานทางเทคนิคอีกครั้ง และรายละเอียดมากมายก็เริ่มมีความหมายใหม่

การปรับแต่งทางวิศวกรรมที่ดูเหมือน “มากเกินไป” หรือ “ไม่จำเป็น” ในตอนนั้น อาจไม่ใช่แค่การอวดฝีมือ แต่เป็นอุปสรรคที่แท้จริงที่ต้องเอาชนะเมื่อฝึกโมเดลขนาดใหญ่ในสภาพแวดล้อมพลังประมวลผลในประเทศ

กล่าวอีกนัยหนึ่ง “ความหมายแฝง” ของรายงานนั้น แท้จริงแล้วคือชุดวิธีการฝึกโมเดลขนาดใหญ่ด้วยชิปในประเทศ

ตรรกะไม่ซับซ้อน

โมเดล MoE ขนาด 560B มีรอบการฝึก 30 วัน หากทำงานบนระบบนิเวศ NVIDIA + CUDA + NVLink + InfiniBand ที่สมบูรณ์แบบ การสื่อสาร โอเปอเรเตอร์ การจัดตารางเวลา และเครื่องมือรักษาเสถียรภาพก็พร้อมใช้งานแล้ว ในสภาพแวดล้อมเช่นนี้ การใช้พื้นที่จำนวนมากเพื่ออธิบายการปรับแต่งโอเปอเรเตอร์ระดับล่าง การคำนวณที่แน่นอน และชุดเครื่องมือรักษาเสถียรภาพ มักจะให้ผลตอบแทนส่วนเพิ่มไม่สูงนัก

แต่ถ้าระบบพื้นฐานไม่ใช่ NVIDIA แต่เป็นพลังประมวลผลในประเทศ ทุกอย่างก็สมเหตุสมผลทันที

สัญญาณแรกที่ละเอียดอ่อนที่สุด ซ่อนอยู่ในถ้อยคำ

เมื่ออ่านบทการฝึกในรายงานทางเทคนิคของ Flash คุณจะพบว่าตลอดทั้งบทใช้เพียงคำว่า “accelerator” และไม่พูดถึง “GPU” เลย แต่ในส่วนของการอนุมาน กลับเขียนอย่างชัดเจนว่า “H800” การแยกแยะอย่างจงใจนี้ไม่ใช่เรื่องปกติในเอกสารวิชาการ มันเหมือนกับการบอกคุณในลักษณะเกือบจะเปิดเผยภายใต้กรอบการปฏิบัติตามข้อกำหนดว่า ฮาร์ดแวร์ที่ใช้ในการฝึกไม่ใช่ของ NVIDIA

สัญญาณที่สอง คือตัวเลขหน่วยความจำ

ในส่วน 5.3 ของรายงาน Flash กล่าวว่าหลังจากการปรับให้เหมาะสมด้วยอัลกอริทึม V-ZB หน่วยความจำสูงสุดในการฝึกถูกบีบให้ต่ำกว่า 60GB นี่เป็นตัวเลขที่เฉพาะเจาะจงมาก หากเป็น H800 (หน่วยความจำ 80GB) การบีบให้เหลือ 60GB ก็ไม่จำเป็นมากนัก แต่ถ้าเป็นชิปในประเทศที่หน่วยความจำต่อการ์ดค่อนข้างจำกัด การปรับให้เหมาะสมนี้คือเส้นแบ่งระหว่างความเป็นและความตาย

ในทำนองเดียวกัน ในเอกสารของเฟรมเวิร์กการฝึกแบบอะซิงโครนัส DORA ที่เปิดซอร์สในภายหลัง ทีมงานเขียนอีกครั้งอย่างชัดเจนว่า: “our production cluster consists of midrange accelerators, especially with only around 60GB of available device memory” 60GB ตัวเลขนี้ปรากฏซ้ำแล้วซ้ำเล่า ไม่ใช่เรื่องบังเอิญ

สัญญาณที่สาม และเป็นสัญญาณที่แข็งแกร่งที่สุด คือ “การใช้งานที่แน่นอน” (Deterministic Implementation) ของโอเปอเรเตอร์

รายงานทางเทคนิคได้แยกบทเพื่ออธิบาย “Determinism” สำหรับคนภายนอก นี่อาจดูเหมือนเป็นเพียงความพิถีพิถันทางวิศวกรรม แต่ผู้ที่เกี่ยวข้องเปิดเผยว่าเบื้องหลังคือการต่อสู้ที่ยากลำบาก

เมื่อแพลตฟอร์มการฝึกเปลี่ยนจาก CUDA ที่สมบูรณ์แบบไปเป็นระบบนิเวศชิปในประเทศที่ใหม่กว่า โอเปอเรเตอร์พื้นฐานหลายตัวอาจขาดหายไปหรือมีประสิทธิภาพที่ไม่สามารถยอมรับได้ ตัวอย่างที่ชัดเจนที่สุดคือ FlashAttention Backward Gradient (FAG) ซึ่งกำหนดความเสถียรของการฝึกในบริบทที่ยาวโดยตรง

ในเวลานั้น บนชิปในประเทศมีการใช้งานแบบ “Deterministic” เพียงแบบเดียว แต่เพื่อให้ลำดับการคำนวณคงที่ มันถูกบังคับให้ลดระดับเป็นการทำงานแบบเธรดเดียวตามลำดับ ซึ่งช้ากว่าเวอร์ชัน “Non-Deterministic” ถึง 20 ถึง 70 เท่า แทบจะไม่สามารถใช้งานได้ในสภาพแวดล้อมการผลิต

ทีม LongCat ไม่ได้รอคอย พวกเขาพัฒนาโอเปอเรเตอร์ FAG แบบ Deterministic ที่มีประสิทธิภาพสูงบนชิปในประเทศด้วยตนเอง และในที่สุดก็ควบคุมการสูญเสียประสิทธิภาพไว้ที่ประมาณ 5% ซึ่งรักษาความแน่นอนไว้ได้โดยไม่เสียสละประสิทธิภาพ เท่าที่เราทราบ การใช้งานนี้เกิดขึ้นก่อนเวอร์ชัน Deterministic อย่างเป็นทางการจากผู้ผลิตชิปในประเทศ และมีประสิทธิภาพดีกว่า

การปรับโครงสร้างด้วยตนเองแบบเดียวกันนี้ยังเกิดขึ้นกับ โอเปอเรเตอร์ประเภท Scatter อีกด้วย การใช้งานแบบเธรดเดียวเดิมมีประสิทธิภาพต่ำมาก ทีมงานได้ออกแบบอัลกอริทึมแบบขนานที่แน่นอน โดยแยกย่อยงานรวมเกรเดียนต์ไปยังหน่วยประมวลผลที่มีอยู่ทั้งหมด ทำให้ประสิทธิภาพดีขึ้นหลายสิบเท่า

และสำหรับ โมดูลการคำนวณที่ใช้เวลานานอย่าง GEMM ทีมงานก็ละทิ้งการใช้งานทั่วไป และใช้กลยุทธ์ Deterministic Tiling ควบคู่กับการปรับแต่งเชิงลึก เพื่อบรรลุเป้าหมายสองประการคือ “ประสิทธิภาพสูง + ความแน่นอน”

จากการวิจัยเชิงลึกของโอเปอเรเตอร์ระดับล่างเหล่านี้เองที่ทำให้ “การฝึกเครือข่ายทั้งหมดแบบ Deterministic” เป็นไปได้อย่างแท้จริง

ผลลัพธ์ของการคำนวณในแต่ละขั้นตอนสามารถทำซ้ำได้อย่างแม่นยำ และความผิดปกติใดๆ ก็สามารถระบุตำแหน่งได้อย่างรวดเร็ว ในช่วงที่เครื่องมือของชิปในประเทศยังไม่สมบูรณ์แบบ สิ่งนี้ไม่ใช่การตกแต่งเพิ่มเติม แต่เป็นความจำเป็นในการแก้ไขปัญหา

เมื่อนำรายละเอียดเหล่านี้มารวมกัน รายงานทางเทคนิคของ Flash ก็คือบทสรุปประสบการณ์การฝึกด้วยพลังประมวลผลในประเทศโดยไม่ระบุแพลตฟอร์มฮาร์ดแวร์ และเป็นการตรวจสอบที่เสร็จสิ้นล่วงหน้า:

ขั้นแรก ใช้ 560B เพื่อทำให้สแต็กวิศวกรรมทำงานได้ ตรวจสอบสถาปัตยกรรม การสื่อสาร ความเสถียรในการฝึก และการปิดลูปของเครื่องมือ จากนั้นขยายวิธีการเดียวกันนี้ไปยัง 1.6T

สถาปัตยกรรมโมเดลมีนวัตกรรมอีกครั้ง

ดังนั้น LongCat-2.0-Preview โดยพื้นฐานแล้วสามารถมองได้ว่าเป็น “การตรวจสอบตามระยะ” ครั้งแรกหลังจากผลักดันวิธีการนี้ไปสู่ระดับพารามิเตอร์ล้านล้านอย่างสมบูรณ์ ตามแหล่งข่าวหลายรายที่ใกล้ชิดกับโครงการ รายละเอียดทางเทคนิคของเวอร์ชันนี้ดูเหมือนจะมีคุณค่ามากกว่าข้อมูลสาธารณะที่โลกภายนอกเห็นอยู่ในปัจจุบัน

LongCat-2.0-Preview ใช้สถาปัตยกรรม MoE มีพารามิเตอร์รวมประมาณ 1.6T พารามิเตอร์ที่เปิดใช้งานเฉลี่ยประมาณ 48B และรองรับบริบทที่ยาวเป็นพิเศษระดับ 1M ในสภาพแวดล้อมพลังประมวลผลในประเทศ การรองรับทั้งพารามิเตอร์ขนาดใหญ่พิเศษและบริบทระดับล้านไปพร้อมกัน ถือเป็นการทดสอบที่ครอบคลุมทั้งหน่วยความจำ การสื่อสาร และความเสถียรของระบบ

แหล่งข่าวกล่าวว่า เพื่อลดภาระของฮาร์ดแวร์ระดับล่างเพิ่มเติม และเพิ่มประสิทธิภาพการอนุมานและการฝึกโดยรวม ทีมงานได้สร้างนวัตกรรมหลักๆ ในระดับสถาปัตยกรรมหลายประการ

หนึ่งในทิศทางที่ต่อเนื่อง คือการเสริมสร้างเส้นทาง N-gram Embedding ที่ได้รับการตรวจสอบแล้วใน LongCat-Flash-Lite

โมเดล MoE แบบดั้งเดิมมักอาศัยการเพิ่มจำนวนผู้เชี่ยวชาญ FFN อย่างต่อเนื่องเพื่อเพิ่มความสามารถ แต่เมื่อขนาดผู้เชี่ยวชาญเพิ่มขึ้น ค่าใช้จ่ายในการสื่อสารข้ามโหนดก็เพิ่มขึ้นตามไปด้วย และผลตอบแทนโดยรวมก็ลดลงเรื่อยๆ

LongCat ได้ย้ายพารามิเตอร์ส่วนหนึ่งที่เดิมอยู่ในเลเยอร์ผู้เชี่ยวชาญไปยังเลเยอร์ Embedding และแนะนำความสามารถในการสร้างแบบจำลองระดับ N-gram (ระดับกลุ่มคำ) ทำให้รูปแบบภาษาที่มีความถี่สูงบางรูปแบบสามารถจับคู่ได้โดยตรง โดยไม่ต้องพึ่งพาการคำนวณทีละเลเยอร์

มีการกล่าวว่า ภายใต้การออกแบบนี้ โมเดลยังคงความจุพารามิเตอร์ 1.6T ในขณะที่ได้รับประสิทธิภาพที่เสถียรยิ่งขึ้นในการสร้างโค้ด การทำความเข้าใจคำสั่ง และงานความหมายเฉพาะทาง และต้นทุนการอนุมานก็ถูกควบคุมอย่างชัดเจน

นวัตกรรมสำคัญอีกประการหนึ่งมาจากกลไกความสนใจ (Attention Mechanism)

ความก้าวหน้าในความสามารถบริบทยาวและความท้าทายทางวิศวกรรม

ความซับซ้อนในการคำนวณ O(n²) โดยธรรมชาติของโมเดล Transformer ยังคงเป็นอุปสรรคหลักที่จำกัดความสามารถในบริบทยาว เพื่อแก้ไขปัญหานี้ LongCat-2.0-Preview ได้ผสานรวมกลไกความสนใจแบบเบาบางน้ำหนักเบาเข้ากับการออกแบบ “ดัชนีการรับรู้การไหลข้ามเลเยอร์” อย่างสร้างสรรค์ การออกแบบนี้สามารถระบุเส้นทางความหมายที่สำคัญระหว่างเลเยอร์เครือข่ายต่างๆ ได้อย่างแม่นยำ ซึ่งช่วยลดการคำนวณความสนใจแบบเต็มรูปแบบที่ซ้ำซ้อนลงอย่างมาก

มีการกล่าวว่า ชุดโซลูชันนี้ทำให้โมเดลสามารถจัดการความยาวบริบทได้สูงถึง 1M Token อย่างเสถียร ในขณะที่ควบคุมความหน่วงในการอนุมานและต้นทุนการคำนวณให้อยู่ในช่วงที่สมเหตุสมผล

คลัสเตอร์ในประเทศ 5-6 หมื่นการ์ด รองรับโมเดลพารามิเตอร์ล้านล้านได้อย่างไร?

ตามที่ Machine Heart ทราบ กระบวนการฝึกและอนุมานของ LongCat-2.0-Preview ได้ถูกย้ายไปยังแพลตฟอร์มชิปในประเทศอย่างสมบูรณ์แล้ว โดยไม่มีการใช้พลังประมวลผลของ NVIDIA เลย

แหล่งข่าวใกล้ชิดโครงการเปิดเผยว่า ขนาดของการ์ดเร่งความเร็วในประเทศที่เรียกใช้ในขั้นตอนการฝึกถึง 5 ถึง 6 หมื่นใบ ซึ่งเป็นการทำลายสถิติสูงสุดที่ทราบในปัจจุบันสำหรับการรองรับการฝึกโมเดลขนาดใหญ่พิเศษด้วยพลังประมวลผลในประเทศ

ซึ่งหมายความว่าโครงการนี้ได้เข้าสู่ขั้นตอนระบบวิศวกรรมขนาดใหญ่พิเศษทั่วไปแล้ว โดยข้อกำหนดด้านประสิทธิภาพการสื่อสาร ประสิทธิภาพโอเปอเรเตอร์ และความเสถียรของระบบนั้นสูงเกินกว่าที่คนภายนอกจะจินตนาการได้

หน่วยความจำและแบนด์วิธ: ข้อจำกัดด้านฮาร์ดแวร์อันดับแรก

เมื่อเทียบกับ GPU ระดับสูงของ NVIDIA (เช่น H100, B200) ชิปในประเทศยังคงมีช่องว่างในด้านความจุ HBM และแบนด์วิธต่อการ์ด ส่งผลให้พื้นที่หน่วยความจำที่ใช้งานได้ลดลงอย่างเห็นได้ชัด เพื่อให้ “คลังผู้เชี่ยวชาญ” ขนาด 1.6T ทำงานได้ในทางวิศวกรรม จำเป็นต้องมีการแบ่งส่วนและจัดตารางเวลาที่ละเอียดมากในระดับคลัสเตอร์

กล่าวอีกนัยหนึ่ง ทีมวิจัยและพัฒนาต้องจัดเรียงและแยกส่วนประกอบใหม่ของ Expert Parallelism (EP), Tensor Parallelism (TP) และ Pipeline Parallelism (PP) ในระดับหมื่นการ์ด เพื่อให้การฝึก部署สมบูรณ์ แหล่งข่าวใกล้ชิดการวิจัยและพัฒนากล่าวว่าทีมงานได้ปรับเปลี่ยนระดับล่างจำนวนมากเกี่ยวกับกลยุทธ์แบบขนานและการเพิ่มประสิทธิภาพหน่วยความจำ รวมถึงการออกแบบ N-gram Embedding และ Sparse Attention ที่กล่าวถึงก่อนหน้านี้ ซึ่งโดยพื้นฐานแล้ว也是为了 “สร้างพื้นที่” ให้กับหน่วยความจำและแบนด์วิธ

ระบบนิเวศซอฟต์แวร์และประสิทธิภาพโอเปอเรเตอร์: จุดยากที่ซ่อนเร้นกว่า

เมื่อเทียบกับข้อได้เปรียบของระบบนิเวศ CUDA ในด้านไลบรารีโอเปอเรเตอร์และประสิทธิภาพการจัดตารางเวลา ชิปในประเทศยังคงมีพื้นที่สำหรับการปรับให้เหมาะสมในโอเปอเรเตอร์หลักบางตัว (เช่น GEMM, การคำนวณที่เกี่ยวข้องกับ Attention) แหล่งข่าวเปิดเผยว่า เพื่อเพิ่มประสิทธิภาพการทำงาน ทีมงานไม่ได้พึ่งพาเฟรมเวิร์กทั่วไปทั้งหมด แต่ได้เขียนและปรับแต่งโอเปอเรเตอร์หลักใหม่ตามเป้าหมาย และ引入了กลไก “Deterministic Computing” เพื่อให้แน่ใจว่าสามารถทำซ้ำได้และความสามารถในการดีบักในการฝึกขนาดใหญ่

ความเสถียรของระบบ: ตัวแปรใหม่ในระดับหลายหมื่นการ์ด

เมื่อขนาดการฝึกขยายไปถึงระดับหลายหมื่นการ์ด ความเสถียรของระบบกลายเป็นตัวแปรหลักอีกตัวหนึ่ง ในระหว่างกระบวนการฝึกระยะยาว ฮาร์ดแวร์หลุด การสื่อสารกระตุก และงานขัดข้องไม่ใช่สถานการณ์ที่ผิดปกติอีกต่อไป แต่เป็นปัญหาปกติ เพื่อแก้ไขปัญหานี้ ทีมงานได้สร้างระบบทนทานต่อข้อผิดพลาดและกู้คืนเพิ่มเติม รวมถึงกลไกการรับรู้ลิงก์ การจัดตารางเวลาใหม่โดยอัตโนมัติ และการตรวจจับความผิดปกติหลายชั้น เพื่อลดผลกระทบของความล้มเหลวเฉพาะจุดต่อการฝึกโดยรวม

สุดท้าย ทีมงานได้ออกแบบเฟรมเวิร์กการฝึกและโครงสร้างโมเดลให้สอดคล้องกับคุณลักษณะของฮาร์ดแวร์ในประเทศ ซึ่งช่วยเพิ่มประสิทธิภาพการคำนวณได้อย่างมีนัยสำคัญ

โดยรวมแล้ว การทำให้โมเดล 1.6T ทำงานบนชิปในประเทศได้นั้น โดยพื้นฐานแล้วคือ “การใช้ความขยันหมั่นเพียรทางวิศวกรรมซอฟต์แวร์ เพื่อชดเชยการขาดระบบนิเวศฮาร์ดแวร์” ดังที่แหล่งข่าวกล่าวไว้ แม้ว่าชิปในประเทศจะยังมีช่องว่างในตัวชี้วัดฮาร์ดแวร์ เช่น หน่วยความจำ แต่ในตัวชี้วัดหลักที่สุดอย่างความถูกต้องของการคำนวณ ความแม่นยำของตัวเลข และความเสถียรในการฝึกระยะยาว ก็สามารถเทียบเคียงระดับสากลได้แล้ว ซึ่งเพียงพอที่จะรองรับการฝึกและอนุมานโมเดล MoE ระดับล้านล้านได้อย่างครบวงจร

พลังประมวลผลในประเทศ: จาก “ใช้งานได้” สู่ “ใช้งานดี”

ในช่วงไม่กี่ปีที่ผ่านมา มีคำถามที่เป็นจริงเกี่ยวกับชิปในประเทศอยู่เสมอ: สามารถสร้างโมเดลขนาดใหญ่ได้หรือไม่? คำตอบค่อยๆ กลายเป็น “ทำได้” แต่อุตสาหกรรมให้ความสำคัญกับคำถามถัดไปมากกว่า: สามารถรองรับงานระดับแนวหน้า ที่มีความเข้มข้นสูงที่สุด และมีระยะเวลายาวนานที่สุดได้หรือไม่?

ภายใต้ความเป็นจริงที่ว่าระบบนิเวศในประเทศยังอยู่ในช่วง “การเรียนรู้เสริม” ทีม LongCat ไม่ได้เลือกที่จะรออยู่บนฝั่งให้น้ำใส แต่เลือกที่จะ “ซ่อมเรือไปพร้อมกับข้ามแม่น้ำ” เมื่อเทียบกับ DeepSeek V4 แล้ว LongCat-2.0-Preview ไปได้ไกลกว่า ตั้งแต่การฝึกไปจนถึงการอนุมาน กระบวนการทั้งหมด实现了完全的国产化

สิ่งนี้ทำให้ความสำคัญของมัน超越แค่ “อีกหนึ่งโมเดลล้านล้าน” แต่ยังเป็นการตรวจสอบระดับอุตสาหกรรม: พลังประมวลผลในประเทศกำลังก้าวข้ามเกณฑ์สำคัญจาก “ทดแทนได้” ไปสู่ “สามารถ承担งานระดับแนวหน้าได้”

ดังที่ผู้เชี่ยวชาญในอุตสาหกรรมกล่าวไว้ การนำ DeepSeek V4 และ LongCat-2.0-Preview มา放在一起看 ระบบนิเวศโมเดลขนาดใหญ่ในประเทศแม้จะยังไม่สมบูรณ์แบบ แต่ก็ได้ก้าวไปอย่างสำคัญที่เห็นได้ชัด หลุมที่เคยเหยียบ จุดอ่อนที่ถูก补齐 และปัญหาทางวิศวกรรมที่ถูก攻克 ในที่สุดก็จะตกผลึกเป็นความสามารถสาธารณะของโครงสร้างพื้นฐาน AI ในประเทศทั้งหมด

เมื่อชิปในประเทศเริ่ม承担โมเดลขนาดใหญ่ที่ล้ำสมัยเหล่านี้ และได้รับการตรวจสอบและการรับรองจริง ไม่เพียงแต่จะ注入ความเชื่อมั่นให้กับระบบนิเวศในประเทศ แต่ยังเปิดพื้นที่สำหรับการเปลี่ยนแปลงเชิงโครงสร้างที่ลึกซึ้งยิ่งขึ้น

หาก说การผลิตในประเทศครบวงจรคือ “สร้างรถได้” การเปิดซอร์สก็คือ “สร้างถนนเสร็จ” เชิญชวนทุกคนมาวิ่งด้วยกัน ลักษณะเปิดนี้ได้หยั่งรากลึกในแผนงานของ LongCat แล้ว ครั้งนี้ LongCat-2.0 Preview ก็มีแนวโน้มสูงที่จะดำเนินตามเส้นทางเปิดนี้ต่อไป ส่วนวิธีการและเวลาที่แน่นอนในการเปิดซอร์ส เรามารอดูกัน

ปัจจุบัน LongCat-2.0-Preview ได้เปิดให้ทดสอบภายในแล้ว โดยให้โควต้า Token ฟรี 10 ล้าน Token ต่อวัน ไม่ว่าคุณจะเป็นผู้ที่ชื่นชอบเทคโนโลยีที่ต้องการลองรันโมเดลล้านล้านที่พัฒนาด้วยตนเองทั้งหมดนี้ หรือนักพัฒนาองค์กรที่ต้องการประเมินความพร้อมใช้งานของ API พลังประมวลผลในประเทศ ก็คุ้มค่าที่จะลอง

ลิงก์เข้าใช้งาน:
https://longcat.chat/platform/usage

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/32818

Like (0)

0 0

การทดสอบฟีเจอร์ภาพ DeepSeek V4 แบบค่อยเป็นค่อยไป: ความสามารถในการเข้าใจภาพจริงเปิดให้บริการแล้ว ต่อจิ๊กซอว์มัลติโมดัลให้สมบูรณ์

Previous 1 day ago

3 เครื่องมือวาดภาพ AI สุดเจ๋ง สร้างภาพเทคนิคระดับมืออาชีพด้วยคำสั่งเดียว ทุกตัวมีดาวบน GitHub เกิน 3.6K

Next 1 hour ago

ข่าวสารอุตสาหกรรม AI

ผู้ก่อตั้ง GitLab ใช้ AI และการคิดเชิงระบบสู้กับมะเร็ง: เมื่อวิศวกรเปิด ‘โหมดผู้ก่อตั้ง’ เพื่อช่วยเหลือตัวเอง

เมื่อเราพูดถึง “เรื่องราวการต่อสู้กับมะเร็ง” คำว่า “สร้างแรงบันดาลใจ” มักถูกใช้บ่อยที่สุด แต่สำหรับ Sid Sijbrandij ผู้ร่วมก่อตั้ง GitLab แล้ว คำคำนี้ยังไม่เ…

2026年3月29日
199000
ข่าวสารอุตสาหกรรม AI

สารานุกรมบริตานิกาฟ้อง OpenAI: ChatGPT ถูกกล่าวหาว่ามี “สี่ข้อกล่าวหา” สงครามลิขสิทธิ์ AI รุนแรงขึ้น

OpenAI ต้องเผชิญกับการฟ้องร้องอีกครั้ง วันที่ 16 มีนาคม บริษัท Encyclopædia Britannica และ Merriam-Webster ซึ่งเป็นบริษัทในเครือ ได้ยื่นฟ้อง OpenAI อย่างเป็นทางการ ข้อกล่าวหาหลักคื…

2026年3月22日
211000
ข่าวสารอุตสาหกรรม AI

Step-3.5-Flash แห่ง Step-Scale Stars: การอนุมานความเร็วสูง 300 tps, คำตอบใหม่สำหรับยุคเอเจนต์

ข้อสรุปหลัก: ความเร็วคือความสามารถในการแข่งขันที่สำคัญในยุคเอเจนต์ ภูมิหลังของโมเดล: หลังจากที่ StepFun (阶跃星辰) เข้าร่วมการประเมินโมเดลภาษาขนาดใหญ่ในประเทศเมื่อเดือนกรกฎาคมปีที่แล้ว…

2026年2月2日
270000
ข่าวสารอุตสาหกรรม AI

เงินเดือนสูงลิ่วของ OpenAI ถูกเปิดเผย: นักวิทยาศาสตร์วิจัยมีเงินเดือนสูงสุด 4.7 ล้านต่อปี การแข่งขันดึงดูดผู้มีความสามารถด้าน AI ในซิลิคอนวัลเลย์ร้อนระอุ

ข่าวจาก วันที่ 26 กุมภาพันธ์ ตามรายงานของสื่อต่างประเทศ Business Insider เมื่อวันที่ 24 กุมภาพันธ์ OpenAI ได้ดึงดูดพนักงานจากต่างประเทศมากกว่า 60 คน ในไตรมาสที่สี่ของปี 2025 ผ่านกล…

2026年2月26日
332000
ข่าวสารอุตสาหกรรม AI

หุ่นยนต์มนุษย์จัดงานแถลงข่าวด้วยตัวเอง โดยไม่มีมนุษย์ร่วมตลอดทั้งงาน ความเหมือนมนุษย์สูง+ความฉลาดสูง จะกลายเป็นจริงได้หรือไม่?

นี่คืองานแถลงข่าวที่ไม่เคยมีมาก่อน ในภาพถ่ายทอดสด ไทเลอร์ เจิ้ง ผู้ร่วมก่อตั้ง Kinetix AI ปรากฏตัวเป็นคนแรก แต่เขาไม่ได้พูดอะไรมากนัก ก่อนจะเปลี่ยนประเด็นอย่างรวดเร็ว: “เราเช…

2 days ago
32000

โมเดล LongCat-2.0 พารามิเตอร์ล้านล้านของ Meituan เปิดตัว ฝึกฝนด้วยพลังคำนวณภายในประเทศทั้งหมด ท้าทายระบบนิเวศของ NVIDIA

ความก้าวหน้าในความสามารถบริบทยาวและความท้าทายทางวิศวกรรม

คลัสเตอร์ในประเทศ 5-6 หมื่นการ์ด รองรับโมเดลพารามิเตอร์ล้านล้านได้อย่างไร?

หน่วยความจำและแบนด์วิธ: ข้อจำกัดด้านฮาร์ดแวร์อันดับแรก

ระบบนิเวศซอฟต์แวร์และประสิทธิภาพโอเปอเรเตอร์: จุดยากที่ซ่อนเร้นกว่า

ความเสถียรของระบบ: ตัวแปรใหม่ในระดับหลายหมื่นการ์ด

พลังประมวลผลในประเทศ: จาก “ใช้งานได้” สู่ “ใช้งานดี”

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ผู้ก่อตั้ง GitLab ใช้ AI และการคิดเชิงระบบสู้กับมะเร็ง: เมื่อวิศวกรเปิด ‘โหมดผู้ก่อตั้ง’ เพื่อช่วยเหลือตัวเอง

สารานุกรมบริตานิกาฟ้อง OpenAI: ChatGPT ถูกกล่าวหาว่ามี “สี่ข้อกล่าวหา” สงครามลิขสิทธิ์ AI รุนแรงขึ้น

Step-3.5-Flash แห่ง Step-Scale Stars: การอนุมานความเร็วสูง 300 tps, คำตอบใหม่สำหรับยุคเอเจนต์