JTok: ขยายมิติใหม่ให้โมเดลขนาดใหญ่! มหาวิทยาลัยเจียวทงเซี่ยงไฮ้เสนอพารามิเตอร์ token-indexed เพิ่มประสิทธิภาพโดยไม่ต้องใช้พลังคำนวณเพิ่ม

18 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 28 views

ความท้าทายในการขยายขนาดโมเดลใหญ่

การพัฒนาของโมเดลใหญ่เป็นเวลานานได้ปฏิบัติตามกฎเหล็ก: ตาม Scaling Law เพิ่มพารามิเตอร์และข้อมูล ประสิทธิภาพของโมเดลจะเพิ่มขึ้นอย่างต่อเนื่องตามกฎกำลังลบ อย่างไรก็ตาม เส้นทางนี้กำลังมีราคาแพงขึ้นเรื่อยๆ เพราะวิธีการขยายขนาดแบบดั้งเดิมไม่สามารถหลุดพ้นจากข้อจำกัดพื้นฐานได้ นั่นคือ การเชื่อมโยงอย่างลึกซึ้งระหว่างขนาดพารามิเตอร์และปริมาณการคำนวณ

ในโมเดลหนาแน่นแบบดั้งเดิม ตรรกะการขยายขนาดนั้นตรงไปตรงมา: ขยายความกว้างของเครือข่ายหรือเพิ่มความลึกของชั้น ข้อเสียที่ตามมาคือ: เมื่อขนาดพารามิเตอร์เพิ่มขึ้นอย่างรวดเร็ว ปริมาณการคำนวณและความต้องการหน่วยความจำแสดงผลก็จะเพิ่มขึ้นเป็นเส้นตรงเช่นกัน ในปัจจุบันที่ข้อมูลข้อความคุณภาพสูงกำลังใกล้หมด การเพิ่มพารามิเตอร์หนาแน่นเพียงอย่างเดียวไม่เพียงแต่ผลตอบแทนส่วนเพิ่มจะลดลงอย่างรวดเร็ว แต่ยังอาจนำไปสู่สถานการณ์ที่น่าอึดอัดที่ประสิทธิภาพถดถอยได้ เส้นทาง Scaling แบบดั้งเดิมดูเหมือนจะใกล้ถึงจุดอิ่มตัวแล้ว

ข้อจำกัดของ MoE

เพื่อแยกพารามิเตอร์ออกจากปริมาณการคำนวณ โมเดลผู้เชี่ยวชาญแบบผสม (MoE) เคยถูกคาดหวังไว้สูง โดยผ่านเครือข่ายย่อยของผู้เชี่ยวชาญที่เปิดใช้งานแบบเบาบาง ทำให้สามารถแยกความจุของโมเดลออกจากปริมาณการคำนวณได้ในระดับหนึ่ง อย่างไรก็ตาม การวิจัยล่าสุดแสดงให้เห็นว่านี่ไม่ใช่ “อาหารฟรี” ที่ไม่มีค่าใช้จ่าย: โมเดลแบบเบาบางมักมีประสิทธิภาพการใช้ตัวอย่างต่ำ เมื่อความเบาบางเพิ่มขึ้น การปรับสมดุลโหลดของเส้นทางก็ทำได้ยากขึ้น และค่าใช้จ่ายหน่วยความจำแสดงผลที่มหาศาลและแรงกดดันด้านการสื่อสารทำให้ปริมาณงานการอนุมานมักจะต่ำกว่าโมเดลหนาแน่นที่มีพารามิเตอร์ที่เปิดใช้งานเท่ากันอย่างมาก

แล้วโมเดลภาษาขนาดใหญ่มีทิศทางการขยายขนาดใหม่ที่สามารถนำเราออกจากภาวะลำบากนี้ได้หรือไม่?

มิติใหม่: พารามิเตอร์ที่จัดทำดัชนีด้วยโทเค็น (Token-Indexed Parameters)

เมื่อไม่นานมานี้ ทีมวิจัยร่วมจากมหาวิทยาลัย Shanghai Jiao Tong และ Hi Lab ของ Xiaohongshu ได้เสนอมิติการขยายขนาดใหม่: Token-Indexed Parameters วิธีนี้ไม่พึ่งพาการขยายพารามิเตอร์หลัก และไม่ใช้เส้นทางการคำนวณแบบเบาบาง แต่เพิ่มความจุของโมเดลโดยการแนะนำเวกเตอร์ปรับให้กับแต่ละโทเค็น ในรูปแบบ “ค้นหาตาราง + ปรับแต่งแบบองค์ประกอบต่อองค์ประกอบ”

โมดูล JTok / JTok-M ที่ทีมวิจัยเสนอ สามารถติดตั้งเป็นปลั๊กอินในแต่ละชั้นของ Transformer เพื่อสร้างเส้นทางการปรับแบบคงที่ (JTok) หรือแบบไดนามิกที่รับรู้บริบท (JTok-M) สร้างสะพานเชื่อมปฏิสัมพันธ์ระหว่างโทเค็นและเส้นทางหลัก ที่สำคัญกว่านั้นคือ กลไกนี้ แทบไม่เพิ่มค่าใช้จ่ายด้านพลังการคำนวณและหน่วยความจำแสดงผล แต่สามารถนำมาซึ่งการปรับปรุงประสิทธิภาพที่เห็นได้ชัดและมีเสถียรภาพ

ประสิทธิภาพเพิ่มขึ้นอย่างเห็นได้ชัด: ในช่วงขนาดโมเดลตั้งแต่ 650M ถึง 61B JTok-M ลดค่าการสูญเสียลงอย่างมีนัยสำคัญ และเพิ่มคะแนนในงานปลายทางหลายงานอย่างมาก: MMLU +4.1, ARC +8.3, CEval +8.9 เมื่อถึงประสิทธิภาพเดียวกัน JTok-M สามารถประหยัดความต้องการพลังการคำนวณได้ประมาณหนึ่งในสาม
กฎการขยายขนาดชัดเจน: ผลการขยายขนาดแสดงให้เห็นกฎกำลังที่ชัดเจนและคาดการณ์ได้ สามารถขยายขนาดและวัดผลตอบแทนได้อย่างอิสระ สอดคล้องกับองค์ประกอบสำหรับการสร้าง Scaling Law รุ่นใหม่ของ LLM อย่างสมบูรณ์

นวัตกรรมนี้สร้าง เส้นทางการขยายขนาดเส้นทางที่สาม นอกเหนือจากโมเดลหนาแน่นและ MoE เปิดทิศทางใหม่สำหรับการพัฒนาโมเดลใหญ่ในอนาคต:

ไม่จำเป็นต้องเพิ่มพลังการคำนวณ ไม่ต้องพึ่งพาข้อมูลมากขึ้น เพียงผ่านการออกแบบโครงสร้างและการปรับแต่งโดยค้นหาตาราง ก็สามารถขยายความจุของโมเดลได้อย่างต่อเนื่อง ปรับปรุงประสิทธิภาพการทำงานใหม่ระหว่างประสิทธิภาพและการคำนวณ

JTok: ขยายมิติใหม่ให้โมเดลขนาดใหญ่! มหาวิทยาลัยเจียวทงเซี่ยงไฮ้เสนอพารามิเตอร์ token-indexed เพิ่มประสิทธิภาพโดยไม่ต้องใช้พลังคำนวณเพิ่ม

ชื่อบทความ: JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation
ลิงก์บทความ: https://www.arxiv.org/abs/2602.00800

การปรับปรุงแบบปลั๊กอินน้ำหนักเบา: ความจุพุ่งสูงขึ้น ปริมาณการคำนวณแทบไม่เปลี่ยนแปลง

แนวคิดหลักของวิธีนี้คือการใช้ ID โทเค็นเพื่อค้นหาเวกเตอร์ปรับจากตารางโดยตรง จากนั้นฉีดเข้าไปในเครือข่ายหลักผ่านการดำเนินการคูณและบวกแบบองค์ประกอบต่อองค์ประกอบ เพื่อเพิ่มความจุของโมเดล ในขณะที่ปริมาณการดำเนินการทศนิยม (FLOPs) ยังคงเกือบไม่เปลี่ยนแปลง

JTok: การปรับแต่งแบบคงที่

ต่างจากวิธีการขยายขนาดแบบดั้งเดิม JTok ไม่ได้เพิ่มความจุโดยการทำให้โครงสร้างเครือข่ายลึกหรือกว้างขึ้น แต่เป็นการแนะนำเวกเตอร์ปรับเฉพาะสำหรับแต่ละโทเค็น ในแต่ละชั้นของ Transformer เวกเตอร์ปรับนี้จะปรับแต่งผลลัพธ์ตกค้างของ MLP ผ่านการคูณแบบองค์ประกอบต่อองค์ประกอบ เพื่อฉีดความจุแบบไม่รุกล้ำ

กล่าวโดยเฉพาะ: เวกเตอร์ปรับทั้งหมดถูกเก็บไว้ในตารางฝังตัว แต่ละโทเค็นในแต่ละชั้นจะได้รับเวกเตอร์ปรับที่สอดคล้องกันโดยการค้นหาจาก ID ของมัน เวกเตอร์นี้หลังจากทำให้เป็นมาตรฐานแล้ว จะถูกคูณแบบองค์ประกอบต่อองค์ประกอบกับผลลัพธ์ตกค้างของ MLP ในชั้นปัจจุบัน แล้วเขียนกลับไปยังเส้นทางตกค้าง

กระบวนการทั้งหมด ไม่จำเป็นต้องแก้ไขโครงสร้างเครือข่ายหลัก การฉีดพารามิเตอร์ที่มีประสิทธิภาพสามารถทำได้เพียงผ่านปลั๊กอินน้ำหนักเบาที่ติดตั้งเพิ่มเติม ที่สำคัญกว่านั้นคือ มันจะไม่เพิ่ม FLOPs อย่างมีนัยสำคัญ และไม่สร้างคอขวดการสื่อสารเพิ่มเติม มีผลกระทบต่อปริมาณงานการฝึก/การอนุมานเดิมของโมเดลน้อยมาก

JTok-M: การปรับแต่งแบบไดนามิก

แม้ว่า JTok จะมีประสิทธิภาพ แต่มีข้อจำกัดสองประการ: หนึ่งคือการขยายขนาดพารามิเตอร์ไม่ยืดหยุ่นพอ สองคือโทเค็นเดียวกันในบริบทที่ต่างกันมีความหมายที่แตกต่างกันมาก การใช้เวกเตอร์ปรับแบบคงที่เดียวกันตลอดเวลาอาจไม่สามารถปรับให้เข้ากับสถานการณ์จริงได้อย่างเต็มที่

JTok-M ได้แนะนำกลไกหลักสองประการเพื่อ突破ข้อจำกัดเหล่านี้:

พูลเวกเตอร์ปรับ: แต่ละโทเค็นไม่ใช่มีเพียงเวกเตอร์เดียวอีกต่อไป แต่มีกลุ่มเวกเตอร์ผู้สมัคร ซึ่งประกอบเป็นพื้นที่ย่อยเชิงความหมาย
เราเตอร์บริบท: ตามสถานะแฝงบริบทปัจจุบันของโทเค็น จะเลือกผู้สมัคร Top-K อย่างไดนามิกและทำการผสานแบบถ่วงน้ำหนัก เพื่อสร้างเวกเตอร์ปรับสุดท้ายที่รับรู้บริบท

กลไกนี้บรรลุข้อได้เปรียบสามประการพร้อมกัน: ความไวเชิงความหมาย การเปิดใช้งานแบบเบาบาง และการขยายแบบปลั๊กอิน ทำให้โมเดลได้รับความสามารถในการรับรู้บริบทที่ทรงพลังในขณะที่แทบไม่เพิ่มปริมาณการคำนวณหลัก เพื่อให้แน่ใจว่าเวกเตอร์ผู้สมัครทั้งหมดมีส่วนร่วมในการฝึก JTok-M ยังแนะนำการสูญเสียการปรับสมดุลโหลดเส้นทางคล้ายกับ MoE เพื่อรักษาการใช้พื้นที่ปรับแต่งที่มีประสิทธิภาพและมีเสถียรภาพ

การนำไปใช้จริง: ประหยัดพลังการคำนวณหนึ่งในสาม

แม้ว่า JTok/JTok-M จะแนะนำพารามิเตอร์ใหม่จำนวนมาก แต่การออกแบบระบบใช้กระบวนทัศน์ “ปลั๊กอินแบบค้นหาตาราง + การจัดกำหนดการแบบอะซิงโครนัสแบบบายพาส” ซึ่งแยกและซ่อนแรงกดดันด้านการคำนวณและการเข้าถึงหน่วยความจำได้อย่างมีประสิทธิภาพ:

การดำเนินการค้นหาตารางสามารถทับซ้อนกับ การคำนวณหลักแบบอะซิงโครนัสได้ ค่าใช้จ่ายในการเข้าถึงหน่วยความจำถูกซ่อนโดยการจัดกำหนดการ
ใช้คุณลักษณะการกระจายแบบหางยาวของความถี่โทเค็น การร้องขอค้นหาตารางหลายครั้งสำหรับโทเค็นเดียวกันสามารถรวมการเข้าถึงได้ ลดแรงกดดันหน่วยความจำอย่างมาก
ขั้นตอนการฝึกสนับสนุนการฝังตัวแบบขนาน ขั้นตอนการอนุมานสนับสนุน CPU Offload ส่งเฉพาะส่วนของเวกเตอร์ที่ต้องการเท่านั้น

ด้วยการสนับสนุนของการปรับปรุงต่างๆ แม้ว่าจะขยาย JTok-M ไปสู่ความจุที่เห็นได้ชัดเจน การสูญเสียปริมาณงานการฝึกก็สามารถควบคุมได้ภายใน 7%; การสูญเสียปริมาณงานในขั้นตอนการอนุมานต่ำกว่า 7.3% และด้าน GPU เกือบไม่ต้องการการใช้หน่วยความจำแสดงผลเพิ่มเติม ทำให้ได้ทั้งการปรับปรุงประสิทธิภาพและความเป็นไปได้ในการนำไปใช้จริง

นิยาม Scaling Law ใหม่

Scaling Law เป็นแนวทางหลักสำหรับการเข้าใจการพัฒนาโมเดลใหญ่: ประสิทธิภาพของโมเดลมักมีความสัมพันธ์แบบกฎกำลังกับขนาดพารามิเตอร์ ปริมาณข้อมูล และปริมาณการคำนวณ — เพื่อเพิ่มประสิทธิภาพ ต้องเพิ่มทรัพยากรการคำนวณพร้อมกัน

การปรากฏตัวของ JTok-M ทำลายตรรกะการผูกมัดระหว่างประสิทธิภาพและพลังการคำนวณนี้ บรรลุการขยายแนวนอนครั้งหนึ่งต่อ Scaling Law แบบดั้งเดิม ในบทความ เพื่อวัดศักยภาพการขยายขนาดของ JTok-M ผู้เขียนตอบคำถามสำคัญสองข้อต่อไปนี้เป็นหลัก:

เมื่อขนาดโมเดลหลักขยายใหญ่ขึ้น ผลประโยชน์ที่ JTok-M นำมาสามารถรักษาเสถียรภาพได้หรือไม่?
เมื่อขยายขนาดพารามิเตอร์ของ JTok-M เอง มันแสดงพฤติกรรมการ Scaling แบบใด?

ข้อสรุปน่าตื่นเต้น

ข้อสรุปที่หนึ่ง: ปรับให้เข้ากับโมเดลหลักขนาดใหญ่ ผลประโยชน์มีเสถียรภาพ ประหยัดพลังการคำนวณ 35%

คำถามหลักข้อแรกเกี่ยวข้องกับว่า JTok-M สามารถนำไปใช้กับโมเดลใหญ่ที่แท้จริงได้หรือไม่: เมื่อโมเดลหลักขยายจากหลายสิบล้านพารามิเตอร์ไปสู่หลายร้อยล้านล้านขนาด การปรับปรุงประสิทธิภาพจะล้มเหลวหรือไม่?

ผู้เขียนไม่ได้พึ่งพาการทดลองเพียงอย่างเดียว แต่อธิบายจากระดับทฤษฎีก่อน: รวมพารามิเตอร์ Token-Indexed เข้ากับกรอบ Scaling Law คลาสสิก และเสนอสมมติฐานสำคัญของ “พารามิเตอร์ที่มีประสิทธิผล”

ประสิทธิภาพของโมเดลดั้งเดิมถูกกำหนดโดยปริมาณพารามิเตอร์ที่เปิดใช้งานหลัก (N_c) และปริมาณข้อมูลการฝึก ในขณะที่พารามิเตอร์ใหม่ที่ JTok-M เพิ่ม (N_n) จะสร้างอัตราส่วนการขยาย η = N_n / N_c กับพารามิเตอร์หลัก เมื่อพิจารณาถึงลักษณะความเบาบางของ JTok-M เอง (ความเบาบางของตารางฝังตัวและความเบาบางของการเปิดใช้งาน Top-K) พารามิเตอร์ใหม่เหล่านี้จะมีปัจจัยส่วนลดที่มีประสิทธิผล γ ในที่สุดรวมกันเป็นปริมาณพารามิเตอร์ที่มีประสิทธิผล N_eff

หลังจากแทนที่พารามิเตอร์ที่มีประสิทธิผลลงในสูตรกฎการขยายขนาดเดิม กฎที่ชัดเจนก็ปรากฏขึ้น: JTok-M ไม่ได้เปลี่ยนความสัมพันธ์พื้นฐานของโมเดลที่มีต่อพลังการคำนวณและข้อมูล แต่ทำให้เส้นโค้งแนวหน้า Pareto ประสิทธิภาพ-พลังการคำนวณ ทั้งหมดเลื่อนลงเป็นระยะทางหนึ่ง ซึ่งหมายความว่า ไม่ว่าขนาดโมเดลจะใหญ่แค่ไหน เพื่อให้ถึงระดับประสิทธิภาพเดียวกัน JTok-M ต้องการพลังการคำนวณในการฝึกน้อยลงอย่างมีนัยสำคัญ และผลประโยชน์นี้มีเสถียรภาพและไม่เกี่ยวข้องกับขนาดโมเดลหลัก

การทดลองที่เข้มงวดในภายหลังยืนยันการคาดการณ์นี้อย่างสมบูรณ์: ภายใต้พิกัดลอการิทึม เส้นโค้งแนวหน้า ประสิทธิภาพ-พลังการคำนวณ ของ JTok-M แทบจะขนานกับเส้นฐานของโมเดลดั้งเดิม เพียงเลื่อนลงทั้งหมดเป็นช่วงคงที่ การคำนวณแสดงให้เห็นว่า เพื่อให้ได้ประสิทธิภาพเท่ากับโมเดล MoE ดั้งเดิม JTok-M สามารถประหยัดพลังการคำนวณในการฝึกได้ 35% โดยตรง อัตราส่วนการประหยัดนี้ยังคงมีเสถียรภาพภายใต้ขนาดโมเดลและงบประมาณการฝึกที่แตกต่างกัน ยืนยัน ความไม่แปรเปลี่ยนตามขนาด ในทางทฤษฎี สำหรับองค์กรแล้ว สิ่งนี้แปลเป็นการลดต้นทุนและเพิ่มประสิทธิภาพโดยตรง: ด้วยงบประมาณเท่ากันสามารถฝึกโมเดลที่แข็งแกร่งขึ้นได้ หรือบรรลุผลลัพธ์เป้าหมายด้วยต้นทุนที่ต่ำกว่า

ข้อสรุปที่สอง: พารามิเตอร์ของตัวเองปฏิบัติตามกฎกำลังการขยายขนาด ผลประโยชน์จากการเพิ่มความจุชัดเจน

คำถามหลักข้อที่สองคือ: หลังจากขยายพารามิเตอร์ของ JTok-M เองแล้ว การปรับปรุงประสิทธิภาพจะอิ่มตัวเร็วหรือไม่? มันสามารถเป็นมิติการขยายขนาดอิสระได้หรือไม่?

นักวิจัยได้ทำการทดลองควบคุมตัวแปรที่แม่นยำชุดหนึ่ง: แก้ไขโครงสร้างโมเดลหลักและปริมาณข้อมูลการฝึก เพียงปรับอัตราการขยายพารามิเตอร์ η เพื่อเพิ่มความจุของ JTok-M ผลลัพธ์แสดงให้เห็นถึงกฎเกณฑ์

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23769

กฎการปรับขนาด การปรับแต่งโทเค็น มหาวิทยาลัยเจียวทงเซี่ยงไฮ้เจโทค โมเดลภาษาขนาดใหญ่ขยาย

Like (0)

0 0

สัญญาณ WiFi สามารถ “มองเห็น” ท่าทางของมนุษย์ได้? โครงการโอเพ่นซอร์ส wifi-densepose ได้รับดาวกว่า 2,000 ดาวในหนึ่งวัน แต่ผลลัพธ์จริงกับที่โฆษณามีความแตกต่าง

Previous 18 hours ago

ไบต์แดนซ์และมหาวิทยาลัยชิงหว่าร่วมกันสร้าง CUDA Agent: AI เขียนโค้ดไม่เพียงแต่ถูกต้อง แต่ยังเร็วกว่าผู้เชี่ยวชาญมนุษย์ถึง 40%

Next 18 hours ago

วิศวกรรมโมเดลขนาดใหญ่

Ali Qwen3.5-Plus ทดสอบจริง: โมเดล 397 พันล้านพารามิเตอร์ประสิทธิภาพพุ่งสูงขึ้น, ต้นทุนลดลง 47%

อาลีบาบาออกแบบ Qwen3.5 ซีรีส์อย่างเป็นทางการ และเปิดตัวโมเดลแรกของซีรีส์นี้ นั่นคือเวอร์ชันน้ำหนักเปิด (open-weight) ของ Qwen3.5-397B-A17B ในฐานะโมเดลภาษาภาพดั้งเดิม (Native Vision…

2026年2月21日
88000
วิศวกรรมโมเดลขนาดใหญ่

การปฏิวัติเวิร์กโฟลว์ของ AI Agent: 3 สิ่งประดิษฐ์โอเพนซอร์สที่ช่วยให้ผู้ใช้ที่ไม่ใช่เทคโนโลยีสามารถควบคุมระบบอัตโนมัติอัจฉริยะได้อย่างง่ายดาย

ทำให้ผู้ที่ไม่รู้โค้ดก็สามารถใช้งานเวิร์กโฟลว์ AI ได้อย่างคล่องแคล่ว เครื่องมืออัตโนมัติเวิร์กโฟลว์อย่าง n8n แม้จะทรงพลัง แต่สำหรับผู้ใช้ที่ไม่ใช่สายเทคนิคแล้ว ค่าใช้จ่ายในการเรียน…

6 days ago
62000
วิศวกรรมโมเดลขนาดใหญ่

ไบต์แดนซ์และมหาวิทยาลัยชิงหว่าร่วมกันสร้าง CUDA Agent: AI เขียนโค้ดไม่เพียงแต่ถูกต้อง แต่ยังเร็วกว่าผู้เชี่ยวชาญมนุษย์ถึง 40%

เมื่อเร็วๆ นี้ ทีม Seed ของ ByteDance และนักวิจัยจาก AIR แห่งมหาวิทยาลัย Tsinghua ได้ร่วมกันเผยแพร่งานวิจัยใหม่ชื่อ CUDA Agent ซึ่งได้รับความสนใจอย่างกว้างขวางในวงการสร้างโค้ด AI ง…

18 hours ago
22000
วิศวกรรมโมเดลขนาดใหญ่

หัวเว่ย CLI-Gym: เปิดครั้งแรกเทอร์มินัล Bench ปฏิสัมพันธ์สิ่งแวดล้อมภารกิจขนาดข้อมูลโซลูชั่นที่เพิ่มขึ้น 20%

「เปิดตัวไปแล้ว! แนวทางการผลิตข้อมูลขนาดใหญ่สำหรับงานเชิงโต้ตอบกับ Terminal-Bench เป็นครั้งแรกที่เผยแพร่สู่สาธารณะ」 เผยแพร่โอเพ่นซอร์สอัลกอริธึมการสร้างข้อมูลอัตโนมัติแบบสมบูรณ์ สร้…

6 days ago
87000
วิศวกรรมโมเดลขนาดใหญ่

Cog-RAG: ทำให้ RAG คิดก่อนการค้นหา โดยใช้โครงสร้างไฮเปอร์กราฟคู่เพื่อจำลองกระบวนการรับรู้ของมนุษย์

Retrieval-Augmented Generation (RAG) ได้กลายเป็นวิธีมาตรฐานในการช่วยให้โมเดลภาษาขนาดใหญ่ (LLMs) ยังคง “มีหลักฐาน” อยู่ กระบวนการพื้นฐานเป็นที่รู้จักกันดี: แบ่งเอกสารออก…

2026年2月23日
78000

ข้อสรุปที่สอง: พารามิเตอร์ของตัวเองปฏิบัติตามกฎกำลังการขยายขนาด ผลประโยชน์จากการเพิ่มความจุชัดเจน

相关推荐

Ali Qwen3.5-Plus ทดสอบจริง: โมเดล 397 พันล้านพารามิเตอร์ประสิทธิภาพพุ่งสูงขึ้น, ต้นทุนลดลง 47%

หัวเว่ย CLI-Gym: เปิดครั้งแรกเทอร์มินัล Bench ปฏิสัมพันธ์สิ่งแวดล้อมภารกิจขนาดข้อมูลโซลูชั่นที่เพิ่มขึ้น 20%

Cog-RAG: ทำให้ RAG คิดก่อนการค้นหา โดยใช้โครงสร้างไฮเปอร์กราฟคู่เพื่อจำลองกระบวนการรับรู้ของมนุษย์