การอนุมานโมเดลขนาดใหญ่
-
โมเดล MoE: การปฏิวัติแบบเบาบางจะก้าวข้ามคอขวดการขยายตัวของโมเดลภาษาขนาดใหญ่ได้อย่างไร?
บทนำ ในช่วงหลายปีที่ผ่านมา การขยายตัวของโมเดลภาษาแบบหนาแน่นขนาดใหญ่เป็นแรงขับเคลื่อนหลักในการพัฒนาของโมเดลภาษาขนาดใหญ่ (LLMs) ตั้งแต่โมเดลยุคแรกๆ เช่น ULMFiT (ประมาณ 30 ล้านพารามิเ…
-
NCCL EP รวบรวมระบบนิเวศการสื่อสาร MoE: ทำลายความแตกแยก เร่งยุคใหม่ของการอนุมานโมเดลขนาดใหญ่
คำสำคัญ: MoE (Mixture-of-Experts), NCCL, การสื่อสาร GPU, การสื่อสารที่ริเริ่มจากอุปกรณ์ (Device-Initiated Communication), การอนุมานโมเดลขนาดใหญ่ บนเส้นทางสู่ปัญญาประดิษฐ์ทั่วไป ขนา…
-
Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า
Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่…
-
Parallel-Probe: การปฏิวัติประสิทธิภาพการอนุมานแบบขนานในโมเดลขนาดใหญ่ ลดการสูญเสียการคำนวณลง 35.8%
เมื่อการให้เหตุผลของโมเดลขนาดใหญ่เข้าสู่ยุคแห่งการคิดแบบขนาน ปัญหาสำคัญหนึ่งก็ปรากฏขึ้น: ในกระบวนการให้เหตุผลแบบขนาน ทรัพยากรการคำนวณจำนวนมากถูกใช้ไปกับเส้นทางการคิดที่ไม่จำเป็นต้อ…
-
ปักกิ่ง-ชิงหว่าร่วมมือ DeepSeek ฝ่าขีดจำกัดการให้เหตุผลของ Agentic LLM! โครงการ DualPath โหลดแคช KV แบบสองเส้นทางเพิ่มประสิทธิภาพการประมวลผล 1.87 เท่า
คำสำคัญ: Agentic LLM, KV Cache, PD Separation, Storage I/O, Load Balancing ในช่วงไม่กี่ปีที่ผ่านมา รูปแบบการประยุกต์ใช้โมเดลภาษาขนาดใหญ่ (LLM) กำลังเปลี่ยนแปลงอย่างลึกซึ้ง LLM ในยุ…
-
ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA
ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ? ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที นี่หมายความว่า…
-
หัวเว่ยเปิดตัวโมเดลภาษาการแพร่กระจาย Agent: ประสิทธิภาพในบางสถานการณ์พุ่งสูงขึ้น 8 เท่า เปิดยุคใหม่ของเอเจนต์ AI
โมเดลใหญ่สู่ “สามกิโลเมตรสุดท้าย” ของโลกแห่งความเป็นจริง: แนวทาง Agent ก่อให้เกิดการปฏิวัติด้านประสิทธิภาพ ปัจจุบัน มาตรฐานในการวัดความสามารถของเอเจนต์ปัญญาประดิษฐ์ (Ag…
-
โมเดลภาษาที่แพร่กระจาย: การสำรวจเชิงลึกจากความท้าทายด้านสถาปัตยกรรมสู่การเพิ่มประสิทธิภาพการอนุมาน
★ ลิงก์ต้นฉบับ: https://zhuanlan.zhihu.com/p/1998418717743289472 ผู้เขียน: Wang Yunhe เมื่อครุ่นคิดถึงหัวข้อนี้ สิ่งแรกที่ฉันนึกถึงคือคำถามที่ผู้มีประสบการณ์ท่านหนึ่งเคยถามไว้เมื่อ…