แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ

7 hours ago • การอนุมานโมเดลขนาดใหญ่ • 9 views

คำสำคัญ: เครื่องเร่งความเร็ว FPGA, โมเดลผู้เชี่ยวชาญแบบผสม (MoE), การปรับใช้ที่ขอบ, การอนุมานต้นทุนต่ำ, การเพิ่มประสิทธิภาพ GEMV

ด้วยต้นทุนวัสดุ 150 ดอลลาร์และความเร็วในการถอดรหัส 18 โทเค็น/วินาที FPGA ได้ทำการค้นพบที่สำคัญในด้านการปรับใช้โมเดลภาษาขนาดใหญ่ที่ขอบเครือข่าย

ในสาขาการเร่งความเร็วฮาร์ดแวร์สำหรับการเรียนรู้เชิงลึก FPGA มีตำแหน่งที่พิเศษเสมอมา มันไม่มีทั้งความหนาแน่นของพลังการคำนวณสูงสุดแบบที่ GPU มีในการครอบครองตลาดการฝึกฝน และก็ยากที่จะมีประสิทธิภาพพลังงานสูงสุดในสถานการณ์เฉพาะแบบที่ ASIC ทำได้ เป็นเวลานาน FPGA ส่วนใหญ่ทำงานในด้านการตรวจสอบต้นแบบสถาปัตยกรรม การตรวจสอบก่อนการผลิตชิป และสถานการณ์การปรับใช้ขั้นสุดท้ายบางส่วนที่ต้องการความยืดหยุ่นและประสิทธิภาพพลังงานเป็นพิเศษ

แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ
ตาราง: การเปรียบเทียบกับเครื่องเร่งความเร็ว FPGA สำหรับโมเดลภาษาขนาดใหญ่ที่มีอยู่ การศึกษานี้ปรับใช้โมเดล MoE ขนาด 30B ที่ใหญ่ที่สุดบน FPGA ระดับเริ่มต้น พร้อมทั้งสนับสนุนการเร่งความเร็วการเติมข้อมูลล่วงหน้าและการถอดรหัส โดยมีประสิทธิภาพการถอดรหัสอยู่ในอันดับต้นๆ ของเครื่องเร่งความเร็ว FPGA แบบฝังตัว

อย่างไรก็ตาม การเกิดขึ้นของโมเดลภาษาขนาดใหญ่กำลังเปลี่ยนสถานการณ์นี้ การอนุมาน LLM แสดงให้เห็นถึงลักษณะที่ถูกจำกัดโดยหน่วยความจำอย่างชัดเจน – จุดคอขวดของประสิทธิภาพแบบ end-to-end มักมาจากแบนด์วิธของหน่วยความจำ ไม่ใช่ปริมาณงานการคำนวณ ซึ่งทำให้ FPGA ที่ไม่มีข้อได้เปรียบในด้านพลังการคำนวณ สามารถยืนอยู่บนเส้นสตาร์ทที่ใกล้เคียงกับ GPU และ NPU ในสนามการแข่งขันการอนุมานได้

แต่ความท้าทายยังคงรุนแรง: การวิจัยเกี่ยวกับเครื่องเร่งความเร็ว LLM บน FPGA ที่มีอยู่ส่วนใหญ่ใช้แพลตฟอร์ม FPGA ระดับสูงราคาแพง (เช่น Alveo U280, VCU128 เป็นต้น) อุปกรณ์เหล่านี้ที่มีราคาหลายพันดอลลาร์ไม่สมจริงสำหรับผลิตภัณฑ์ขอบเครือข่ายที่อ่อนไหวต่อต้นทุนอย่างมาก ดังนั้น การจะทำให้ได้ประสิทธิภาพการอนุมาน LLM ที่ใช้งานได้บน FPGA แบบฝังตัวต้นทุนต่ำ จึงกลายเป็นปัญหาหลักที่ต้องแก้ไขอย่างเร่งด่วน

ในบริบทนี้เอง ทีมวิจัยจากสถาบันอัตโนมัติศาสตร์ สภาวิทยาศาสตร์จีน ได้เสนอแผนงาน Hummingbird+ เป็นครั้งแรกที่พิสูจน์ความเป็นไปได้ของการใช้ FPGA ต้นทุนต่ำเป็นฮาร์ดแวร์สำหรับการปรับใช้ LLM ขั้นสุดท้าย

ทีมงานได้ออกแบบแพลตฟอร์ม PCB แบบกำหนดเองโดยใช้ Xilinx Zynq UltraScale XCZU2CG/3EG SoC พร้อมหน่วยความจำ 24GB โดยต้นทุนวัสดุเมื่อผลิตจำนวนมากคาดว่าจะควบคุมได้ภายใน 150 ดอลลาร์

วิดีโอสาธิตการทดสอบจริงของแผนงาน Hummingbird+

บนแพลตฟอร์มนี้ พวกเขาประสบความสำเร็จในการปรับใช้โมเดลผู้เชี่ยวชาญแบบผสม Qwen3-30B-A3B ที่ผ่านการควอนไทซ์ 4-bit ด้วย GPTQ บรรลุความเร็วในการถอดรหัสมากกว่า 18 โทเค็น/วินาที และความเร็วในการเติมข้อมูลล่วงหน้า 50 โทเค็น/วินาที

แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ
รูป: แผนภาพสถาปัตยกรรมโซลูชันแบบ end-to-end ของ Hummingbird+ สำหรับการปรับใช้โมเดลภาษาขนาดใหญ่แบบ MoE สถาปัตยกรรมนี้ใช้ PCB แบบกำหนดเองและ SoC ระดับเริ่มต้นเป็นพื้นฐาน ผสานรวมหน่วยความจำความจุสูง และผ่านการออกแบบเครื่องเร่งความเร็วที่เพิ่มประสิทธิภาพอย่างลึกซึ้ง เป็นครั้งแรกที่ทำให้การปรับใช้โมเดล MoE ขนาดกลางถึงใหญ่ในทางวิศวกรรมสำเร็จบน FPGA

ประเด็นสำคัญ

ประเด็นที่หนึ่ง: ภายใต้ความผันผวนของต้นทุนหน่วยความจำ โมเดล MoE ขนาด 30B ยังคงมีข้อได้เปรียบด้านต้นทุนเมื่อเทียบกับโมเดลหนาแน่นขนาดเล็กหรือไม่?

Hummingbird+ ผ่านการเพิ่มประสิทธิภาพสถาปัตยกรรมขั้นสูงสุด เป็นครั้งแรกที่ปรับใช้โมเดล MoE ขนาด 30B บนแพลตฟอร์ม FPGA ระดับ 150 ดอลลาร์ ถือเป็นความก้าวหน้าทางวิศวกรรมที่โดดเด่น อย่างไรก็ตาม ข้อได้เปรียบด้านต้นทุนนี้ขึ้นอยู่กับราคาหน่วยความจำที่ใช้ในการประมาณการอย่างมาก ด้วยราคาตลาดหน่วยความจำที่เพิ่มขึ้นในปี 2024 ต้นทุนของชิป DDR4 สูงขึ้นอย่างมาก ทำให้แรงกดดันของต้นทุนหน่วยความจำซึ่งคิดเป็นเกือบครึ่งหนึ่งของ BOM เพิ่มขึ้นอย่างรุนแรง ในบริบทนี้ แผนงาน MoE ที่ต้องใช้ DRAM ความหนาแน่นสูงเพื่อรองรับพารามิเตอร์โมเดล 15GB ข้อได้เปรียบด้านต้นทุนโดยรวมได้ถูกบั่นทอนลงแล้วหรือไม่? เมื่อเทียบกับแผนงานโมเดลหนาแน่นขนาด 4B/8B ที่ต้องการหน่วยความจำเพียง 4-8GB และมีความทนทานต่อการขึ้นราคาสูงกว่า Hummingbird+ ในการนำไปใช้ในอุตสาหกรรมจะเสียเปรียบเนื่องจากความพึ่งพาหน่วยความจำที่สูงกว่าหรือไม่?

Hummingbird+ บรรลุการปรับใช้โมเดล MoE ขนาด 30B บนแพลตฟอร์ม FPGA ที่มี BOM 150 ดอลลาร์ การเพิ่มประสิทธิภาพทรัพยากรขั้นสูงสุดและการออกแบบระบบที่สมบูรณ์ถือเป็นความก้าวหน้าที่สำคัญ อย่างไรก็ตาม ตามที่งานวิจัยระบุ ต้นทุนหน่วยความจำคิดเป็นประมาณครึ่งหนึ่งของ BOM (ประมาณ 75 ดอลลาร์) ต้นทุนของทั้งระบบอ่อนไหวต่อราคา DRAM สูง หากราคาหน่วยความจำยังคงเพิ่มขึ้น (เช่น เพิ่มเป็นสองเท่า) ต้นทุน BOM รวมจะเพิ่มขึ้นอย่างมีนัยสำคัญ ทำให้ข้อได้เปรียบด้านต้นทุนลดลง ในทางตรงกันข้าม การปรับใช้โมเดลหนาแน่นขนาด 4B/8B ต้องการหน่วยความจำเพียง 4-8GB มีความสามารถในการทนต่อการขึ้นราคาหน่วยความจำได้ดีกว่า อาจมีความคุ้มค่าทางเศรษฐกิจมากกว่าในสถานการณ์ขอบเครือข่ายที่อ่อนไหวต่อต้นทุน

แต่ต้องระวังว่า MoE ขนาด 30B ให้ผลลัพธ์ในงานที่ซับซ้อนเหนือกว่าโมเดลหนาแน่นขนาดเล็กมาก ค่าของการออกแบบนี้อยู่ที่การพิสูจน์ว่า FPGA สามารถเป็นแพลตฟอร์มการอนุมาน LLM ที่คุ้มค่าได้ ให้การเตรียมเทคโนโลยีสำหรับอนาคตเมื่อราคาหน่วยความจำลดลงหรือมีการใช้เทคโนโลยีหน่วยความจำใหม่ (เช่น CXL) แนวทางการออกแบบของมัน (เช่น การประมวลผลแบบขนานหลายคอร์ การคำนวณความแม่นยำคู่) มีความหมายสำหรับการปรับใช้ LLM ทุกขนาด ดังนั้น แม้ความผันผวนของหน่วยความจำจะนำมาซึ่งความท้าทาย แต่การสำรวจนี้ได้เปิดเส้นทางใหม่สำหรับการออกแบบร่วมระหว่างโมเดลและฮาร์ดแวร์สำหรับ AI ที่ขอบเครือข่าย

ประเด็นที่สอง: ความเป็นทั่วไปและต้นทุนการย้ายที่ภายใต้การบีบอัดทรัพยากรขั้นสูงสุด RTL ที่ปรับปรุงด้วยมือสามารถตอบสนองต่อวิวัฒนาการของโมเดลได้หรือไม่?

เพื่อปรับใช้โปรเซสเซอร์หลายตัวบน FPGA ที่มีทรัพยากรจำกัด การออกแบบใช้การปรับปรุง RTL ด้วยมือจำนวนมาก (เช่น โซ่รีจิสเตอร์ในตัว DSP บัส AXI แบบกำหนดเอง) โครงการที่เชื่อมโยงอย่างแน่นหนาเช่นนี้ เมื่อเผชิญกับการเปลี่ยนแปลงสถาปัตยกรรม MoE ในอนาคต (เช่น การกำหนดเส้นทางผู้เชี่ยวชาญแบบไดนามิก Group-Query ความยาวแปรผัน) หมายความว่าทุกครั้งที่โมเดลมีการปรับปรุง จะต้องมีการปรับให้เข้ากันใหม่ในระดับการผลิตชิป ทำให้สูญเสียข้อได้เปรียบหลักด้านความยืดหยุ่นของ FPGA หรือไม่?

การบรรลุประสิทธิภาพต้นทุนขั้นสูงสุดจำเป็นต้องใช้การปรับปรุง RTL ด้วยมือในระดับละเอียด ซึ่งเป็นสิ่งที่วิธีการสังเคราะห์ระดับสูงหรือคอมไพเลอร์ในปัจจุบันทำได้ยาก แต่ประเด็นสำคัญคือสถาปัตยกรรม LLM หลักเมื่อเทียบกับ CNN มีแนวโน้มที่จะเสถียรแล้ว – โครงสร้างบล็อก Transformer รูปแบบการคำนวณที่ครอบงำโดย GEMV แนวคิดหลักเช่น GQA/MoE จะไม่เปลี่ยนแปลงอย่างรุนแรงในอนาคตอันใกล้

การออกแบบนี้เองมีขีดความสามารถในการกำหนดค่าด้วยพารามิเตอร์:
* เครื่องยนต์ GEMV รองรับการสลับความแม่นยำคู่ W4/KV8 โหมดคู่ AXPY/DOT
* เครื่องยนต์สเกลาร์บรรลุการปรับโครงสร้างไดนามิกระดับโอเปอเรเตอร์ผ่านวงจรแบ่งปันทรัพยากรตามเวลา

แพลตฟอร์ม FPGA ราคา 150 ดอลลาร์สหรัฐ ดำเนินการอนุมานโมเดล MoE ขนาด 30B บนอุปกรณ์ Edge ด้วยความเร็วถอดรหัส 18 โทเค็น/วินาที ทำลายขีดจำกัดด้านต้นทุนและประสิทธิภาพ

การออกแบบเหล่านี้ทำให้สามารถปรับให้เข้ากับมิติของเฮด จำนวนผู้เชี่ยวชาญ และแผนการควอนไทซ์ที่แตกต่างกันได้

ความท้าทายที่แท้จริงคือการขาดเครื่องมืออัตโนมัติ ซึ่งเปิดโอกาสสำหรับการสร้าง RTL ด้วยความช่วยเหลือของ AI – หากสามารถฝึกโมเดลให้สร้าง RTL ที่ปรับปรุงแล้วโดยอัตโนมัติโดยอิงจากความเสถียรของสถาปัตยกรรม LLM ก็จะสามารถรวมประสิทธิภาพของงานมือและการย้ายที่อัตโนมัติได้

ดังนั้น การออกแบบที่เชื่อมโยงอย่างแน่นหนาในปัจจุบันเป็นทางเลือกที่หลีกเลี่ยงไม่ได้ในขั้นตอนการพัฒนาทางเทคโนโลยี ไม่ใช่การละทิ้งความยืดหยุ่นโดยพื้นฐาน

หนึ่ง งานที่เกี่ยวข้อง: เส้นทางวิวัฒนาการของการเร่งความเร็ว LLM ด้วย FPGA

ก่อนเข้าสู่รายละเอียดทางเทคนิค จำเป็นต้องจัดลำดับเส้นทางการวิจัยการเร่งความเร็ว LLM ด้วย FPGA เพื่อทำความเข้าใจจุดที่เป็นนวัตกรรม

1.1 FPGA บนคลาวด์: แหล่งบ่มเพาะการตรวจสอบประสิทธิภาพ

การวิจัยการเร่งความเร็ว LLM ด้วย FPGA ในช่วงแรกส่วนใหญ่集中在แพลตฟอร์ม FPGA ประสิทธิภาพสูงบนคลาวด์ เช่น มีงานวิจัยที่ปรับใช้ LLaMA2-7B หรือ GPT-2-1.5B บน Alveo U280 ที่มี HBM พิสูจน์ความเป็นไปได้ของการเร่งความเร็ว LLM ด้วย FPGA แต่แพลตฟอร์มเหล่านี้มีราคาแพง และไม่สามารถย้ายไปยังสถานการณ์ขอบเครือข่ายที่อ่อนไหวต่อต้นทุนได้โดยตรง งานต่อมาบางงานแม้จะมีนวัตกรรมต่างกัน แต่ก็ไม่สามารถ突破ข้อจำกัดด้านต้นทุนฮาร์ดแวร์ได้

1.2 FPGA แบบฝังตัว: ความพยายามลดต้นทุน

ในปีที่ผ่านมา บางงานวิจัยเริ่มให้ความสนใจกับแพลตฟอร์ม FPGA แบบฝังตัว เช่น มีงานวิจัยที่ปรับใช้ LLaMA2-7B บน KV260 โดยมุ่งเน้นการเร่งความเร็วในขั้นตอนการถอดรหัส มีงานวิจัยที่ลดการใช้ทรัพยากรลงอีก ทำให้สามารถทำงานบนแพลตฟอร์มที่ถูกกว่าได้ แต่ก็สนับสนุนเฉพาะขั้นตอนการถอดรหัสเช่นกัน มีงานวิจัยอื่นที่แนะนำการเร่งความเร็วการเติมข้อมูลล่วงหน้า แต่โมเดลเป้าหมายคือ BitNet LLM ขนาดเล็กที่ผ่านการควอนไทซ์ขั้นรุนแรง ซึ่งส่งผลกระทบต่อคุณภาพโมเดลอย่างรุนแรง มีงานวิจัยที่บรรลุความเร็วในการเติมข้อมูลล่วงหน้าที่สูง แต่มุ่งเป้าเฉพาะโมเดลขนาดเล็ก 0.6B

ดังรูปที่ 2 งานวิจัยที่มีอยู่ดูเหมือนจะติดอยู่ในภาวะที่ต้องเลือกระหว่างหลายสิ่งที่ยากจะได้ครบ: ต้นทุนฮาร์ดแวร์ คุณภาพโมเดล ความเร็วในการเติมข้อมูลล่วงหน้าและการถอดรหัส การเพิ่มขึ้นในสี่มิติเหล่านี้มักต้องแลกกับการเสียสละมิติอื่นๆ เป้าหมายของการออกแบบนี้คือการ打破ภาวะที่ติดขัดนี้

สอง นวัตกรรมหลัก

แนวคิดหลักสามารถสรุปได้ว่า: ผ่านการเพิ่มประสิทธิภาพทรัพยากร FPGA ขั้นสูงสุด บรรลุการประมวลผลแบบขนานหลายโปรเซสเซอร์บนอุปกรณ์ต้นทุนต่ำ เพื่อตอบสนองความต้องการทั้งความเร็วในการถอดรหัสและความเร็วในการเติมข้อมูลล่วงหน้าในเวลาเดียวกัน การบรรลุแนวคิดนี้ขึ้นอยู่กับนวัตกรรมสามระดับ: การออกแบบฮาร์ดแวร์แบบกำหนดเองในระดับแพลตฟอร์ม การจัดองค์กรโปรเซสเซอร์หลายโทเค็นในระดับสถาปัตยกรรม และเทคนิคการเพิ่มประสิทธิภาพทรัพยากรในระดับไมโครสถาปัตยกรรม

2.1 โมเดลผู้เชี่ยวชาญแบบผสม: พันธมิตรโดยธรรมชาติของ FPGA

เพื่อเข้าใจว่าทำไมจึงเลือกโมเดลผู้เชี่ยวชาญแบบผสมเช่น Qwen3-30B-A3B จำเป็นต้องทบทวนวิธีการทำงานของ MoE

สำหรับแต่ละโทเค็นที่ป้อนเข้า เราเตอร์จะคำนวณว่าผู้เชี่ยวชาญใดถูกกระตุ้นผ่านการฉายเชิงเส้นและ softmax ก่อน จากนั้นเลือกผู้เชี่ยวชาญ K คนที่มีคะแนนสูงสุด และทำการ normalize ความน่าจะเป็นใหม่ ผู้เชี่ยวชาญแต่ละคนที่ถูกเลือกจะดำเนินการแปลงสามชั้น (เกต การฉายขึ้น การฉายลง)

ความละเอียดอ่อนของ MoE อยู่ที่: แม้จำนวนพารามิเตอร์รวมของโมเดลจะมาก แต่แต่ละโทเค็นจะกระตุ้นผู้เชี่ยวชาญเพียงส่วนเล็กๆ (เช่น เลือก 8 คนจาก 128 คน) ทำให้ปริมาณการเข้าถึงหน่วยความจำไม่เพิ่มขึ้นตามจำนวนพารามิเตอร์รวมแบบเชิงเส้น เมื่อความเบาบางของ MoE เพิ่มขึ้นอย่างต่อเนื่อง ภาระงานการเข้าถึงหน่วยความจำของแต่ละโทเค็นก็เข้าใกล้พื้นที่ที่เหมาะสมของฮาร์ดแวร์ DDR ต้นทุนต่ำมากขึ้น ซึ่งเปิดโอกาสที่ดีสำหรับ FPGA แบบฝังตัว

2.2 การสร้างแบบจำลองความต้องการทรัพยากร

ก่อนการนำไปใช้จริง ทีมวิจัยได้สร้างแบบจำลองความต้องการหน่วยความจำและความคาดหวังประสิทธิภาพของ Qwen3-30B-A3B อย่างแม่นยำ

ความต้องการหน่วยความจำ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25879

การติดตั้งแบบ Edge การอนุมานต้นทุนต่ำ การเพิ่มประสิทธิภาพการอนุมาน LLM ตัวเร่งความเร็ว FPGA โมเดลผู้เชี่ยวชาญแบบผสม

Like (0)

0 0

Generate poster

โมเดลหลายรูปแบบเอาชนะจุดอ่อนด้านการมองเห็นได้สำเร็จ! UniPat AI ใช้โค้ดเพียง 500 บรรทัดสร้าง SWE-Vision ให้ AI เรียนรู้ “หยิบไม้บรรทัด Python” ตรวจสอบตัวเอง พร้อมคว้า SOTA ในห้ามาตรฐานการมองเห็นทั้งหมด
Previous 7 hours ago

การปฏิวัติ AI ในการเขียนโปรแกรม: เมื่อต้นทุนโค้ดเป็นศูนย์ 8 รูปแบบปรับโครงสร้างเวิร์กโฟลว์ของวิศวกร
Next 7 hours ago

相关推荐

 การอนุมานโมเดลขนาดใหญ่

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ? ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที นี่หมายความว่า…

2026年2月21日
149000

การอนุมานโมเดลขนาดใหญ่

Parallel-Probe: การปฏิวัติประสิทธิภาพการอนุมานแบบขนานในโมเดลขนาดใหญ่ ลดการสูญเสียการคำนวณลง 35.8%

เมื่อการให้เหตุผลของโมเดลขนาดใหญ่เข้าสู่ยุคแห่งการคิดแบบขนาน ปัญหาสำคัญหนึ่งก็ปรากฏขึ้น: ในกระบวนการให้เหตุผลแบบขนาน ทรัพยากรการคำนวณจำนวนมากถูกใช้ไปกับเส้นทางการคิดที่ไม่จำเป็นต้อ…

2026年3月7日
74000

การอนุมานโมเดลขนาดใหญ่

LINVIDEO: ไม่ต้องฝึกข้อมูลใหม่ ตัวแบบแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า ความก้าวหน้าใหม่ใน CVPR 2024

ไม่ต้องฝึกข้อมูลใหม่ โมเดลแพร่กระจายวิดีโอเร่งความเร็วเชิงเส้น 20 เท่า: ความก้าวหน้าใหม่ใน CVPR 2024 การสร้างวิดีโอได้เข้าสู่ยุคขนาดใหญ่ แต่ต้นทุนการคำนวณที่ตามมาก็เพิ่มขึ้นอย่างรว…

6 days ago
56000

การอนุมานโมเดลขนาดใหญ่

จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร

หากมองชีวิตเป็นเกม MMO แบบเปิดขนาดใหญ่ ณ เวลาที่เซิร์ฟเวอร์เกมเพิ่งอัปเดตครั้งใหญ่ กฎก็เปลี่ยนไป นับตั้งแต่ ChatGPT ปรากฏตัวอย่างน่าตื่นตาตื่นใจในปี 2022 โลกได้เปลี่ยนแปลงไปอย่างลึ…

2026年2月20日
83000

การอนุมานโมเดลขนาดใหญ่

LightRetriever: สร้างความเปลี่ยนแปลงครั้งใหญ่! สถาปัตยกรรมการค้นคืน LLM ที่เร็วขึ้นเป็นพันเท่า ขจัดภาระการคำนวณออกจากฝั่งการสืบค้นโดยสิ้นเชิง

ในปีที่ผ่านมา เทคโนโลยีการค้นคืนข้อความโดยใช้โมเดลภาษาขนาดใหญ่ (LLM-based Text Retrieval) ได้พัฒนาอย่างรวดเร็ว โดยโมเดล LLM Embedding หลักส่วนใหญ่มีพารามิเตอร์มากกว่า 7B พันล้านตัว…

2026年2月22日
92000