TileRT v0.1.3 เปิดตัว: รองรับ GLM-5 แล้ว ความเร็วในการอนุมานสูงถึง 600 tokens/s นำยุคใหม่ของการตอบสนองระดับมิลลิวินาทีสำหรับโมเดลพันล้านพารามิเตอร์

คำสำคัญ: TileRT, โมเดลภาษาขนาดใหญ่, เครื่องมืออนุมาน, ความหน่วงต่ำ, คอมไพเลอร์

หัวข้อย่อย: 600 โทเค็น/วินาที! TileRT นำการอนุมานโมเดลพันล้านพารามิเตอร์เข้าสู่ยุคมิลลิวินาที

TileRT v0.1.3 เป็นการเปิดตัวครั้งสำคัญที่เป็นหมุดหมาย ซึ่งหมายความว่า TileRT ได้ขยายจากการรองรับโมเดลเดียวคือ DeepSeek-V3.2 เป็นการรองรับสถาปัตยกรรมหลายโมเดล รุ่นนี้เพิ่มการรองรับการอนุมานแบบสมบูรณ์สำหรับโมเดลล่าสุด GLM-5 และแสดงประสิทธิภาพที่น่าประทับใจบน GPU NVIDIA B200 8 ตัว: GLM-5-FP8 สูงถึง 500 โทเค็น/วินาที, DeepSeek-V3.2 สูงถึง 600 โทเค็น/วินาที

TileRT v0.1.3 เปิดตัว: รองรับ GLM-5 แล้ว ความเร็วในการอนุมานสูงถึง 600 tokens/s นำยุคใหม่ของการตอบสนองระดับมิลลิวินาทีสำหรับโมเดลพันล้านพารามิเตอร์ แผนภูมิเปรียบเทียบ GLM-5 User Token Generation Race แสดงจำนวนโทเค็นผู้ใช้ทั้งหมดที่สร้างได้ภายใน 10 นาที 30 วินาที โดยเฟรมเวิร์กการอนุมานสามตัว (TileRT, SGLang, vLLM) ในสถานการณ์ถอดรหัสโหนดเดียว โดยมีความยาวคอนเท็กซ์ตั้งแต่ 1K ถึง 200K แผนภูมิใช้เวลาเป็นแกนนอน และจำนวนโทเค็นผู้ใช้ทั้งหมดที่สร้างเป็นแกนตั้ง เส้นโค้งสามเส้นแสดงประสิทธิภาพของเฟรมเวิร์กทั้งสาม: เส้นโค้งของ TileRT เติบโตเร็วที่สุด สร้างโทเค็นได้ 195,598 โทเค็นที่เวลา 10 นาที 30 วินาที นำหน้าอย่างชัดเจน; SGLang สร้างได้ 62,828 โทเค็น, vLLM สร้างได้ 48,908 โทเค็น ข้อมูลสถิติด้านล่างแสดงว่า TPS ผู้ใช้แบบเรียลไทม์ของ TileRT (จำนวนโทเค็นที่สร้างต่อวินาที) สูงกว่า SGLang 5.3 เท่า และสูงกว่า vLLM 4.6 เท่า โดย SGLang และ vLLM สร้างโทเค็นน้อยกว่า TileRT 3.1 เท่า และ 4.0 เท่า ตามลำดับ ในเวลาเดียวกัน หมายเหตุด้านล่างแผนภูมิระบุว่า TileRT และ SGLang ใช้การตั้งค่า MTP=3 ในขณะที่ vLLM ล้มเหลวเมื่อ MTP=3 จึงใช้การตั้งค่า MTP=1 ซึ่งส่งผลต่อประสิทธิภาพในระดับหนึ่ง โดยรวมแล้ว TileRT แสดงให้เห็นถึงความได้เปรียบอย่างท่วมท้นในด้านประสิทธิภาพการสร้างโทเค็นภายใต้สถานการณ์ทดสอบนี้ TileRT v0.1.3 เปิดตัว: รองรับ GLM-5 แล้ว ความเร็วในการอนุมานสูงถึง 600 tokens/s นำยุคใหม่ของการตอบสนองระดับมิลลิวินาทีสำหรับโมเดลพันล้านพารามิเตอร์

  • TileRT: Ultra-Low-Latency LLM Inference
  • A revolutionary tile-level runtime engine that unlocks inference speed for state-of-the-art AI models.
  • Demo ออนไลน์: tilert.ai
  • GitHub: https://github.com/tile-ai/tilert

ในแอปพลิเคชันโมเดลภาษาขนาดใหญ่ (LLM) ในปัจจุบัน ความหน่วง มักเป็นปัจจัยสำคัญที่กำหนดประสบการณ์ผู้ใช้ — การซื้อขายความถี่สูง, AI เชิงโต้ตอบ, เอเจนต์อัจฉริยะ, การตัดสินใจแบบเรียลไทม์, การเขียนโปรแกรมด้วย AI ช่วย… สถานการณ์เหล่านี้ล้วนกำหนดข้อกำหนดที่เข้มงวดสำหรับความเร็วในการตอบสนองต่อคำขอเดียว

อย่างไรก็ตาม ระบบการอนุมานแบบดั้งเดิมส่วนใหญ่ได้รับการปรับให้เหมาะสมสำหรับการประมวลผลแบบแบทช์ปริมาณสูง ทำให้ยากที่จะรักษาความสมดุลระหว่างขนาดโมเดลและความเร็วในการตอบสนอง

TileRT ถูกสร้างขึ้นเพื่อจุดประสงค์นี้ — เป็นรันไทม์สำหรับการอนุมาน LLM ที่เน้นความหน่วงต่ำพิเศษ โดยใช้เทคโนโลยีนวัตกรรมการแยกย่อยงานระดับไทล์ และขับเคลื่อนโดยคอมไพเลอร์ แยกโอเปอเรเตอร์ออกเป็นงานไทล์ระดับละเอียด และเพิ่มประสิทธิภาพการทับซ้อนของการคำนวณ, I/O และการสื่อสารให้สูงสุดผ่านการจัดตารางแบบไดนามิก

ภายใต้เงื่อนไขไม่เสียสละคุณภาพโมเดล (ไม่ต้องใช้ควอนไทเซชันหรือการกลั่น) สามารถกดเวลาการสร้างเอาต์พุตโทเค็นเดียว (TPOT) ของโมเดลหลายแสนล้านพารามิเตอร์ลงสู่ระดับมิลลิวินาที

วันนี้ ในที่สุดเราก็สามารถประกาศอย่างตื่นเต้นได้ว่า TileRT v0.1.3 ได้เปิดตัวอย่างเป็นทางการแล้ว! นี่คือเวอร์ชันที่เป็นหมุดหมายในพัฒนาการของ TileRT ไม่เพียงแต่เป็นการรองรับโมเดล GLM-5 อย่างสมบูรณ์เป็นครั้งแรก แต่ยังสร้างสถิติประสิทธิภาพใหม่ — DeepSeek-V3.2 ถึง 600+ โทเค็น/วินาที, GLM-5-FP8 ถึง 500+ โทเค็น/วินาที (NVIDIA B200 8 ตัว, ขนาดแบทช์=1)

พร้อมกันนี้ แพลตฟอร์ม Demo ออนไลน์ tilert.ai ได้เปิดให้บริการแล้ว ขอเชิญชวนนักพัฒนาทุกท่านมาสัมผัสเสน่ห์ของการอนุมานความหน่วงต่ำพิเศษได้ทันที!

ควรเพิ่มเติมว่า โครงการ TileRT, TileLang และ TileScale ทั้งสามโครงการนี้ในระบบนิเวศ Tile-AI เป็นระบบเทคโนโลยีสามชั้นที่เชื่อมโยงกันอย่างใกล้ชิดและแบ่งหน้าที่กันอย่างชัดเจน พูดง่ายๆ คือพวกมันมีความสัมพันธ์เป็น “ภาษาโปรแกรม (TileLang) — เฟรมเวิร์กการคอมไพล์/กระจาย (TileScale) — เครื่องมือรันไทม์ (TileRT)” ซึ่งร่วมกันให้บริการเป้าหมายหลักของการอนุมานโมเดลขนาดใหญ่ความหน่วงต่ำพิเศษ

| โครงการ & ตำแหน่งหลัก | หน้าที่หลัก | คุณลักษณะสำคัญ |
| :— | :— | :— |
| TileLang – ภาษาโปรแกรม/ส่วนหน้าคอมไพเลอร์ | ให้การสรุประดับสูง ช่วยให้นักพัฒนาสามารถอธิบายการคำนวณ (เช่น การคูณเมทริกซ์, กลไกความสนใจ) ด้วยวิธีที่ใกล้เคียงกับสูตรคณิตศาสตร์ จากนั้นคอมไพเลอร์จะสร้างโค้ดระดับล่างประสิทธิภาพสูงโดยอัตโนมัติ | ปลดปล่อยนักพัฒนา: ไม่ต้องเขียนโค้ด CUDA ที่ซับซ้อนด้วยมือ ประสิทธิภาพการพัฒนาพุ่งสูงขึ้น (ปริมาณโค้ดสามารถลดลงประมาณ 90%)
ไม่ขึ้นกับฮาร์ดแวร์: เขียนครั้งเดียว สามารถปรับใช้กับสถาปัตยกรรมฮาร์ดแวร์ที่แตกต่างกันได้ (เช่น GPU NVIDIA, GPU Moore Threads ของจีน) |
| TileScale – เฟรมเวิร์กการเขียนโปรแกรมแบบกระจายและรันไทม์ | มุ่งเน้นไปที่การจัดตารางงานและการสื่อสารข้ามอุปกรณ์ (เช่น GPU หลายตัว) เมื่ออุปกรณ์เดียวไม่สามารถรองรับโมเดลขนาดใหญ่ได้ จะรับผิดชอบในการแบ่งโมเดลและประสานการคำนวณหลายการ์ดอย่างมีประสิทธิภาพ | ขยายในแนวนอน: ทำให้โปรแกรมที่เขียนด้วย TileLang สามารถขยายไปยังคลัสเตอร์ขนาดใหญ่ได้อย่างราบรื่น เทคโนโลยี “การจัดตารางแบบไดนามิกข้ามอุปกรณ์หลายตัว” ที่กล่าวถึงในบทความ ผลลัพธ์จะถูกรวมเข้ากับ TileScale |
| TileRT – เครื่องมือรันไทม์ที่เน้นการอนุมาน | รับโอเปอเรเตอร์ประสิทธิภาพสูงจาก TileLang และใช้ความสามารถแบบกระจายของ TileScale เพื่อดำเนินงานอนุมานแบบไดนามิกและความหน่วงต่ำพิเศษ ในขณะรันไทม์ | ความหน่วงขั้นสุด: ออกแบบมาเฉพาะสำหรับสถานการณ์คำขอเดียว, ความหน่วงต่ำ (เช่น การสนทนาแบบเรียลไทม์) ไม่ใช่การประมวลผลแบบแบทช์ปริมาณสูง
การจัดตารางระดับไทล์: แยกโอเปอเรเตอร์ออกเป็นงาน “ไทล์” ที่ละเอียดยิ่งขึ้น ทำให้การคำนวณ, I/O และการสื่อสารทับซ้อนกันอย่างมาก เพื่อบีบประสิทธิภาพของฮาร์ดแวร์ |

โดยสรุป:
* TileLang รับผิดชอบ “เขียนอย่างไรให้สบาย” — ช่วยให้นักพัฒนาสร้างโอเปอเรเตอร์ประสิทธิภาพสูงได้อย่างมีประสิทธิภาพ
* TileScale รับผิดชอบ “กระจายอย่างไรให้กว้าง” — ทำให้การคำนวณสามารถขยายไปสู่สภาพแวดล้อมหลายการ์ดได้อย่างมีประสิทธิภาพ
* TileRT รับผิดชอบ “ทำงานอย่างไรให้เร็ว” — ในการอนุมานจริง เปลี่ยนศักยภาพทางเทคนิคทั้งหมดให้กลายเป็นความเร็วในการตอบสนองที่ยอดเยี่ยม

1. การก้าวกระโดดด้านประสิทธิภาพ: รีเฟรชสถิติความเร็วการอนุมาน LLM

ในการประเมินล่าสุด ใช้ GPU NVIDIA B200 8 ตัว ด้วยขนาดแบทช์=1 ความยาวอินพุตครอบคลุมสถานการณ์จริง 1K~192K เปรียบเทียบประสิทธิภาพของระบบการอนุมานหลัก (SGLang, vLLM)

TileRT v0.1.3 เปิดตัว: รองรับ GLM-5 แล้ว ความเร็วในการอนุมานสูงถึง 600 tokens/s นำยุคใหม่ของการตอบสนองระดับมิลลิวินาทีสำหรับโมเดลพันล้านพารามิเตอร์ การตั้งค่าการประเมิน GLM-5-FP8 Decoding with MTP ขนาดแบทช์: 1; แกนนอนคือความยาวลำดับอินพุต: 1K, 16K, 32K, 64K, 128K, 150K, 192K; แกนตั้งคือจำนวนโทเค็นผู้ใช้ที่สร้างต่อวินาที (UTPS): 1K; ใช้ข้อมูลสังเคราะห์สำหรับการทดสอบมาตรฐาน SGLang v0.5.9.dev0, MTP=3; vLLM v0.16.0rc2.dev173, MTP=1 (เมื่อ MTP=3 vLLM ล้มเหลว ดังนั้นเราจึงตั้ง MTP=1 เป็น vLLM-GPT5-recipe); TileRT v0.1.3, MTP=3 ประสิทธิภาพความเร็วในการถอดรหัสของโมเดล GLM-5 ที่ความแม่นยำ FP8 เมื่อเปิดใช้งาน MTP (การทำนายหลายโทเค็น) ในสามเฟรมเวิร์กการอนุมาน TileRT (สีส้ม) นำหน้าอย่างชัดเจนในทุกความยาว SGLang (สีเขียว) และ vLLM (สีน้ำเงิน) ตามหลังอย่างเห็นได้ชัด เมื่อความยาวอินพุตเพิ่มขึ้น ประสิทธิภาพของแต่ละเฟรมเวิร์กลดลง แต่ TileRT ยังคงรักษาความได้เปรียบอย่างสมบูรณ์ สะท้อนถึงความสามารถในการถอดรหัสที่มีประสิทธิภาพในสถานการณ์คอนเท็กซ์ยาว TileRT v0.1.3 เปิดตัว: รองรับ GLM-5 แล้ว ความเร็วในการอนุมานสูงถึง 600 tokens/s นำยุคใหม่ของการตอบสนองระดับมิลลิวินาทีสำหรับโมเดลพันล้านพารามิเตอร์ การตั้งค่าการประเมิน GLM-5-FP8 Decoding Speed without MTP ขนาดแบทช์: 1; แกนนอนคือความยาวลำดับอินพุต: 1K, 16K, 32K, 64K, 128K, 150K, 192K; แกนตั้งคือจำนวนโทเค็นผู้ใช้ที่สร้างต่อวินาที (UTPS): 1K; ใช้ข้อมูลสังเคราะห์สำหรับการทดสอบมาตรฐาน SGLang v0.5.9.dev0; vLLM v0.16.0rc2.dev173; TileRT v0.1.3 ในสามเฟรมเวิร์กการอนุมาน TileRT (สีส้ม) นำหน้าอย่างชัดเจนในทุกความยาว SGLang (สีเขียว) และ vLLM (สีน้ำเงิน) ตามหลังอย่างเห็นได้ชัด เมื่อความยาวอินพุตเพิ่มขึ้น ประสิทธิภาพของแต่ละเฟรมเวิร์กลดลง แต่ TileRT ยังคงรักษาความได้เปรียบอย่างสมบูรณ์ สะท้อนถึงความสามารถในการถอดรหัสที่มีประสิทธิภาพในสถานการณ์คอนเท็กซ์ยาว

ผลลัพธ์แสดงว่า TileRT v0.1.3 ได้รับความได้เปรียบอย่างมีนัยสำคัญทั้งใน DeepSeek-V3.2 และ GLM-5-FP8 :

| โมเดล / เฟรมเวิร์ก | การกำหนดค่า | ประสิทธิภาพ (โทเค็น/วินาที) |
| :— | :— | :— |
| DeepSeek-V3.2 | MTP=3 | ~600 |
| GLM-5-FP8 | MTP=3 | ~500 |
| เปรียบเทียบ: SGLang v0.5.9 | MTP=3 | ต่ำกว่า TileRT อย่างมีนัยสำคัญ |
| เปรียบเทียบ: vLLM v0.16.0 | MTP=1 (MTP=3 ทำงานไม่ได้) | ต่ำกว่า TileRT อย่างมีนัยสำคัญ |

ผลสำเร็จนี้หมายความว่า: แม้แต่โมเดลระดับพันล้านพารามิเตอร์ TileRT ก็สามารถสร้างแบบเรียลไทม์ที่ลื่นไหลภายใต้คำขอผู้ใช้คนเดียวได้ ซึ่งเปิดความเป็นไปได้ใหม่สำหรับแอปพลิเคชัน AI เชิงโต้ตอบ

2. อัปเดตฟังก์ชันหลัก: ไม่เพียงแต่เร็ว

2.1 รองรับโมเดล GLM-5 อย่างสมบูรณ์ 🔥

TileRT กลายเป็นหนึ่งในระบบแรกๆ ที่รองรับการอนุมานโมเดลล่าสุด GLM-5 ได้รับการปรับให้เหมาะสมอย่างลึกซึ้งสำหรับสถาปัตยกรรมเฉพาะของ GLM-5 (dim=6144, n_heads=64, ความสนใจ MLA, MoE เป็นต้น):

  • ใช้งานโอเปอเรเตอร์สำคัญอย่างสมบูรณ์: รองรับกลไกหลักอย่างสมบูรณ์ เช่น MLA (Multi-head Latent Attention), MoE (Mixture of Experts), MTP (Multi-Token Prediction)
  • เคอร์เนล CUDA เฉพาะ: พัฒนาโอเปอเรเตอร์เฉพาะ GLM-5 เช่น down_allreduce_glm5_op, expert_down_allreduce_glm5_op, rmsnorm_head_proj_glm5_op
  • การปรับให้เหมาะสมความแม่นยำ: เพิ่มเส้นทางอัลกอริทึม FP16 MMA สำหรับโอเปอเรเตอร์บางส่วน เพื่อตอบสนองความต้องการความแม่นยำของ GLM-5

ไม่ว่าจะเป็นการศึกษาการประยุกต์ใช้ GLM-5 หรือการสำรวจสถาปัตยกรรมโมเดลรุ่นต่อไป TileRT สามารถมอบประสบการณ์การอนุมานที่เร็วที่สุดได้

2.2 Weight Converter ในตัว: ลาก่อนกระบวนการแปลงน้ำหนักที่ยุ่งยาก 🚀

ในอดีต การใช้ TileRT จำเป็นต้องดาวน์โหลดน้ำหนักที่แปลงล่วงหน้า ซึ่งกระบวนการยุ่งยาก v0.1.3 ได้แนะนำ ตัวแปลงน้ำหนักในตัว ซึ่งสามารถดาวน์โหลดน้ำหนักดั้งเดิมจากแหล่ง


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22926

Like (0)
Previous 2026年2月14日 pm6:48
Next 2026年2月15日 am6:40

相关推荐