ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ?

ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที

นี่หมายความว่าอย่างไร? ชิป Cerebras ที่ได้รับการยอมรับว่ามีประสิทธิภาพสูงในปัจจุบัน มีความเร็วประมาณ 2000 โทเค็น/วินาที นั่นหมายความว่าชิปใหม่นี้เร็วขึ้นเกือบ 10 เท่า ในขณะที่ต้นทุนลดลง 20 เท่า และการใช้พลังงานลดลง 10 เท่า

สิ่งนี้ทำให้โมเดลภาษาขนาดใหญ่ (LLM) ก้าวเข้าสู่ยุคการตอบสนองทันทีในระดับ ต่ำกว่าหนึ่งมิลลิวินาที โดยแท้จริง ผลลัพธ์จากการทดสอบจริงมีดังนี้:

แต่ชิปที่สร้างกระแสในซิลิคอนแวลลีย์ข้ามคืนนี้ ไม่ได้มาจาก NVIDIA หรือ AMD แต่มากจากสตาร์ทอัพที่ก่อตั้งมาเพียงสองปีและมีทีมงานเพียง 24 คน นั่นคือ Taalas

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

ชิปนี้มีรหัสว่า HC1 และเป็นผลิตภัณฑ์แรกของบริษัท

แตกต่างจากคู่แข่งทั้งหมด Taalas เลือกเส้นทางเทคโนโลยีที่สุดขั้วที่สุดเท่าที่เคยมีมา นั่นคือโมเดลไม่ถูกโหลดเข้าไปในหน่วยความจำอีกต่อไป แต่ถูก “สลัก” ลงบนแผ่นเวเฟอร์ซิลิคอนโดยตรง กล่าวอีกนัยหนึ่งคือ ชิปคือโมเดล

ผลลัพธ์ของการออกแบบที่พลิกโฉมนี้เห็นได้ชัด: Taalas พยายามที่จะเขย่าคูเมืองด้านพลังคำนวณของชิปแบบดั้งเดิม ในช่วงที่ H1 00 หายาก HC1 อาจเป็นทางเลือกใหม่

เร็วขึ้น 10 เท่า พลังงานลดเหลือหนึ่งในสิบ

HC1 ปัจจุบันมาพร้อมกับโมเดล Llama 3.1 8B ผู้ใช้สามารถสร้างโทเค็นได้สูงสุด 17000 โทเค็นต่อวินาที ซึ่งมีประสิทธิภาพเหนือกว่าชิป GPU และ ASIC กระแสหลักอย่างมาก

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

เปรียบเทียบภายใต้โมเดลเดียวกัน: ชิป Cerebras ใกล้เคียง 2000 โทเค็นต่อวินาที, SambaNova ประมาณ 900 ต่อวินาที, Groq ประมาณ 600 ต่อวินาที, และ B200 ของ NVIDIA ที่ใช้สถาปัตยกรรม Blackwell ประมาณ 350 ต่อวินาที

หากดูรายละเอียด HC1 ผลิตด้วยกระบวนการ N6 ของ TSMC พื้นที่ชิป 815mm² มีขนาดกะทัดรัดและการออกแบบเป็นโอเพ่นซอร์ส ชิปเดี่ยวสามารถตอบสนองความต้องการของโมเดล 8B ได้

การใช้พลังงานทั่วไปของแต่ละชิปอยู่ที่เพียง 250W หากเซิร์ฟเวอร์ติดตั้ง HC1 พร้อมกัน 10 ชิป พลังงานทั้งหมดจะอยู่ที่ 2.5kW เท่านั้น และสามารถติดตั้งโดยใช้แร็คทำความเย็นด้วยอากาศทั่วไปได้

แล้วการก้าวกระโดดด้านประสิทธิภาพที่ยิ่งใหญ่นี้เกิดขึ้นได้อย่างไร?

ประการแรก HC1 ได้รับแรงบันดาลใจจากแนวคิดชิป โครงสร้าง ASIC ในช่วงต้นทศวรรษ 2000 ชิปประเภทนี้ใช้เกตอาร์เรย์และ IP ที่ตรึงไว้ ทำให้ชิปสามารถปรับให้เข้ากับเวิร์กโหลดเฉพาะได้เพียงแค่เปลี่ยนชั้นการเชื่อมต่อ สิ่งนี้ทำให้ชิปโครงสร้าง ASIC มีต้นทุนต่ำกว่า ASIC ที่ปรับแต่งเต็มรูปแบบ ในขณะที่มีประสิทธิภาพดีกว่า FPGA

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

HC1 ใช้แนวคิดที่คล้ายกัน: ไม่เปลี่ยนวงจรพื้นฐาน แต่ปรับเพียงสองชั้นมาสก์ ก็สามารถผลิตชิป AI อนุมานเฉพาะทางได้อย่างรวดเร็วและต้นทุนต่ำ

มันละทิ้งฟังก์ชันการโปรแกรมส่วนใหญ่ โดยเก็บโมเดลพร้อมกับน้ำหนักลงบนชิปผ่านสถาปัตยกรรมที่ใช้ มาสก์ ROM พร้อมทั้งรักษา SRAM ที่โปรแกรมได้ไว้สำหรับเก็บน้ำหนักหลังการปรับจูน (เช่น LoRA) และแคช KV ส่วนที่เหลือจะถูกตรึงไว้ผ่านมาสก์ ROM

กลยุทธ์นี้สามารถเปลี่ยนโมเดลเป็นชิปได้อย่างรวดเร็วภายใต้ต้นทุนการออกแบบที่ค่อนข้างควบคุมได้ โดยลดรอบการผลิตชิปจากเดิมหกเดือนเหลือสองเดือน

แน่นอนว่าวิธีการควอนไทซ์ที่รุนแรงเช่นนี้อาจส่งผลต่อประสิทธิภาพของโมเดล ทีมวิจัยตระหนักถึงจุดนี้ ดังนั้นจึงทำการฝึกฝนใหม่ผ่านอะแดปเตอร์ LoRA และใช้หน้าต่างบริบทที่กำหนดค่าได้ เพื่อรักษาความยืดหยุ่นขั้นต่ำไว้ให้ชิป

กล่าวโดยสรุปคือ การรวมโมเดลขนาดใหญ่เต็มรูปแบบลงในชิปผ่านวิธีการเชื่อมต่อทางกายภาพแบบฮาร์ดไวร์ ช่วยลดค่าใช้จ่ายที่เกิดจากสถาปัตยกรรม “แยกการเก็บและการคำนวณ” แบบดั้งเดิม แลกความยืดหยุ่นด้วยความเร็วและประสิทธิภาพพลังงานขั้นสุด

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

นอกจาก Llama 3.1 แล้ว Taalas กำลังพยายามรวมโมเดลอื่นๆ ลงใน HC1 ด้วย เช่น สำหรับโมเดล DeepSeekR1-671B พวกเขาได้เสนอโซลูชันแบบมัลติชิป

โซลูชันนี้แยกส่วน SRAM ออกไปยังชิปแยกต่างหาก ทำให้ความหนาแน่นการจัดเก็บของ HC1 แต่ละชิปเพิ่มขึ้นเป็นประมาณ 20 พารามิเตอร์บิต โดยรวมแล้วต้องการชิป HC1 ที่ปรับแต่งแล้ว 30 ชิป

ความเร็วในการประมวลผลโดยรวมสามารถเข้าถึง 12000 โทเค็นต่อวินาทีต่อผู้ใช้ เมื่อพิจารณาว่าต้นทุนของชิป 30 ชิปอยู่ที่ 7.6 เซนต์ต่อล้านโทเค็น โซลูชันนี้ยังมีต้นทุนต่ำกว่าครึ่งหนึ่งของโซลูชัน GPU ที่มี吞吐量เท่ากัน

แม้จะสมมติว่ากรอบการอัปเดต GPU เป็นสี่ปี ในขณะที่ HC1 ต้องการการเปลี่ยนทุกปี ต้นทุนทั้งหมดก็ยังคงได้เปรียบ

ทีมในฝันที่ประกอบด้วยอดีตผู้บริหารระดับสูงของ AMD

บริษัท Taalas ก่อตั้งขึ้นเมื่อสองปีก่อน โดยอดีตผู้บริหารระดับสูงของ AMD สามคน: Ljubiša Bajić อดีตผู้อำนวยการฝ่ายออกแบบวงจรรวมของ AMD, Leila Bajić อดีตผู้จัดการด้านเทคนิคและวิศวกรของ AMD/ATI/Altera และ Drago Ignjatović อดีตผู้อำนวยการฝ่ายออกแบบ ASIC ของ AMD ทีมนี้เรียกได้ว่าเป็น “ทีมในฝัน” ของอดีตผู้บริหาร AMD

ในจำนวนนี้ Ljubiša Bajić ไม่เพียงแต่เคยดำรงตำแหน่งระดับสูงที่ AMD และ NVIDIA รับผิดชอบการวิจัยและออกแบบ GPU ประสิทธิภาพสูงเท่านั้น แต่ยังเป็นผู้ก่อตั้งและซีอีโอคนแรกของบริษัทชิป AI Tenstorrent อีกด้วย

บริษัทใหม่มุ่งมั่นพัฒนาสถาปัตยกรรมใหม่ที่ออกแบบมาเฉพาะสำหรับการอนุมานและการฝึกฝน AI โดยเน้นการออกแบบแบบแบ่งชั้นและโครงข่ายแลตทิซ มีเป้าหมายให้ชิปสามารถประมวลผลข้อมูลแบบไดนามิกตามความต้องการของงานได้เหมือนสมอง

ในปี 2020 บุคคลในตำนานวงการชิป Jim Keller เข้าร่วม Tenstorrent และรับตำแหน่งซีอีโอ ส่วน Ljubiša Bajić ย้ายไปดำรงตำแหน่งหัวหน้าฝ่ายเทคโนโลยี (CTO) โดยมุ่งเน้นการพัฒนาผลิตภัณฑ์

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

หลังจากนั้น Ljubiša Bajić ก็ก่อตั้ง Taalas ขึ้น พยายามเปลี่ยนโมเดล AI เป็นชิปซิลิคอนที่ปรับแต่งแล้วโดยตรงผ่านวิธีการที่คล้ายกับ “คอมไพเลอร์ซิลิคอนเบส”

ประสบความสำเร็จในครั้งแรก: ทีมงานที่มีสมาชิก เพียง 24 คน นี้ ใช้งบประมาณเพียง 30 ล้านดอลลาร์ กลับสร้างผลิตภัณฑ์ที่มีประสิทธิภาพพลังงานสูงกว่าชิป AI แบบทั่วไปหลายเท่าตัว

ปัจจุบัน Taalas ได้ระดมทุน 200 ล้านดอลลาร์ คาดว่าจะเปิดตัวรุ่นที่สองที่พัฒนาจาก HC1 ในฤดูใบไม้ผลิ ซึ่งจะรวมโมเดลขนาดกลางสำหรับการอนุมานไว้ด้วย หลังจากนั้น มีแผนที่จะติดตั้งและเปิดตัว HC2 ที่มีความหนาแน่นสูงกว่าและทำงานเร็วกว่าในฤดูหนาว

อย่างไรก็ตาม สำหรับ HC1 การประเมินในอุตสาหกรรมแบ่งออกเป็นสองขั้ว

ด้านหนึ่ง มีมุมมองที่ว่า ความหน่วงเวลาที่ต่ำมากของ HC1 จะช่วยขับเคลื่อนการพัฒนาด้านต่างๆ เช่น เอ็มบอดีด์อินเทลลิเจนซ์ อย่างมีพลัง

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

อีกด้านหนึ่ง มีผู้ใช้ที่ทดสอบจริงแล้วพบว่า ภายใต้ความเร็วในการอนุมานสูงของ HC1 อาจมีปัญหาด้านความลึกของการอนุมานไม่เพียงพอ:

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

นอกจากนี้ สำหรับโมเดลขนาดใหญ่ที่มีการอัปเดตอย่างรวดเร็ว วิธีการฮาร์ดโค้ดของ HC1 อาจทำให้ชิปล้าสมัยได้ง่าย นี่เป็นหนึ่งในเหตุผลที่ผู้ผลิตชิปในปัจจุบันมัก倾向于推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出推出


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22878

Like (0)
Previous 2026年2月21日 pm12:47
Next 2026年2月21日 pm1:29

相关推荐