DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%

2026年2月5日 pm11:55 • ข่าวสารอุตสาหกรรม AI • 209 views

คำสำคัญ: การตัดแต่งโทเค็นภาพ, โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ, การฝึกฝนที่มีประสิทธิภาพ, ความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน, การฝึกฝนแบบสองโหมด

ในปีที่ผ่านมา โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบได้ก้าวหน้าอย่างมากในงานต่างๆ เช่น การบรรยายภาพ, การถามตอบเชิงภาพ, การระบุตำแหน่งภาพ, และการให้เหตุผลแบบหลายรูปแบบ ทำให้กลายเป็นทิศทางการวิจัยที่สำคัญในสาขาปัญญาประดิษฐ์ อย่างไรก็ตาม เมื่อขนาดโมเดลขยายใหญ่ขึ้นอย่างต่อเนื่องและความละเอียดของอินพุตภาพเพิ่มสูงขึ้น ต้นทุนการฝึกฝนของ MLLMs ก็เพิ่มขึ้นอย่างรวดเร็ว กลายเป็นคอขวดสำคัญที่จำกัดการพัฒนาและการประยุกต์ใช้

วิธีการเพิ่มประสิทธิภาพแบบดั้งเดิมส่วนใหญ่เน้นที่ การบีบอัดโมเดล, การปรับแต่งพารามิเตอร์อย่างมีประสิทธิภาพ และ การต่อยอดตัวเข้ารหัสภาพ แต่กลับมองข้ามปัจจัยสำคัญอีกประการหนึ่ง นั่นคือ จำนวนโทเค็นภาพ

ในโมเดลหลายรูปแบบทั่วไป ภาพหนึ่งภาพจะถูกเข้ารหัสเป็นโทเค็นภาพหลายร้อยหรือหลายพันโทเค็น โทเค็นเหล่านี้ เมื่อรวมกับกลไกความสนใจตนเองในโมเดลภาษาขนาดใหญ่ จะสร้างความซับซ้อนในการคำนวณแบบกำลังสอง ทำให้กระบวนการฝึกฝนใช้เวลานานและทรัพยากรมาก

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%

ชื่อบทความวิจัย: Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning
ลิงก์บทความวิจัย: https://arxiv.org/pdf/2602.03815
ที่เก็บโค้ด: https://github.com/dingkun-zhang/DualSpeed

จากงานวิจัยล่าสุดของมหาวิทยาลัยฮาร์บินและมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง งานวิจัยที่ก้าวล้ำชื่อ “Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning” ได้เสนอวิธีแก้ปัญหาที่สร้างสรรค์: กรอบการฝึกฝนแบบสองความเร็ว DualSpeed

กรอบ DualSpeed แก้ปัญหาข้างต้นผ่านการฝึกฝนร่วมกันแบบสองโหมดเร็ว-ช้า
* โหมดเร็วเป็นโหมดการฝึกฝนหลัก ผนวกวิธีการตัดแต่งโทเค็นภาพที่มีอยู่เป็นปลั๊กอินเพื่อลดโทเค็นภาพ และแนะนำ ตัวแยกโหมดที่เรียนรู้ได้ เพื่อชี้นำโมเดลให้ปรับตัวกับอินพุตที่ถูกตัดแต่งแล้ว
* โหมดช้าเป็นโหมดเสริม ฝึกฝนโดยใช้ลำดับภาพเต็มรูปแบบเพื่อรับประกันความสอดคล้องระหว่างการฝึกฝนและการอนุมาน พร้อมทั้งใช้การเรียนรู้จากตัวเองเพื่อเรียนรู้จากโหมดเร็วที่ได้รับการฝึกฝนอย่างเต็มที่ เพื่อเพิ่มประสิทธิภาพการฝึกฝน

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%
รูปที่ 3 | ภาพรวมกรอบ DualSpeed กรอบนี้ประกอบด้วยโหมดเร็วและโหมดช้า โดยทั้งสองโหมดจะสลับกันแบบสุ่มระหว่างมินิแบทช์ต่างๆ โหมดเร็วเป็นโหมดหลักเพื่อเพิ่มประสิทธิภาพการฝึกฝนให้สูงสุด โหมดช้าเป็นโหมดเสริมเพื่อรับประกันความสอดคล้องระหว่างการฝึกฝนและการอนุมาน วิธีการตัดแต่งโทเค็นภาพต่างๆ สามารถเชื่อมต่อเป็นปลั๊กอินกับกรอบ DualSpeed ได้ รูปภาพแสดงกลไกการทำงานของโหมดคู่ DualSpeed โดยละเอียด: โหมดเร็วลดโทเค็นภาพผ่านการเชื่อมต่อ VTP และฝึกฝนอย่างมีประสิทธิภาพด้วยการสูญเสียเอนโทรปีไขว้ โหมดช้าฝึกฝนด้วยลำดับภาพเต็มรูปแบบ และยังแนะนำการเรียนรู้จากตัวเอง โดยใช้โหมดเร็วเป็นโมเดลครูเพื่อเพิ่มประสิทธิภาพการเรียนรู้ ทั้งสองโหมดใช้ค่าน้ำหนัก LLM ร่วมกัน และสลับตามความน่าจะ ใช้ประโยชน์จากโหมดเร็วเพื่อเพิ่มความเร็วในการฝึกฝน และพึ่งพาโหมดช้าเพื่อหลีกเลี่ยงความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน ทำให้ได้ทั้งประสิทธิภาพและประสิทธิผล

ผลการทดลองแสดงว่า DualSpeed เร่งความเร็วการฝึกฝนได้ 2.1 เท่า บน LLaVA-1.5 และเร่งความเร็วได้สูงถึง 4.0 เท่า บน LLaVA-NeXT และยังคงประสิทธิภาพไว้มากกว่า 99% ในแบบทดสอบมาตรฐานภาษา-ภาพทั้ง 9 แบบ

งานวิจัยยังยืนยันความสามารถในการปรับใช้ของวิธีการ VTP ต่างๆ ยืนยันว่าโทเค็นภาพประมาณ 90% มีความซ้ำซ้อนในการฝึกฝน และกรอบงานมีความแข็งแกร่งที่ดีต่อพารามิเตอร์หลัก กรอบงานนี้เป็นครั้งแรกที่ผนวก VTP เข้ากับกระบวนการฝึกฝน MLLMs ได้อย่างมีประสิทธิภาพ โดยคำนึงถึงทั้งประสิทธิภาพการฝึกฝนและความเสถียรของประสิทธิภาพ เป็นทางออกที่เป็นไปได้สำหรับการฝึกฝนโมเดลหลายรูปแบบความละเอียดสูงอย่างมีประสิทธิภาพ

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%
รูปที่ 1 | DualSpeed สามารถเร่งความเร็วการฝึกฝนโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบได้อย่างมีนัยสำคัญ ในขณะที่รับประกันว่าประสิทธิภาพจะไม่ลดลง สามารถเร่งความเร็วการฝึกฝนได้สูงสุด 4.0 เท่า และประสิทธิภาพแทบไม่สูญเสียเลย รูปภาพนี้แสดงข้อได้เปรียบหลักของกรอบ DualSpeed อย่างชัดเจน ในการฝึกฝน MLLMs วิธีการแบบดั้งเดิมมักเผชิญกับปัญหาที่ยากจะได้ทั้งความเร็วและประสิทธิภาพ ในขณะที่ DualSpeed ผ่านความร่วมมือของโหมดคู่เร็ว-ช้า ในขณะที่ลดจำนวนโทเค็นภาพเพื่อเพิ่มประสิทธิภาพการฝึกฝน ก็ใช้โหมดช้ารับประกันความสอดคล้องระหว่างการฝึกฝนและการอนุมาน สุดท้ายจึงบรรลุทั้งการเร่งความเร็วการฝึกฝนและการรักษาประสิทธิภาพ เป็นทางออกที่มีประสิทธิภาพสำหรับการฝึกฝน MLLMs ขนาดใหญ่

ศูนย์ ปัญหาสำคัญ

ปัญหาที่หนึ่ง: ตัวแยกโหมด: เป็นวิธีแก้ปัญหาพื้นฐานหรือเป็นการปกปิดพฤติกรรม?

DualSpeed ใช้ “ตัวแยกโหมด” เพื่อสลับระหว่างโหมดเร็วและช้า แต่ กลไกนี้โดยพื้นฐานแล้วอาศัยคำนำหน้าแบบนุ่มที่เรียนรู้ได้เพื่อชี้นำโมเดลให้ตอบสนองต่อความยาวอินพุตที่ต่างกัน นี่หมายความว่าโมเดลเพียงแค่เรียนรู้ที่จะ “สลับพฤติกรรม” ตามการมีอยู่หรือไม่มีของคำนำหน้า แทนที่จะเรียนรู้การแสดงลักษณะภายในที่สามารถประมวลผลลำดับที่ถูกตัดแต่งและลำดับเต็มรูปแบบได้จริงหรือไม่? หากลบตัวแยกโหมดออก โมเดลจะยังคงความสามารถในการให้เหตุผลกับลำดับเต็มรูปแบบได้หรือไม่? สิ่งนี้สะท้อนว่าวิธีการแก้ปัญหาความไม่ตรงกันระหว่างการฝึกฝนและการอนุมานได้จริง หรือเพียงแค่ใช้สัญญาณภายนอกปกปิดปัญหา

ตัวแยกโหมด: “นั่งร้าน” ในการฝึกฝน และตัวเลือกได้ในการอนุมาน

ตัวแยกโหมดเป็นหนึ่งในการออกแบบหลักของกรอบ DualSpeed ผ่านคำนำหน้าแบบนุ่มที่เรียนรู้ได้ มันชี้นำโมเดลให้เปิดใช้งาน “โหมดรับรู้เร็ว” เมื่อประมวลผล ลำดับที่ถูกตัดแต่ง และไม่ใช้คำนำหน้านี้เมื่อประมวลผล ลำดับเต็มรูปแบบ เพื่อสลับไปยังโหมดอื่น จากกลไก มันเทียบเท่ากับการให้ “สัญญาณสวิตช์” ที่แยกประเภทอินพุตจากภายนอกโมเดล

อย่างไรก็ตาม การทดลองแสดงให้เห็นว่า หาก ลบตัวแยกโหมดออกทั้งหมด ในการอนุมาน ประสิทธิภาพของโมเดลบนลำดับเต็มรูปแบบจะไม่ได้รับผลกระทบเกือบทั้งหมด (99.61%) และประสิทธิภาพบนลำดับที่ถูกตัดแต่งก็ลดลงเพียงเล็กน้อย (จาก 98.12% เป็น 98.10%) นี่แสดงว่า:

โมเดลได้ทำให้ความเข้าใจที่แข็งแกร่งต่อลำดับเต็มรูปแบบเป็นส่วนภายใน ความสามารถหลักไม่ขึ้นกับคำแนะนำภายนอก
ตัวแยกโหมดในการฝึกฝนทำหน้าที่เป็น “นั่งร้าน” เป็นหลัก ช่วยให้โมเดลแยกแยะการกระจายตัวของอินพุตสองประเภทได้ชัดเจน ป้องกันการสับสนในการเรียนรู้ แต่ตัวมันเองไม่ใช่สิ่งจำเป็นในการอนุมาน

ดังนั้น DualSpeed ไม่ใช่แค่การปกปิดปัญหา แต่ ผ่านการชี้นำการฝึกฝนที่มีโครงสร้าง ทำให้โมเดลสามารถจัดการความสามารถในการประมวลผลทั้งสองโหมดได้พร้อมกัน และสุดท้ายทำให้กลายเป็นการแสดงลักษณะที่เป็นเอกภาพ การที่ประสิทธิภาพยังคงอยู่หลังจากลบตัวแยกโหมดออก เป็นหลักฐานเชิงประจักษ์ว่าวิธีนี้แก้ปัญหาความไม่ตรงกันระหว่างการฝึกฝนและการอนุมานได้สำเร็จ

การสำรวจความเป็นสากล: ขอบเขตของสถาปัตยกรรมและงาน

การทดลองในบทความวิจัยส่วนใหญ่ยึดตามโมเดลตระกูล LLaVA (ตัวเข้ารหัสภาพคือ CLIP-ViT) เพื่อยืนยันประสิทธิผลของ DualSpeed ในรูปแบบภาพ คำถามธรรมชาติคือ: วิธีการนี้ มีความเป็นสากลที่กว้างขวางกว่าหรือไม่? ตัวอย่างเช่น เมื่อเปลี่ยนเป็นตัวเข้ารหัสภาพที่มีสถาปัตยกรรมต่างกัน (เช่น DETR ที่ใช้การสืบค้นวัตถุ หรือ Swin Transformer ที่ใช้กลไกความสนใจแบบหน้าต่างลำดับชั้น) หรือโปรเจคเตอร์หลายรูปแบบที่ซับซ้อนมากขึ้น กลไกความร่วมมือของโหมดเร็ว-ช้าและการเรียนรู้จากตัวเองยังคงมีประสิทธิภาพหรือไม่? โดยเฉพาะในงานที่มีพลวัตสูง เช่น การทำความเข้าใจวิดีโอ รูปแบบความซ้ำซ้อนของโทเค็นภาพในมิติเวลาและพื้นที่แตกต่างจากภาพอย่างมีนัยสำคัญ การออกแบบกลยุทธ์การตัดแต่งและตัวแยกโหมดของ DualSpeed จำเป็นต้องปรับเปลี่ยนหรือไม่?

จากการวิเคราะห์หลักการ ความเป็นสากลสามารถสำรวจได้จากสองมิติ:

| มิติ | การวิเคราะห์เนื้อหา |
| :— | :— |
| ความแตกต่างของตัวเข้ารหัสภาพ | หากเปลี่ยนเป็นตัวเข้ารหัสเช่น DETR หรือ Swin Transformer วิธีการสร้างโทเค็นและรูปแบบความซ้ำซ้อนเชิงพื้นที่อาจแตกต่างจาก ViT มาตรฐาน เกณฑ์การตัดแต่งโทเค็นที่ DualSpeed อาศัย (เช่น เกณฑ์ตามความหลากหลาย) อาจต้องปรับให้เหมาะกับการกระจายตัวลักษณะของตัวเข้ารหัสที่ต่างกัน แต่ กรอบการฝึกฝนแบบสองโหมดเร็ว-ช้าเองมีความสามารถในการถ่ายโอน |
| ความสามารถในการขยายงาน | ในงานเช่น การทำความเข้าใจวิดีโอ โทเค็นภาพมีความซ้ำซ้อนทั้งในมิติเวลาและพื้นที่ กลยุทธ์การตัดแต่งในปัจจุบันเน้นที่มิติพื้นที่เป็นหลัก หากต้องการขยายไปยังสาขาวิดีโอ จำเป็นต้องพิจารณาการตัดแต่งในมิติเวลา (เช่น การตัดแต่งโทเค็นข้ามเฟรม) ในขณะเดียวกัน ตัวแยกโหมดอาจต้องเสริมเพื่อแยกแยะบริบทเวลาและพื้นที่ อย่างไรก็ตาม แนวคิดหลักของการฝึกฝนแบบสองโหมดและการเรียนรู้จากตัวเองยังคงมีคุณค่าในการชี้นำ เพียงแต่ต้องปรับเปลี่ยนตามโครงสร้างเวลา |

โดยสรุป แนวคิดหลักของ DualSpeed – การฝึกฝนแบบสองโหมดเพื่อให้ได้ทั้งประสิทธิภาพและความสอดคล้องของประสิทธิภาพ – ไม่ขึ้นกับสถาปัตยกรรม แต่ส่วนประกอบการนำไปใช้เฉพาะ (เช่น เกณฑ์การตัดแต่ง การออกแบบตัวแยกโหมด) จำเป็นต้องปรับให้เหมาะกับลักษณะโทเค็นของตัวเข้ารหัสภาพและความต้องการของงาน ในอนาคตจำเป็นต้องมีการยืนยันอย่างเป็นระบบบนสถาปัตยกรรมมากขึ้น (เช่น Video-LLaMA, InternVL) และงานที่มีพลวัต เพื่อประเมินความเป็นสากลอย่างครอบคลุม

หนึ่ง คอขวดประสิทธิภาพการฝึกฝน MLLM และศักยภาพของการตัดแต่งโทเค็นภาพ

1.1 สถาปัตยกรรมพื้นฐานของโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ

โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบมักประกอบด้วยส่วนประกอบหลักสามส่วน:

ตัวเข้ารหัสภาพ: แปลงอินพุตภาพดั้งเดิม (เช่น ภาพ เฟรมวิดีโอ) เป็นลำดับโทเค็นภาพ
โปรเจคเตอร์หลายรูปแบบ: แมปโทเค็นภาพไปยังพื้นที่คุณลักษณะข้อความ
โมเดลภาษาขนาดใหญ่: ประมวลผลโทเค็นภาพและข้อความอย่างเป็นเอกภาพ ดำเนินงานความเข้าใจข้ามรูปแบบและการสร้าง

ตัวอย่างเช่น LLaVA-1.5 ใช้ CLIP-ViT-L/14 เป็นตัวเข้ารหัสภาพ แปลงภาพความละเอียด 336×336 เป็นโทเค็นภาพ 576 โทเค็น ส่วนโมเดลความละเอียดสูงเช่น LLaVA-NeXT สามารถสร้างโทเค็นภาพได้มากถึง 2880 โทเค็นต่อภาพ โทเค็นภาพเหล่านี้เมื่อรวมกับกลไกความสนใจตนเองของโมเดลภาษาขนาดใหญ่ จะสร้างความซับซ้อนในการคำนวณ O(n²) โดยที่ n คือจำนวนโทเค็นทั้งหมด

1.2 ปัญหาความซ้ำซ้อนของโทเค็นภาพ

งานวิจัยแสดงว่าโทเค็นภาพทั้งหมดไม่สำคัญต่อความเข้าใจหลายรูปแบบ โทเค็นจำนวนมากสอดคล้องกับพื้นที่ที่ซ้ำซ้อนหรือมีข้อมูลต่ำ เช่น:

พื้นหลังที่สม่ำเสมอ
พื้นผิวที่ซ้ำกัน
พื้นที่รายละเอียดที่ไม่เกี่ยวข้อง

โทเค็นที่ซ้ำซ้อนเหล่านี้ไม่เพียงเพิ่มภาระการคำนวณ แต่ยังอาจนำเสียงรบกวนเข้ามา ซึ่งส่งผลต่อประสิทธิภาพการเรียนรู้ของโมเดล เทคโนโลยีการตัดแต่งโทเค็นภาพพัฒนาขึ้นจากความเข้าใจนี้ มัน ระบุและลบโทเค็นที่ซ้ำซ้อนแบบไดนามิก ทำให้เพิ่มประสิทธิภาพได้อย่างมีนัยสำคัญในขั้นตอนการอนุมาน

1.3 ความท้าทายของความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน

แม้ว่า VTP จะแสดงผลดีในขั้นตอนการอนุมาน แต่การนำไปใช้โดยตรงในขั้นตอนการฝึกฝนกลับเผชิญกับความท้าทายพื้นฐาน: ความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน กล่าวคือ เมื่อโมเดลได้รับการฝึกฝนเฉพาะบนลำดับภาพที่ถูกตัดแต่ง มันจะยากที่จะให้เหตุผลอย่างมีประสิทธิภาพบนลำดับภาพเต็มรูปแบบที่ไม่ได้ถูกตัดแต่ง

ความไม่ตรงกันนี้อาจมาจากความแตกต่างหลายด้าน:

ความแตกต่างของความยาวลำดับ: ลำดับที่ถูกตัดแต่งสั้นกว่าลำดับเต็มรูปแบบมาก
ความแตกต่างของความหนาแน่นข้อมูล: ลำดับที่ถูกตัดแต่งมีความหนาแน่นข้อมูลสูงกว่า
ความแตกต่างของโครงสร้างพื้นที่: การตัดแต่งอาจทำลายความสัมพันธ์ทางทอพอโลยีดั้งเดิม

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%
รูปที่ 2 | แผนภาพแสดงช่องว่างประสิทธิภาพที่เกิดจากความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน ตามทฤษฎี เนื่องจากการตัดแต่งทำให้สู

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23026

การตัดแต่งโทเค็นภาพ การฝึกอบรมที่มีประสิทธิภาพ การฝึกอบรมแบบคู่ความสอดคล้องระหว่างการฝึกอบรมและการอนุมาน โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ

Like (0)

0 0

Generate poster

การวิเคราะห์เชิงลึกของ Ultraman: OpenClaw นำแนวโน้มระยะยาว, Codex อาจกลายเป็นผลิตภัณฑ์หลักอันดับสามของ OpenAI, เปิดเผยความขัดแย้งที่ซ่อนเร้นสี่ประการในยุค AI
Previous 2026年2月5日 pm7:07

การวิเคราะห์เชิงลึกเกี่ยวกับสวิตช์ CPO ของ NVIDIA: ก้าวข้ามข้อจำกัดด้านพลังประมวลผล AI และนำการปฏิวัติการเชื่อมต่อโรงงาน AI ระดับกิกะวัตต์
Next 2026年2月6日 am6:47

相关推荐

การวิเคราะห์เชิงลึกของ Ultraman: OpenClaw นำแนวโน้มระยะยาว, Codex อาจกลายเป็นผลิตภัณฑ์หลักอันดับสามของ OpenAI, เปิดเผยความขัดแย้งที่ซ่อนเร้นสี่ประการในยุค AI

เมื่อเร็วๆ นี้ ซาม อัลต์แมน (Sam Altman) CEO ของ OpenAI และ Jeetu Patel ประธานและหัวหน้าเจ้าหน้าที่ฝ่ายผลิตภัณฑ์ของ Cisco ได้ร่วมสนทนาอย่างลึกซึ้งในงาน Cisco AI Summit ในการสนทนานี…

ข่าวสารอุตสาหกรรม AI 2026年2月5日
192000

ข่าวสารอุตสาหกรรม AI

Sunday Robotics ได้รับเงินลงทุน 165 ล้านดอลลาร์ในรอบ Series B มูลค่าการประเมิน 1.15 หมื่นล้านดอลลาร์กลายเป็นยูนิคอร์น ตั้งเป้านำหุ่นยนต์จากสาธิตสู่ครัวเรือนจริง

Sunday Robotics ระดมทุนรอบ B 1.65 พันล้านดอลลาร์ มูลค่าบริษัทแตะ 11.5 พันล้านดอลลาร์ บริษัทหุ่นยนต์ Sunday Robotics ก่อตั้งโดยนักวิจัยด้าน Embodied AI จากมหาวิทยาลัยสแตนฟอร์ด จ้าว …

2026年3月13日
167000

ข่าวสารอุตสาหกรรม AI

คลื่น AI ปลดคนงานมาแล้ว: ยักษ์ใหญ่เทคโนโลยีใช้เครื่องจักรแทนมนุษย์ในปี 2026, Oracle, Amazon, Block ปลดพนักงานนับหมื่น, AI เขียนสูตรการจ้างงานใหม่ให้บริษัท

รายงานโดย XinZhiYuanบรรณาธิการ: KingHZ 【บทนำ XinZhiYuan】 คลื่นการปลดพนักงานต้นปี 2026 มีรากเหง้าไม่ใช่จากวัฏจักรเศรษฐกิจหรือตลาดที่ชะลอตัว แต่เป็นการเปลี่ยนแปลงที่พื้นฐานกว่านั้น: …

2026年3月25日
153000

ข่าวสารอุตสาหกรรม AI

ผู้ก่อตั้ง OpenClaw เข้าร่วม OpenAI: จากข้อพิพาทเครื่องหมายการค้าสู่การปฏิวัติเอเจนต์ AI การสั่นสะเทือนในอุตสาหกรรมที่เกิดจาก ‘ความผิดพลาดระดับยุคสมัย’

ทั่วทั้งอินเทอร์เน็ตเรียกเหตุการณ์นี้ว่า “ความผิดพลาดระดับยุคสมัย” แซม อัลต์แมน และ ปีเตอร์ สไตน์เบอร์เกอร์ ปีเตอร์ สไตน์เบอร์เกอร์ ผู้สร้างเอเจนต์อัจฉริยะระดับปรากฏการ…

2026年2月24日
228000

ข่าวสารอุตสาหกรรม AI

ทำลายขีดจำกัดล้านบริบท: โครงสร้างความสนใจแบบผสม SALA ของ FaceWall AI นำยุคใหม่ของโมเดลขนาดใหญ่บนอุปกรณ์ปลายทาง

โมเดลภาษาขนาดใหญ่ที่ทรงพลังที่สุด ได้นำการปรับขนาด (scaling) ไปสู่มิติใหม่: บริบทระดับล้านโทเค็น ไม่กี่วันก่อน Claude Opus 4.6 เปิดตัว ทำให้ผู้คนได้สัมผัสถึงความสามารถที่เกิดขึ้นจร…

2026年2月11日
182000