ทรานส์ฟอร์เมอร์

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด ความสำเร็จของสถาปัตยกรรม Transformer…

2026年3月24日

176000

ข่าวสารอุตสาหกรรม AI

นักเขียนด้านเทคโนโลยี AI Sebastian Raschka เปิดตัวแกลเลอรีสถาปัตยกรรม LLM และคู่มือการแสดงภาพรูปแบบความสนใจ (Attention) ชุมชน AI ให้ความสนใจอย่างสูง

นักเขียนด้านเทคโนโลยี AI ชื่อดัง Sebastian Raschka ได้เผยแพร่ “แกลเลอรีสถาปัตยกรรม LLM” เมื่อเร็วๆ นี้ ซึ่งได้รับความสนใจและคำชมเชยอย่างกว้างขวางในชุมชน AI รูปที่ 1: แก…

2026年3月23日

172000

วิศวกรรมโมเดลขนาดใหญ่

นักวิจัย MIT สร้างคอมพิวเตอร์ภายใน Transformer! LLM หมดยุคคำนวณผิดพลาด รันโปรแกรมล้านขั้นตอนในไม่กี่วินาที

การสร้างคอมพิวเตอร์ภายใน Transformer: ฝ่าขีดจำกัดการคำนวณของโมเดลขนาดใหญ่ บทนำเมื่อเร็วๆ นี้ งานวิจัยจาก Dr. Christos Tzamos แห่ง MIT และทีมของเขา ได้ดึงดูดความสนใจอย่างกว้างขวางใน…

2026年3月21日

192000

การอนุมานโมเดลขนาดใหญ่

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า

Transformer มีคอมพิวเตอร์ในตัว! Karpathy ชื่นชม ประสิทธิภาพการคำนวณแม่นยำของโมเดลขนาดใหญ่เพิ่มขึ้น 200 เท่า ปัจจุบันโมเดลภาษาขนาดใหญ่แสดงผลลัพธ์ดีเยี่ยมในงานอนุมาน แต่ในงานคำนวณแม่…

2026年3月17日

205000

วิศวกรรมโมเดลขนาดใหญ่

ทีมงานจาก Harbin Institute of Technology, Shenzhen (HITsz) ทำลายข้อจำกัดของ Linear Attention! การแยก Norm×Direction ช่วยให้ความแม่นยำในการทำงานด้านวิสัยทัศน์แซงหน้าอย่างสมบูรณ์ และลดการใช้หน่วยความจำในการทำงาน Super-Resolution 70K+ token ได้ถึง 92.3%

ข้อมูลผู้เขียนผู้เขียนคนแรกของบทความนี้คือ เหมิง เว่ยคัง นักศึกษาปริญญาเอกที่เรียนร่วมระหว่างมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) และห้องปฏิบัติการ Peng Cheng สำเร็จการศึกษาระดั…

2026年3月15日

193000

วิศวกรรมโมเดลขนาดใหญ่

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%

การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transforme…

2026年3月14日

188000

วิศวกรรมโมเดลขนาดใหญ่

จาก Dynamic Computation ไปสู่ Static Lookup: STEM ปรับโครงสร้างกลไกความจำของ Transformer อย่างไร

ในช่วงไม่กี่ปีที่ผ่านมา ด้วยการเพิ่มขึ้นอย่างต่อเนื่องของขนาดและความหนาแน่นของความรู้ในโมเดลภาษาขนาดใหญ่ นักวิจัยเริ่มกลับมาคิดทบทวนถึงปัญหาพื้นฐานที่สำคัญยิ่งขึ้น: พารามิเตอร์ในโม…

2026年3月9日

198000

การฝึกโมเดลขนาดใหญ่

FlashAttention-4 เปิดตัวอย่างน่าตื่นเต้น: ความเร็วของกลไกความสนใจบน GPU Blackwell เทียบเท่ากับการคูณเมทริกซ์ เพิ่มประสิทธิภาพสูงสุดถึง 2.7 เท่า

หลังจากพัฒนามาเป็นเวลาหนึ่งปี FlashAttention-4 ได้เปิดตัวอย่างเป็นทางการแล้ว ในฐานะเทคโนโลยีการปรับปรุงประสิทธิภาพระดับล่างที่สำคัญในสาขา Deep Learning FlashAttention ได้รับการอัปเ…

2026年3月6日

232000