ข้อมูลผู้เขียน
ผู้เขียนคนแรกของบทความนี้คือ เหมิง เว่ยคัง นักศึกษาปริญญาเอกที่เรียนร่วมระหว่างมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) และห้องปฏิบัติการ Peng Cheng สำเร็จการศึกษาระดับปริญญาตรีจากมหาวิทยาลัยเทคโนโลยีฮาร์บิน สาขาวิจัยหลักคือโมเดลพื้นฐานประสิทธิภาพสูง ผู้เขียนติดต่อศาสตราจารย์จาง เจิ้ง เป็นศาสตราจารย์ประจำและอาจารย์ที่ปรึกษาปริญญาเอกของมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) นักวิชาการเยาวชนฉางเจียงของกระทรวงศึกษาธิการ มุ่งมั่นวิจัยการเรียนรู้ของเครื่องหลายรูปแบบประสิทธิภาพสูงมาอย่างยาวนาน โดยเน้นที่โมเดลขนาดใหญ่หลายรูปแบบที่มีประสิทธิภาพและน่าเชื่อถือ
ภูมิหลังการวิจัย
ด้วยการประยุกต์ใช้ Transformer อย่างกว้างขวางในสาขาวิสัยทัศน์คอมพิวเตอร์ ปัญหาคอขวดด้านพลังการคำนวณและหน่วยความจำกราฟิกเมื่อต้องจัดการกับภาพความละเอียดสูงและงานลำดับยาวมากก็เด่นชัดขึ้นเรื่อยๆ กลไกความสนใจ Softmax มาตรฐานมีความซับซ้อนแบบกำลังสอง ส่งผลให้การใช้หน่วยความจำกราฟิกพุ่งสูงขึ้นอย่างมากเมื่อประมวลผลงานซูเปอร์เรโซลูชันที่มีโทเคนเกิน 70,000 โทเคน และความล่าช้าในการอนุมานของงานต่างๆ เช่น การแบ่งส่วนภาพความละเอียดสูง การตรวจจับ ก็ยังคงสูงอยู่
กลไกความสนใจเชิงเส้นบรรลุความซับซ้อนเชิงเส้นผ่านการปรับโครงสร้างฟังก์ชันเคอร์เนล ทฤษฎีแล้วสามารถลดต้นทุนการคำนวณได้อย่างมีนัยสำคัญ แต่ประสิทธิภาพของมันยังคงมีปัญหาการลดลงเสมอ ทำให้ยากที่จะเทียบเคียงความแม่นยำกับความสนใจ Softmax แบบดั้งเดิม
ผลลัพธ์หลัก
เมื่อไม่นานมานี้ ทีมงานของศาสตราจารย์จาง เจิ้ง จากมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) ร่วมกับสถาบันต่างๆ เช่น ห้องปฏิบัติการ Peng Cheng และมหาวิทยาลัยควีนส์แลนด์ ได้เสนอกรอบงาน NaLaFormer (Norm-aware Linear Attention Transformer) ในบทความวิจัยเรื่อง “Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention” งานวิจัยนี้ผ่านการแยกตัวประกอบ “ความยาว-ทิศทาง” ได้ระบุและแก้ไขข้อบกพร่องหลักสองประการของความสนใจเชิงเส้นได้อย่างแม่นยำ ในขณะที่รักษาความซับซ้อนเชิงเส้นไว้ ก็สามารถบรรลุความแม่นยำที่เหนือกว่าในงานด้านวิสัยทัศน์หลายงาน และในงานซูเปอร์เรโซลูชันที่มีโทเคนเกิน 70,000 โทเคน ก็สามารถลดการใช้หน่วยความจำกราฟิกสูงสุดได้ 92.3%

- ชื่อบทความ: Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention
- ลิงก์บทความ: https://arxiv.org/pdf/2506.21137
- ผู้เขียนหลัก: Weikang Meng, Yadan Luo, Liangyu Huo, Yingjian Li, Yaowei Wang, Xin Li, Zheng Zhang
การวิเคราะห์ปัญหา: ข้อบกพร่องหลักสองประการของความสนใจเชิงเส้น
การวิจัยนี้เปิดเผยอย่างเป็นระบบถึงสองสาเหตุหลักที่ทำให้ประสิทธิภาพของโซลูชันความสนใจเชิงเส้นที่มีอยู่ไม่เพียงพอ:
-
ความยาวของเวกเตอร์คำถามถูกหักล้าง การสูญเสียความแหลมคมของความสนใจ
ในความสนใจ Softmax ความยาวของเวกเตอร์คำถามมีความสัมพันธ์เชิงลบอย่างมากกับเอนโทรปีของการกระจายความสนใจ – ยิ่งความยาวมาก การกระจายความสนใจก็ยิ่งแหลมคมมากขึ้น โมเดลก็ยิ่งสามารถโฟกัสไปที่ข้อมูลสำคัญได้มากขึ้น อย่างไรก็ตาม การดำเนินการทำให้เป็นมาตรฐานในความสนใจเชิงเส้นแบบดั้งเดิมจะหักล้างผลกระทบของความยาวเวกเตอร์คำถาม ส่งผลให้การกระจายความสนใจเรียบเกินไป และความสามารถในการแสดงลักษณะลดลง

รูปที่ 1: ในความสนใจ Softmax ความยาวของเวกเตอร์คำถามมีความสัมพันธ์เชิงลบอย่างมากกับเอนโทรปีของความสนใจ -
ข้อจำกัดแบบไม่เป็นลบทำให้สูญเสียข้อมูล
เพื่อให้แน่ใจว่าคะแนนความสนใจสามารถตีความได้ว่าเป็นการกระจายความน่าจะเป็น ฟังก์ชันเคอร์เนลของความสนใจเชิงเส้นต้องเป็นแบบไม่เป็นลบ วิธีการที่มีอยู่มักใช้ฟังก์ชันกระตุ้นเช่น ReLU, 1+ELU เพื่อลบค่าลบโดยตรง แต่สิ่งนี้ทำให้สูญเสียข้อมูลความสัมพันธ์เชิงความหมายเชิงลบในคู่คำถาม-ค่าคีย์ ทำให้การแสดงความคล้ายคลึงกันเบาบางและขาดความละเอียด

รูปที่ 2: การเปรียบเทียบการมีส่วนร่วมของดอทโปรดัคของกลยุทธ์การทำให้ไม่เป็นลบต่างๆ วิธีการแบบดั้งเดิมสูญเสียข้อมูลความแหลมคมและความละเอียดของการกระจายแบบดั้งเดิม
โซลูชัน: การแยกตัวประกอบ Norm×Direction
เพื่อแก้ไขข้อบกพร่องดังกล่าว ทีมวิจัยได้เสนอโซลูชันที่อิงจากการแยกตัวประกอบ “ความยาว-ทิศทาง” โดยแยกความยาวของเวกเตอร์ (แสดงถึงความสำคัญของข้อมูล) ออกจากทิศทาง (เข้ารหัสข้อมูลความหมาย) และแก้ไขปัญหาแต่ละด้านอย่างตรงเป้าหมาย
-
การแมปคุณลักษณะที่รับรู้ความยาวของคำถาม
ผ่านการปรับโครงสร้างทางคณิตศาสตร์ ทีมงานได้ระบุขั้นตอนที่ความยาวของคำถามถูกหักล้าง และออกแบบการแมปคุณลักษณะที่รับรู้ความยาวของคำถาม โดยเข้ารหัสความยาวของคำถามลงในฟังก์ชันเคอร์เนลอย่างชัดเจน ผ่านฟังก์ชันทำให้แหลมคมที่ขึ้นอยู่กับความยาวเพื่อควบคุมเอนโทรปีของการกระจายความสนใจแบบไดนามิก สำเร็จในการสร้างคุณลักษณะหลักของความสนใจ Softmax ที่ว่า “ยิ่งความยาวของคำถามมาก ความสนใจก็ยิ่งแหลมคม” ขึ้นมาใหม่


-
กลไกความคล้ายคลึงเชิงโคไซน์ของทิศทาง
เพื่อแก้ไขปัญหาการสูญเสียข้อมูลภายใต้ข้อจำกัดแบบไม่เป็นลบ ทีมงานได้เสนอกลไกความคล้ายคลึงเชิงโคไซน์ของทิศทางโดยอิงจากการแปลงทางเรขาคณิต ผ่านการแมปเวกเตอร์สองมิติและการปรับขนาดเฉพาะบนองค์ประกอบทิศทาง ในขณะที่รับประกันว่าผลลัพธ์ดอทโปรดัคไม่เป็นลบ ก็ยังคงรักษาข้อมูลการโต้ตอบทิศทางที่ละเอียดระหว่างเวกเตอร์ดั้งเดิมไว้อย่างครบถ้วน บรรลุข้อจำกัดการทำให้ไม่เป็นลบแบบไม่สูญเสียข้อมูล


-
สถาปัตยกรรม NaLaFormer ที่เป็นเอกภาพ
ด้วยการรวมสองนวัตกรรมข้างต้น ทีมงานได้สร้างสถาปัตยกรรม NaLaFormer แบบ end-to-end สถาปัตยกรรมนี้ผสานโมดูลความสนใจเชิงเส้นที่รับรู้ความยาวกับกลไกเกทอย่างลึกซึ้ง และสามารถแทนที่โมดูลความสนใจใน Vision Transformer ที่มีอยู่ได้โดยตรง

รูปที่ 3: โครงสร้างโดยรวมและกลไกหลักของ NaLaFormer
สูตรผลลัพธ์ความสนใจสุดท้ายรวบรวมการรับรู้ความยาวและการแมปทิศทางโคไซน์



ผลการทดลอง
-
งานจัดประเภทภาพ (ImageNet-1K)
NaLaFormer มีความเหนือกว่าอย่างสมบูรณ์เหนือโมเดลความสนใจเชิงเส้นที่มีอยู่ในเกณฑ์มาตรฐานการจัดประเภท ImageNet-1K ในนั้น NaLaFormer-XT ขนาดเล็กใช้พารามิเตอร์เพียง 8M ก็บรรลุความแม่นยำ Top-1 ที่ 79.1%; NaLaFormer-L ขนาดใหญ่ด้วยพารามิเตอร์ 95M บรรลุความแม่นยำ Top-1 ที่ 85.7%

-
งานทำนายแบบหนาแน่น
ในงานทำนายแบบหนาแน่น เช่น การตรวจจับวัตถุ การแบ่งส่วนอินสแตนซ์ NaLaFormer ก็ยังคงได้ประสิทธิภาพนำหน้าในโมเดลระดับพารามิเตอร์เดียวกัน
ในงานทำนายแบบหนาแน่น เช่น การตรวจจับวัตถุ COCO การแบ่งส่วนความหมาย ADE20K/CityScapes NaLaFormer แสดงความสามารถในการแสดงลักษณะที่ละเอียดอย่างมาก ในชุดข้อมูล COCO NaLaFormer-T ที่อิงบนเฟรมเวิร์ก Mask R-CNN บรรลุ AP ของกล่องขอบเขตที่ 47.6% และ AP ของมาสก์ที่ 43.0% เหนือกว่าโครงข่ายประสาทแนวหลัก Vision Transformer แบบคลาสสิกในระดับเดียวกันอย่างสมบูรณ์ ในงานแบ่งส่วนความหมาย ADE20K การเพิ่มสูงสุดเมื่อเทียบกับโมเดลฐานระดับเดียวกันสูงถึง 4.7% mIoU; ในงานแบ่งส่วนฉากเมือง CityScapes ก็ทำคะแนนนำหน้าโมเดลขนาดเดียวกันด้วย 82.5% mIoU

ซูเปอร์เรโซลูชัน: ลดหน่วยความจำกราฟิกสูงสุด 92.3% ที่โทเคน 70K+
เมื่อประมวลผลงานซูเปอร์เรโซลูชันความละเอียดสูงที่มีโทเคนสูงถึง 70K+ ขึ้นไป ข้อได้เปรียบด้านความซับซ้อนเชิงเส้นของ NaLaFormer ได้รับการใช้ประโยชน์อย่างเต็มที่ ในขณะที่รักษาความแม่นยำในการสร้างใหม่ให้เท่าเทียมกับโซลูชันหลัก มันสามารถลดความล่าช้าในการอนุมานลง 36.4% ในงานซูเปอร์เรโซลูชัน 4× บนชุดข้อมูล Urban100 การใช้หน่วยความจำกราฟิกสูงสุดลดลงอย่างมากจาก 69GB เหลือ 5.3GB ซึ่งลดลงสูงถึง 92.3% แก้ไขปัญหาคอขวดหน่วยความจำกราฟิกในงานวิสัยทัศน์ความละเอียดสูงได้อย่างมีประสิทธิภาพ


ความสามารถลำดับยาวและข้ามรูปแบบ: รีเฟรชเกณฑ์มาตรฐาน LRA ประสิทธิภาพดีเยี่ยมในการสร้างแบบจำลองภาษา
ทีมวิจัยได้ตรวจสอบความสามารถในการสรุปข้ามรูปแบบและการสร้างแบบจำลองลำดับยาวของ NaLaFormer เพิ่มเติม บนเกณฑ์มาตรฐานการสร้างแบบจำลองลำดับยาว Long Range Arena (LRA) NaLaFormer บรรลุความแม่นยำเฉลี่ย 61.2% รีเฟรชสถิติที่ดีที่สุดของโมเดลความสนใจเชิงเส้น ในขณะที่รักษา throughput สูงที่ 827.7 และการใช้หน่วยความจำกราฟิกที่ต่ำมาก นอกจากนี้ โมเดลภาษาขนาด 340 ล้านพารามิเตอร์ที่ฝึกจากศูนย์ ในงานการให้เหตุผลตามสามัญสำนึก คะแนนเฉลี่ยของมันเหนือกว่าโมเดลฐานที่แข็งแกร่งเช่น Mamba, RetNet, GLA ซึ่งพิสูจน์ความสามารถในการปรับตัวที่แข็งแกร่งของสถาปัตยกรรมนี้ในรูปแบบภาษา

การสร้างแบบแพร่กระจาย: ประสิทธิภาพเพิ่มขึ้นในเฟรมเวิร์ก DiT/SiT
ทีมงานยังได้ตรวจสอบความสามารถในการสร้างแบบจำลองการสร้างของ NaLaFormer ในเฟรมเวิร์ก Diffusion Transformer (DiT) อีกด้วย ในงานสร้างภาพ ImageNet-1K 256×256 หลังจากเปลี่ยนโมดูลความสนใจดั้งเดิมเป็น NaLaFormer:
* NaLaDiT: เมื่อเทียบกับ DiT เวอร์ชันดั้งเดิม FID ลดจาก 68.40 เป็น 61.64, IS เพิ่มเป็น 23.24 คุณภาพการสร้างได้รับการปรับปรุงอย่างมั่นคง
* NaLaSiT: ในตัวแปร SiT, FID ต่ำถึง 53.08, sFID เป็น 8.94, IS ถึง 27.63 บรรลุการสร้างภาพที่มีประสิทธิภาพโดยอิงบนสถาปัตยกรรม SiT


การแสดงภาพภาพที่สร้างโดย NaLaDiT
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25769
