ทีมงานจาก Harbin Institute of Technology, Shenzhen (HITsz) ทำลายข้อจำกัดของ Linear Attention! การแยก Norm×Direction ช่วยให้ความแม่นยำในการทำงานด้านวิสัยทัศน์แซงหน้าอย่างสมบูรณ์ และลดการใช้หน่วยความจำในการทำงาน Super-Resolution 70K+ token ได้ถึง 92.3%

1 day ago • วิศวกรรมโมเดลขนาดใหญ่ • 29 views

ข้อมูลผู้เขียน
ผู้เขียนคนแรกของบทความนี้คือ เหมิง เว่ยคัง นักศึกษาปริญญาเอกที่เรียนร่วมระหว่างมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) และห้องปฏิบัติการ Peng Cheng สำเร็จการศึกษาระดับปริญญาตรีจากมหาวิทยาลัยเทคโนโลยีฮาร์บิน สาขาวิจัยหลักคือโมเดลพื้นฐานประสิทธิภาพสูง ผู้เขียนติดต่อศาสตราจารย์จาง เจิ้ง เป็นศาสตราจารย์ประจำและอาจารย์ที่ปรึกษาปริญญาเอกของมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) นักวิชาการเยาวชนฉางเจียงของกระทรวงศึกษาธิการ มุ่งมั่นวิจัยการเรียนรู้ของเครื่องหลายรูปแบบประสิทธิภาพสูงมาอย่างยาวนาน โดยเน้นที่โมเดลขนาดใหญ่หลายรูปแบบที่มีประสิทธิภาพและน่าเชื่อถือ

ภูมิหลังการวิจัย
ด้วยการประยุกต์ใช้ Transformer อย่างกว้างขวางในสาขาวิสัยทัศน์คอมพิวเตอร์ ปัญหาคอขวดด้านพลังการคำนวณและหน่วยความจำกราฟิกเมื่อต้องจัดการกับภาพความละเอียดสูงและงานลำดับยาวมากก็เด่นชัดขึ้นเรื่อยๆ กลไกความสนใจ Softmax มาตรฐานมีความซับซ้อนแบบกำลังสอง ส่งผลให้การใช้หน่วยความจำกราฟิกพุ่งสูงขึ้นอย่างมากเมื่อประมวลผลงานซูเปอร์เรโซลูชันที่มีโทเคนเกิน 70,000 โทเคน และความล่าช้าในการอนุมานของงานต่างๆ เช่น การแบ่งส่วนภาพความละเอียดสูง การตรวจจับ ก็ยังคงสูงอยู่

กลไกความสนใจเชิงเส้นบรรลุความซับซ้อนเชิงเส้นผ่านการปรับโครงสร้างฟังก์ชันเคอร์เนล ทฤษฎีแล้วสามารถลดต้นทุนการคำนวณได้อย่างมีนัยสำคัญ แต่ประสิทธิภาพของมันยังคงมีปัญหาการลดลงเสมอ ทำให้ยากที่จะเทียบเคียงความแม่นยำกับความสนใจ Softmax แบบดั้งเดิม

ผลลัพธ์หลัก
เมื่อไม่นานมานี้ ทีมงานของศาสตราจารย์จาง เจิ้ง จากมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) ร่วมกับสถาบันต่างๆ เช่น ห้องปฏิบัติการ Peng Cheng และมหาวิทยาลัยควีนส์แลนด์ ได้เสนอกรอบงาน NaLaFormer (Norm-aware Linear Attention Transformer) ในบทความวิจัยเรื่อง “Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention” งานวิจัยนี้ผ่านการแยกตัวประกอบ “ความยาว-ทิศทาง” ได้ระบุและแก้ไขข้อบกพร่องหลักสองประการของความสนใจเชิงเส้นได้อย่างแม่นยำ ในขณะที่รักษาความซับซ้อนเชิงเส้นไว้ ก็สามารถบรรลุความแม่นยำที่เหนือกว่าในงานด้านวิสัยทัศน์หลายงาน และในงานซูเปอร์เรโซลูชันที่มีโทเคนเกิน 70,000 โทเคน ก็สามารถลดการใช้หน่วยความจำกราฟิกสูงสุดได้ 92.3%

ทีมงานจาก Harbin Institute of Technology, Shenzhen (HITsz) ทำลายข้อจำกัดของ Linear Attention! การแยก Norm×Direction ช่วยให้ความแม่นยำในการทำงานด้านวิสัยทัศน์แซงหน้าอย่างสมบูรณ์ และลดการใช้หน่วยความจำในการทำงาน Super-Resolution 70K+ token ได้ถึง 92.3%

ชื่อบทความ: Norm×Direction: Restoring the Missing Query Norm in Vision Linear Attention
ลิงก์บทความ: https://arxiv.org/pdf/2506.21137
ผู้เขียนหลัก: Weikang Meng, Yadan Luo, Liangyu Huo, Yingjian Li, Yaowei Wang, Xin Li, Zheng Zhang

การวิเคราะห์ปัญหา: ข้อบกพร่องหลักสองประการของความสนใจเชิงเส้น
การวิจัยนี้เปิดเผยอย่างเป็นระบบถึงสองสาเหตุหลักที่ทำให้ประสิทธิภาพของโซลูชันความสนใจเชิงเส้นที่มีอยู่ไม่เพียงพอ:

ความยาวของเวกเตอร์คำถามถูกหักล้าง การสูญเสียความแหลมคมของความสนใจ
ในความสนใจ Softmax ความยาวของเวกเตอร์คำถามมีความสัมพันธ์เชิงลบอย่างมากกับเอนโทรปีของการกระจายความสนใจ – ยิ่งความยาวมาก การกระจายความสนใจก็ยิ่งแหลมคมมากขึ้น โมเดลก็ยิ่งสามารถโฟกัสไปที่ข้อมูลสำคัญได้มากขึ้น อย่างไรก็ตาม การดำเนินการทำให้เป็นมาตรฐานในความสนใจเชิงเส้นแบบดั้งเดิมจะหักล้างผลกระทบของความยาวเวกเตอร์คำถาม ส่งผลให้การกระจายความสนใจเรียบเกินไป และความสามารถในการแสดงลักษณะลดลง

รูปที่ 1: ในความสนใจ Softmax ความยาวของเวกเตอร์คำถามมีความสัมพันธ์เชิงลบอย่างมากกับเอนโทรปีของความสนใจ
ข้อจำกัดแบบไม่เป็นลบทำให้สูญเสียข้อมูล
เพื่อให้แน่ใจว่าคะแนนความสนใจสามารถตีความได้ว่าเป็นการกระจายความน่าจะเป็น ฟังก์ชันเคอร์เนลของความสนใจเชิงเส้นต้องเป็นแบบไม่เป็นลบ วิธีการที่มีอยู่มักใช้ฟังก์ชันกระตุ้นเช่น ReLU, 1+ELU เพื่อลบค่าลบโดยตรง แต่สิ่งนี้ทำให้สูญเสียข้อมูลความสัมพันธ์เชิงความหมายเชิงลบในคู่คำถาม-ค่าคีย์ ทำให้การแสดงความคล้ายคลึงกันเบาบางและขาดความละเอียด

รูปที่ 2: การเปรียบเทียบการมีส่วนร่วมของดอทโปรดัคของกลยุทธ์การทำให้ไม่เป็นลบต่างๆ วิธีการแบบดั้งเดิมสูญเสียข้อมูลความแหลมคมและความละเอียดของการกระจายแบบดั้งเดิม

โซลูชัน: การแยกตัวประกอบ Norm×Direction
เพื่อแก้ไขข้อบกพร่องดังกล่าว ทีมวิจัยได้เสนอโซลูชันที่อิงจากการแยกตัวประกอบ “ความยาว-ทิศทาง” โดยแยกความยาวของเวกเตอร์ (แสดงถึงความสำคัญของข้อมูล) ออกจากทิศทาง (เข้ารหัสข้อมูลความหมาย) และแก้ไขปัญหาแต่ละด้านอย่างตรงเป้าหมาย

การแมปคุณลักษณะที่รับรู้ความยาวของคำถาม
ผ่านการปรับโครงสร้างทางคณิตศาสตร์ ทีมงานได้ระบุขั้นตอนที่ความยาวของคำถามถูกหักล้าง และออกแบบการแมปคุณลักษณะที่รับรู้ความยาวของคำถาม โดยเข้ารหัสความยาวของคำถามลงในฟังก์ชันเคอร์เนลอย่างชัดเจน ผ่านฟังก์ชันทำให้แหลมคมที่ขึ้นอยู่กับความยาวเพื่อควบคุมเอนโทรปีของการกระจายความสนใจแบบไดนามิก สำเร็จในการสร้างคุณลักษณะหลักของความสนใจ Softmax ที่ว่า “ยิ่งความยาวของคำถามมาก ความสนใจก็ยิ่งแหลมคม” ขึ้นมาใหม่
กลไกความคล้ายคลึงเชิงโคไซน์ของทิศทาง
เพื่อแก้ไขปัญหาการสูญเสียข้อมูลภายใต้ข้อจำกัดแบบไม่เป็นลบ ทีมงานได้เสนอกลไกความคล้ายคลึงเชิงโคไซน์ของทิศทางโดยอิงจากการแปลงทางเรขาคณิต ผ่านการแมปเวกเตอร์สองมิติและการปรับขนาดเฉพาะบนองค์ประกอบทิศทาง ในขณะที่รับประกันว่าผลลัพธ์ดอทโปรดัคไม่เป็นลบ ก็ยังคงรักษาข้อมูลการโต้ตอบทิศทางที่ละเอียดระหว่างเวกเตอร์ดั้งเดิมไว้อย่างครบถ้วน บรรลุข้อจำกัดการทำให้ไม่เป็นลบแบบไม่สูญเสียข้อมูล
สถาปัตยกรรม NaLaFormer ที่เป็นเอกภาพ
ด้วยการรวมสองนวัตกรรมข้างต้น ทีมงานได้สร้างสถาปัตยกรรม NaLaFormer แบบ end-to-end สถาปัตยกรรมนี้ผสานโมดูลความสนใจเชิงเส้นที่รับรู้ความยาวกับกลไกเกทอย่างลึกซึ้ง และสามารถแทนที่โมดูลความสนใจใน Vision Transformer ที่มีอยู่ได้โดยตรง

รูปที่ 3: โครงสร้างโดยรวมและกลไกหลักของ NaLaFormer
สูตรผลลัพธ์ความสนใจสุดท้ายรวบรวมการรับรู้ความยาวและการแมปทิศทางโคไซน์

ผลการทดลอง

งานจัดประเภทภาพ (ImageNet-1K)
NaLaFormer มีความเหนือกว่าอย่างสมบูรณ์เหนือโมเดลความสนใจเชิงเส้นที่มีอยู่ในเกณฑ์มาตรฐานการจัดประเภท ImageNet-1K ในนั้น NaLaFormer-XT ขนาดเล็กใช้พารามิเตอร์เพียง 8M ก็บรรลุความแม่นยำ Top-1 ที่ 79.1%; NaLaFormer-L ขนาดใหญ่ด้วยพารามิเตอร์ 95M บรรลุความแม่นยำ Top-1 ที่ 85.7%
งานทำนายแบบหนาแน่น
ในงานทำนายแบบหนาแน่น เช่น การตรวจจับวัตถุ การแบ่งส่วนอินสแตนซ์ NaLaFormer ก็ยังคงได้ประสิทธิภาพนำหน้าในโมเดลระดับพารามิเตอร์เดียวกัน

ในงานทำนายแบบหนาแน่น เช่น การตรวจจับวัตถุ COCO การแบ่งส่วนความหมาย ADE20K/CityScapes NaLaFormer แสดงความสามารถในการแสดงลักษณะที่ละเอียดอย่างมาก ในชุดข้อมูล COCO NaLaFormer-T ที่อิงบนเฟรมเวิร์ก Mask R-CNN บรรลุ AP ของกล่องขอบเขตที่ 47.6% และ AP ของมาสก์ที่ 43.0% เหนือกว่าโครงข่ายประสาทแนวหลัก Vision Transformer แบบคลาสสิกในระดับเดียวกันอย่างสมบูรณ์ ในงานแบ่งส่วนความหมาย ADE20K การเพิ่มสูงสุดเมื่อเทียบกับโมเดลฐานระดับเดียวกันสูงถึง 4.7% mIoU; ในงานแบ่งส่วนฉากเมือง CityScapes ก็ทำคะแนนนำหน้าโมเดลขนาดเดียวกันด้วย 82.5% mIoU

ซูเปอร์เรโซลูชัน: ลดหน่วยความจำกราฟิกสูงสุด 92.3% ที่โทเคน 70K+

เมื่อประมวลผลงานซูเปอร์เรโซลูชันความละเอียดสูงที่มีโทเคนสูงถึง 70K+ ขึ้นไป ข้อได้เปรียบด้านความซับซ้อนเชิงเส้นของ NaLaFormer ได้รับการใช้ประโยชน์อย่างเต็มที่ ในขณะที่รักษาความแม่นยำในการสร้างใหม่ให้เท่าเทียมกับโซลูชันหลัก มันสามารถลดความล่าช้าในการอนุมานลง 36.4% ในงานซูเปอร์เรโซลูชัน 4× บนชุดข้อมูล Urban100 การใช้หน่วยความจำกราฟิกสูงสุดลดลงอย่างมากจาก 69GB เหลือ 5.3GB ซึ่งลดลงสูงถึง 92.3% แก้ไขปัญหาคอขวดหน่วยความจำกราฟิกในงานวิสัยทัศน์ความละเอียดสูงได้อย่างมีประสิทธิภาพ

ความสามารถลำดับยาวและข้ามรูปแบบ: รีเฟรชเกณฑ์มาตรฐาน LRA ประสิทธิภาพดีเยี่ยมในการสร้างแบบจำลองภาษา

ทีมวิจัยได้ตรวจสอบความสามารถในการสรุปข้ามรูปแบบและการสร้างแบบจำลองลำดับยาวของ NaLaFormer เพิ่มเติม บนเกณฑ์มาตรฐานการสร้างแบบจำลองลำดับยาว Long Range Arena (LRA) NaLaFormer บรรลุความแม่นยำเฉลี่ย 61.2% รีเฟรชสถิติที่ดีที่สุดของโมเดลความสนใจเชิงเส้น ในขณะที่รักษา throughput สูงที่ 827.7 และการใช้หน่วยความจำกราฟิกที่ต่ำมาก นอกจากนี้ โมเดลภาษาขนาด 340 ล้านพารามิเตอร์ที่ฝึกจากศูนย์ ในงานการให้เหตุผลตามสามัญสำนึก คะแนนเฉลี่ยของมันเหนือกว่าโมเดลฐานที่แข็งแกร่งเช่น Mamba, RetNet, GLA ซึ่งพิสูจน์ความสามารถในการปรับตัวที่แข็งแกร่งของสถาปัตยกรรมนี้ในรูปแบบภาษา

การสร้างแบบแพร่กระจาย: ประสิทธิภาพเพิ่มขึ้นในเฟรมเวิร์ก DiT/SiT

ทีมงานยังได้ตรวจสอบความสามารถในการสร้างแบบจำลองการสร้างของ NaLaFormer ในเฟรมเวิร์ก Diffusion Transformer (DiT) อีกด้วย ในงานสร้างภาพ ImageNet-1K 256×256 หลังจากเปลี่ยนโมดูลความสนใจดั้งเดิมเป็น NaLaFormer:
* NaLaDiT: เมื่อเทียบกับ DiT เวอร์ชันดั้งเดิม FID ลดจาก 68.40 เป็น 61.64, IS เพิ่มเป็น 23.24 คุณภาพการสร้างได้รับการปรับปรุงอย่างมั่นคง
* NaLaSiT: ในตัวแปร SiT, FID ต่ำถึง 53.08, sFID เป็น 8.94, IS ถึง 27.63 บรรลุการสร้างภาพที่มีประสิทธิภาพโดยอิงบนสถาปัตยกรรม SiT

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25769

NaLaFormer การคำนวณประสิทธิภาพสูง ความสนใจเชิงเส้น ทรานส์ฟอร์เมอร์โมเดลวิทัศน์ขนาดใหญ่

Like (0)

0 0

ความมหัศจรรย์ทางเทคโนโลยี: วิศวกรไร้พื้นฐานชีววิทยาใช้ AI ออกแบบวัคซีน mRNA ป้องกันมะเร็งให้สุนัขสุดที่รัก เนื้องอกหดลง 50%

Previous 1 day ago

Google DeepMind ร่วมกับ Berkeley เปิดตัว LoGeR: โครงสร้างหน่วยความจำระยะยาวที่ก้าวล้ำ ช่วยให้การสร้างภาพ 3D ข้ามผ่านหลายพันเฟรม

Next 1 day ago

วิศวกรรมโมเดลขนาดใหญ่

Ubuntu 26.04 LTS อัปเกรดครั้งใหญ่: ไดรเวอร์ GPU พร้อมใช้ทันที+การอนุมานแบบ Sandbox เกณฑ์การปรับใช้ AI ในเครื่องลดลงอย่างมาก

Ubuntu รุ่นสนับสนุนระยะยาวถัดไป 26.04 LTS มีแผนที่จะนำการปรับปรุงสำคัญในด้านการติดตั้ง AI แบบท้องถิ่นมาใช้ ตามที่ Jon Seager รองประธานฝ่ายวิศวกรรมของ Ubuntu อธิบาย ระบบใหม่จะรวมคุณ…

2026年2月27日
91000
วิศวกรรมโมเดลขนาดใหญ่

การผสาน LLM กับการเรียนรู้แบบเสริมกำลัง: เปิดศักราชใหม่ของระบบแนะนำอัจฉริยะ บทวิจารณ์เชิงระบบฉบับแรกเผยแพร่แล้ว

การเรียนรู้แบบเสริมกำลัง (RL) จัดระบบการแนะนำเป็นกระบวนการตัดสินใจแบบลำดับ ซึ่งสนับสนุนการเพิ่มประสิทธิภาพของผลประโยชน์ระยะยาวและตัวชี้วัดที่ไม่ต่อเนื่อง เป็นหนึ่งในกระบวนทัศน์การส…

2026年3月3日
74000
วิศวกรรมโมเดลขนาดใหญ่

ผู้บุกเบิกการเขียนโปรแกรม AI คาร์ปาธี: IDE จะไม่หายไป สิ่งที่เราต้องการคือ IDE ที่ใหญ่ขึ้น——วิวัฒนาการจากการจัดการไฟล์สู่การทำงานร่วมกันของเอเจนต์อัจฉริยะ

ผู้บุกเบิกการเขียนโค้ดด้วย AI คาร์ปาธี: IDE จะไม่หายไป สิ่งที่เราต้องการคือ IDE ที่ใหญ่ขึ้น ในวงการเขียนโปรแกรมด้วยปัญญาประดิษฐ์ อังเดรจ คาร์ปาธี (Andrej Karpathy) ถือเป็นผู้บุกเบิ…

4 days ago
50000
วิศวกรรมโมเดลขนาดใหญ่

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%

การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transforme…

2 days ago
34000
วิศวกรรมโมเดลขนาดใหญ่

เส้นทางวิวัฒนาการของ Prompt Learning: จากระบบปรับปรุงแบบคงที่สู่ระบบวงจรปิด SIPDO ที่พัฒนาตนเอง

พรอมต์ (Prompt) ในฐานะอินเทอร์เฟซ กำหนดรูปแบบพฤติกรรมและขีดจำกัดประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) และระบบเอเจนต์โดยตรง ความเข้าใจและการควบคุมพรอมต์ (prompt) เป็นตัวกำหนดระดับคว…

2026年2月27日
91000

ซูเปอร์เรโซลูชัน: ลดหน่วยความจำกราฟิกสูงสุด 92.3% ที่โทเคน 70K+

ความสามารถลำดับยาวและข้ามรูปแบบ: รีเฟรชเกณฑ์มาตรฐาน LRA ประสิทธิภาพดีเยี่ยมในการสร้างแบบจำลองภาษา

การสร้างแบบแพร่กระจาย: ประสิทธิภาพเพิ่มขึ้นในเฟรมเวิร์ก DiT/SiT

相关推荐

Ubuntu 26.04 LTS อัปเกรดครั้งใหญ่: ไดรเวอร์ GPU พร้อมใช้ทันที+การอนุมานแบบ Sandbox เกณฑ์การปรับใช้ AI ในเครื่องลดลงอย่างมาก

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%

เส้นทางวิวัฒนาการของ Prompt Learning: จากระบบปรับปรุงแบบคงที่สู่ระบบวงจรปิด SIPDO ที่พัฒนาตนเอง