ICML 2026 บทความ: EMFormer แก้ปัญหาสามจุดอ่อนของการพยากรณ์อากาศ เพิ่มทั้งความแม่นยำและประสิทธิภาพ พร้อมข้ามไปใช้งานด้านภาพ
เมื่อการเปลี่ยนแปลงสภาพภูมิอากาศโลกมีความซับซ้อนมากขึ้น การพยากรณ์อากาศ กลายเป็นหนึ่งในเส้นทางที่ท้าทายที่สุดในสาขาการเรียนรู้ของเครื่อง ล่าสุด การประชุมวิชาการระดับนานาชาติด้านการเรียนรู้ของเครื่อง ICML 2026 ได้รับบทความเรื่อง “Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting”
สถาปัตยกรรม Efficient Multi-Scale Transformer (EMFormer) ที่นำเสนอในการศึกษานี้ ไม่เพียงแต่ประสบความสำเร็จในการเพิ่มทั้งความแม่นยำและประสิทธิภาพในการพยากรณ์อากาศเท่านั้น แต่ยังก้าวข้ามขอบเขตของสาขา แสดงให้เห็นถึงความสามารถในการปรับใช้ทั่วไปที่แข็งแกร่งในงานด้านภาพ เช่น การจำแนกภาพและการแบ่งส่วนความหมาย
บทความนี้จะเจาะลึกถึงสามเสาหลักนวัตกรรมเบื้องหลังโมเดลนี้ เผยให้เห็นว่ามันสามารถจับคุณลักษณะเชิงพื้นที่และเวลาข้ามสเกลได้อย่างแม่นยำ และแก้ปัญหาการสะสมข้อผิดพลาดในการพยากรณ์ระยะยาวได้อย่างมีประสิทธิภาพ
ความเป็นมาของงานวิจัย: จุดอ่อนหลักของการพยากรณ์อากาศคืออะไร?
การพยากรณ์อากาศ โดยเฉพาะการพยากรณ์ระยะยาวแบบหลายขั้นตอน เผชิญกับความท้าทายหลักสามประการเสมอ:
- การจับคุณลักษณะหลายสเกลอย่างมีประสิทธิภาพทำได้ยาก: ในระบบบรรยากาศ ตั้งแต่กระแสลมขนาดเล็กไปจนถึงการหมุนเวียนทั่วโลก คุณลักษณะในสเกลต่างๆ เชื่อมโยงกัน โมเดลดั้งเดิมยากที่จะดึงข้อมูลหลายสเกลได้อย่างครอบคลุมภายใต้การคำนวณที่มีประสิทธิภาพ
- การสะสมข้อผิดพลาดในการพยากรณ์ระยะยาว: เมื่อระยะเวลาการพยากรณ์นานขึ้น ข้อผิดพลาดจะสะสมมากขึ้น ทำให้ความแม่นยำในการพยากรณ์ระยะยาวลดลงอย่างมาก ขณะเดียวกันก็ยากที่จะรับประกันความสอดคล้องของเวลา
- ความสามารถในการปรับใช้ทั่วไปของโมเดลไม่เพียงพอ: โมเดลการพยากรณ์อากาศส่วนใหญ่ออกแบบมาเฉพาะงาน ไม่สามารถย้ายไปใช้ในสาขาอื่นๆ (เช่น งานด้านภาพ) ได้ ทำให้มีความเป็นทั่วไปต่ำ
เพื่อตอบสนองต่อจุดอ่อนเหล่านี้ ทีมวิจัยจากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง (HKUST) และห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ (Shanghai AI Lab) ได้ออกแบบ สถาปัตยกรรม EMFormer โดยผ่านนวัตกรรมหลักสามประการ ทำให้เกิดความก้าวหน้าทั้งในการพยากรณ์อากาศและงานด้านภาพ

รูปภาพแสดงแผนผังกระบวนการใหม่ที่มีสามขั้นตอน:
- ขั้นตอนที่หนึ่ง: การฝึกอบรมล่วงหน้า EMFormer บนตัวแปรบรรยากาศ กระบวนการนี้ใช้สถาปัตยกรรม “ตัด-กู้คืน” ซึ่งประกอบด้วยโมดูลตัด ชุดบล็อก EMFormer และโมดูลกู้คืน
- ขั้นตอนที่สอง: การปรับแต่งบริบทสะสม (Accumulative Context Finetuning)
- ขั้นตอนที่สาม: ขั้นตอนการพยากรณ์ ครอบคลุมการพยากรณ์อากาศและการพยากรณ์เส้นทางพายุไต้ฝุ่น
นวัตกรรมหลัก: การออกแบบสำคัญสามประการของ EMFormer
แนวคิดหลักของทีมคือ: ใช้ “การสกัดคุณลักษณะหลายสเกลอย่างมีประสิทธิภาพ” เป็นแกนกลาง ผสานกับ “การปรับแต่งบริบทสะสม” และ “ฟังก์ชันการสูญเสียแบบปรับตัวได้” เพื่อให้เกิดความสมดุลระหว่างความแม่นยำ ประสิทธิภาพ และความสามารถในการปรับใช้ทั่วไป ต่อไปนี้คือการวิเคราะห์โดยละเอียดของสามจุดนวัตกรรม:
นวัตกรรมที่ 1: Multi-Convs Layer — แกนหลักของการสกัดคุณลักษณะหลายสเกลอย่างมีประสิทธิภาพ
โมดูลหลายสเกลดั้งเดิมต้องซ้อนสาขาการบิดเบือนหลายชั้น ทำให้ต้นทุนการคำนวณสูงและประสิทธิภาพการอัปเดตเกรเดียนต์ต่ำ ทีมงานออกแบบ Multi-Convs Layer โดยการรวมเคอร์เนลการบิดเบือนสามสเกล (1×1, 3×3, 5×5) เข้าด้วยกัน ทำให้การสกัดคุณลักษณะหลายสเกลเสร็จสมบูรณ์ในการส่งต่อครั้งเดียว พร้อมใช้ CUDA เคอร์เนลที่กำหนดเองเพื่อแยกการแพร่กระจายย้อนกลับ ทำให้เกรเดียนต์ของแต่ละสเกลอัปเดตอย่างอิสระ

ดังแสดงในรูปที่ 3 Multi-Convs Layer (รูปที่ 3c) เมื่อเทียบกับโมดูลหลายสเกลดั้งเดิม (รูปที่ 3a) และโมดูลการกำหนดพารามิเตอร์ใหม่มาตรฐาน (รูปที่ 3b) ในขณะที่รับประกันความเท่าเทียมกันของฟังก์ชันและเกรเดียนต์ จะลดความซับซ้อนในการคำนวณจาก O(Nₖₑᵣₙₑₗₛ · H₀ · W₀ · r²) เหลือ O(H₀ · W₀ · rₘₐₓ²) ทำให้เวลาฝึกอบรมลดลงมากกว่า 25%
การพิสูจน์ทางทฤษฎี (Theorem 2.1) แสดงให้เห็นว่า Multi-Convs Layer เทียบเท่ากับโมดูลหลายสเกลดั้งเดิมทั้งในด้านฟังก์ชันและเกรเดียนต์ แต่ประสิทธิภาพการคำนวณดีขึ้นอย่างมีนัยสำคัญ เป็นรากฐานที่มีประสิทธิภาพสำหรับการเรียนรู้คุณลักษณะในภายหลัง
นวัตกรรมที่ 2: Accumulative Context Finetuning — บรรเทาการสะสมข้อผิดพลาด เพิ่มความสอดคล้องของเวลา
เพื่อแก้ปัญหาการสะสมข้อผิดพลาดในการพยากรณ์ระยะยาว ทีมงานเสนอกลยุทธ์การปรับแต่งบริบทสะสม โดยการแคชคู่ KV ของขั้นตอนก่อนหน้า ผสานกับกลไกการตัดแบบไดนามิก เพื่อเก็บรักษาข้อมูลประวัติที่สำคัญ ขณะเดียวกันก็หลีกเลี่ยงหน่วยความจำล้น

ดังแสดงในรูปที่ 4 กลยุทธ์นี้ใช้สามขั้นตอนในการอัปเดตและตัดแคช KV แบบไดนามิก: คำนวณคะแนนความสนใจปัจจุบัน, รวมคะแนนประวัติกับคะแนนปัจจุบัน, ตัดคู่ KV ที่ซ้ำซ้อน เพื่อให้แน่ใจว่าโมเดลสามารถใช้สถานะประวัติที่มีข้อผิดพลาดต่ำในการพยากรณ์ระยะยาว เพิ่มความสอดคล้องของเวลา
การทดลองแบบตัดทอนแสดงให้เห็นว่า เมื่อเทียบกับการไม่ปรับแต่งและการปรับแต่งมาตรฐาน การปรับแต่งบริบทสะสมสามารถเพิ่มความแม่นยำในการพยากรณ์ระยะยาวได้อย่างมีนัยสำคัญ โดย ACC การพยากรณ์ 10 วันเพิ่มขึ้นเป็น 0.5389 (ดังแสดงในตารางที่ 3)
นวัตกรรมที่ 3: ฟังก์ชันการสูญเสียแบบผสมปรับตัวได้ — สร้างสมดุลระหว่างคุณลักษณะหลายตัวแปรและทางภูมิศาสตร์
ข้อมูลอุตุนิยมวิทยามีลักษณะสำคัญสองประการ: อัตราการเปลี่ยนแปลงตามเวลาของตัวแปรต่างๆ (เช่น อุณหภูมิ ความกดอากาศ) แตกต่างกันมาก และพื้นที่ของตารางในละติจูดที่แตกต่างกันก็แตกต่างกัน ทีมงานออกแบบฟังก์ชันการสูญเสียแบบผสมที่รวมการสูญเสียแบบปรับตัวตามตัวแปรและการสูญเสียแบบปรับตัวตามละติจูด โดยใช้กลไกการถ่วงน้ำหนักไซน์ เพื่อเปลี่ยนจุดเน้นของการสูญเสียอย่างราบรื่นในระหว่างการฝึกอบรม
สูตรฟังก์ชันการสูญเสียมีดังนี้:

โดยที่ L_lat คือการสูญเสียแบบถ่วงน้ำหนักตามละติจูด (พิจารณาความแตกต่างของพื้นที่ตาราง), L_var คือการสูญเสียแบบปรับตัวตามตัวแปร (กำหนดน้ำหนักแบบไดนามิกให้กับตัวแปรต่างๆ), α คือพารามิเตอร์ที่เรียนรู้ได้ เพื่อให้เกิดการเปลี่ยนผ่านอย่างราบรื่นจาก “การแก้ไขทางภูมิศาสตร์” ไปสู่ “การปรับให้เหมาะสมของตัวแปร” ในระหว่างการฝึกอบรม
การพิสูจน์ทางทฤษฎี (Theorem 2.2) แสดงให้เห็นว่า α จะวิวัฒนาการแบบโมโนโทนิกจาก -π/2 ไปเป็น π/2 เพื่อให้แน่ใจว่าจุดเน้นของการสูญเสียเปลี่ยนไปอย่างปรับตัวได้ ซึ่งช่วยเพิ่มความแม่นยำในการพยากรณ์ได้อย่างมีประสิทธิภาพ
ผลการทดลอง: การตรวจสอบหลายงาน ประสิทธิภาพเหนือกว่าเส้นฐานอย่างครอบคลุม
ทีมงานได้ตรวจสอบ EMFormer อย่างครอบคลุมในสี่งานหลัก ได้แก่ การพยากรณ์อากาศ การพยากรณ์เส้นทางพายุไต้ฝุ่น การจำแนกภาพ และการแบ่งส่วนความหมาย ผลการทดลองทั้งหมดดีกว่าโมเดลเส้นฐานที่มีอยู่ ซึ่งพิสูจน์ให้เห็นถึงประสิทธิผลและความสามารถในการปรับใช้ทั่วไปของโมเดล
การทดลองที่ 1: การพยากรณ์อากาศ (ชุดข้อมูล ERA5)

ในชุดข้อมูล ERA5 1.4° โมเดลของทีม (Ours (w/ finetuning)) ในการพยากรณ์ตั้งแต่ 6 ชั่วโมงถึง 10 วัน มี RMSE ต่ำที่สุดและ ACC สูงที่สุด เอาชนะโมเดลเส้นฐาน เช่น Pangu-Weather, Graphcast, Oneforecast ได้อย่างครอบคลุม (ดังแสดงในตารางที่ 1)

ในชุดข้อมูล ERA5 0.25° EMFormer ก็มีประสิทธิภาพดีเยี่ยมเช่นกัน โดยในการพยากรณ์หลายตัวแปร RMSE ต่ำกว่าโมเดลเส้นฐานอย่างมีนัยสำคัญ (ดังแสดงในรูปที่ 5)
การทดลองที่ 2: การพยากรณ์เส้นทางพายุไต้ฝุ่น (ข้อมูลพายุไต้ฝุ่นปี 2024)

ในสถานการณ์การพยากรณ์สภาพอากาศรุนแรง ทีมงานเลือกพายุไต้ฝุ่น 10 ลูกในปี 2024 เปรียบเทียบกับโมเดลเส้นฐาน 9 โมเดล (รวมถึง AIFS, ECMF, Pangu ฯลฯ) EMFormer ได้ค่าความคลาดเคลื่อนเส้นทางเฉลี่ยต่ำที่สุด (88.49 กม.) ซึ่งต่ำกว่าโมเดลที่ดีที่สุดรองลงมาที่ 119.17 กม. อย่างมาก (ดังแสดงในตารางที่ 2) โดยเฉพาะอย่างยิ่งในการพยากรณ์เส้นทางพายุไต้ฝุ่นระยะยาวมีข้อได้เปรียบอย่างชัดเจน
การทดลองที่ 3: งานด้านภาพ (ImageNet-1K + ADE20K)
เพื่อตรวจสอบความสามารถในการปรับใช้ทั่วไปของโมเดล ทีมงานนำ EMFormer ไปใช้กับงานจำแนกภาพ (ImageNet-1K) และการแบ่งส่วนความหมาย (ADE20K) ผลลัพธ์แสดงให้เห็นว่า:
- การจำแนกภาพ: ในสามขนาดพารามิเตอร์ (tiny, small, base) EMFormer มีความแม่นยำ Top-1 สูงที่สุด (83.2%, 84.1%, 84.4% ตามลำดับ) และมีจำนวนพารามิเตอร์และการคำนวณต่ำกว่าโมเดลที่คล้ายกัน (ดังแสดงในตารางที่ 5)

- การแบ่งส่วนความหมาย: EMFormer-S และ EMFormer-B มีค่า mIoU บน ADE20K ถึง 46.7 และ 49.6 ตามลำดับ โดยใช้เพียง 75% ของพารามิเตอร์และ 25% ของการคำนวณของโมเดลที่คล้ายกัน (ดังแสดงในตารางที่ 6)

สรุปการมีส่วนร่วมหลัก
งานที่ได้รับการตีพิมพ์ใน ICML 2026 นี้ มีส่วนร่วมหลักสามประการดังนี้:
- เสนอ Multi-Convs Layer ซึ่งในขณะที่รับประกันความเท่าเทียมกันของฟังก์ชันและเกรเดียนต์ สามารถสกัดคุณลักษณะหลายสเกลได้อย่างมีประสิทธิภาพ ลดต้นทุนการคำนวณลงอย่างมาก
- ออกแบบกลยุทธ์การปรับแต่งบริบทสะสม ซึ่งบรรเทาการสะสมข้อผิดพลาดในการพยากรณ์ระยะยาวได้อย่างมีประสิทธิภาพ เพิ่มความสอดคล้องของเวลา และสามารถถ่ายโอนไปยังโมเดลอื่นๆ ได้
- เสนอฟังก์ชันการสูญเสียแบบผสมถ่วงน้ำหนักไซน์ ซึ่งสร้างสมดุลระหว่างความต้องการในการปรับให้เหมาะสมของคุณลักษณะหลายตัวแปรและทางภูมิศาสตร์ พร้อมทั้งทำให้ EMFormer สามารถปรับใช้ทั่วไปได้อย่างมีประสิทธิภาพทั้งในงานอุตุนิยมวิทยาและงานด้านภาพ
จากการพยากรณ์อากาศไปจนถึงงานด้านภาพ ความก้าวหน้าของ EMFormer พิสูจน์ให้เห็นถึงศักยภาพอันยิ่งใหญ่ของสถาปัตยกรรม Transformer หลายสเกลในการเรียนรู้ข้ามสาขา และยังเป็นแนวทางใหม่สำหรับการเรียนรู้คุณลักษณะหลายสเกลและการออกแบบโมเดลข้ามสาขาในอนาคต
ทีมผู้เขียน: ศาสตราจารย์ Guo Song (IEEE Fellow) จากมหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกง (HKUST) + ทีม Bai Lei จากห้องปฏิบัติการปัญญาประดิษฐ์เซี่ยงไฮ้ (Shanghai AI Lab)
ลิงก์บทความ: https://arxiv.org/pdf/2602.01194
คลังรหัส: https://github.com/chenhao-zju/emformer
ยินดีต้อนรับผู้อ่านที่สนใจคลิก 👉 了解更多
🌟 点亮星标 🌟
每日获取前沿科技进展
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34769
