ICML 2026 论文：EMFormer 破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

随着全球气候变化日益复杂，气象预测已成为机器学习领域最具挑战性的赛道之一。近日，国际机器学习顶会 ICML 2026 接收了论文《Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting》。

该研究提出的高效多尺度 Transformer 架构（EMFormer） ，不仅在气象预测中实现了精度与效率的双重突破，更跨越了领域界限，在图像分类、语义分割等视觉任务中展现出强大的泛化能力。

本文将深入解析这一模型背后的三大创新支柱，揭示它如何精准捕捉跨尺度的时空特征，并有效破解长期预测中的误差累积难题。

研究背景：气象预测的核心痛点是什么？

气象预测，尤其是多步长长期预测，始终面临三大核心挑战：

多尺度特征难以高效捕捉：大气系统中，从微小气流到全球环流，不同尺度的特征相互交织，传统模型难以在高效计算的前提下全面提取多尺度信息；
长期预测误差累积：随着预测时间延长，误差不断积累，导致长期预测精度大幅下降，同时难以保证时间一致性；
模型泛化能力不足：多数气象预测模型仅针对特定任务设计，难以迁移到其他领域（如视觉任务），通用性较差。

针对这些痛点，来自香港科技大学（HKUST）和上海人工智能实验室（Shanghai AI Lab）的研究团队设计了 EMFormer 架构，通过三大核心创新，实现了气象预测与视觉任务的双向突破。

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

图中展示了一个包含三个阶段的新型流程示意图：

第一阶段：在大气变量上预训练 EMFormer。该过程采用了一种“修剪-恢复”架构，具体包括一个修剪模块、一系列 EMFormer 块以及一个恢复模块；
第二阶段：累积上下文微调（Accumulative Context Finetuning）；
第三阶段：预测阶段，涵盖气象预报与台风路径预测。

核心创新：EMFormer 的三大关键设计

团队的核心思路是：以“高效多尺度特征提取”为核心，结合“累积上下文微调”和“自适应损失函数”，兼顾精度、效率与泛化能力。以下是三大创新点的详细解析：

创新点 1：Multi-Convs Layer——高效多尺度特征提取的核心

传统多尺度模块需要堆叠多个卷积分支，计算成本高且梯度更新效率低。团队设计的 Multi-Convs Layer，通过融合三个不同尺度（1×1、3×3、5×5）的卷积核，在单次前向传播中完成多尺度特征提取，同时利用自定义 CUDA 核解耦反向传播，确保每个尺度的梯度独立更新。

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

如图 3 所示，Multi-Convs Layer（图 3c）相比传统多尺度模块（图 3a）和标准重参数化模块（图 3b），在保证功能等价和梯度等价的前提下，将计算复杂度从 O(Nₖₑᵣₙₑₗₛ · H₀ · W₀ · r²) 降至 O(H₀ · W₀ · rₘₐₓ²)，训练时间减少 25% 以上。

理论证明（Theorem 2.1）表明，Multi-Convs Layer 与传统多尺度模块在功能和梯度上完全等价，但计算效率提升显著，为后续特征学习奠定了高效基础。

创新点 2：Accumulative Context Finetuning——缓解误差累积，提升时间一致性

为解决长期预测中的误差累积问题，团队提出累积上下文微调策略，通过缓存前序步骤的 KV 对，结合动态修剪机制，保留关键历史信息，同时避免内存溢出。

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

如图 4 所示，该策略通过三步实现 KV 缓存的动态更新与修剪：计算当前注意力得分、融合历史得分与当前得分、修剪冗余 KV 对，确保模型在长期预测中能够利用低误差历史状态，提升时间一致性。

消融实验表明，相比无微调和标准微调，累积上下文微调能显著提升长期预测精度，10 天预测的 ACC 提升至 0.5389（如表 3 所示）。

创新点 3：自适应混合损失函数——平衡多变量与地理特征

气象数据存在两大特性：不同变量（如温度、气压）的时间变化率差异大，不同纬度的网格区域面积不同。团队设计了融合变量自适应损失与纬度自适应损失的混合损失函数，通过正弦加权机制，在训练过程中平滑切换损失重点。

损失函数公式如下：

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

其中，L_lat 是纬度加权损失（考虑网格面积差异），L_var 是变量自适应损失（为不同变量分配动态权重），α 为可学习参数，实现训练过程中从“地理校正”到“变量优化”的平滑过渡。

理论证明（Theorem 2.2）表明，α 会从 -π/2 单调演化至 π/2，确保损失重点的自适应切换，有效提升预测精度。

实验结果：多任务验证，性能全面超越基线

团队在气象预测、台风路径预测、图像分类、语义分割四大任务中对 EMFormer 进行了全面验证，所有实验均优于现有基线模型，充分证明了模型的有效性与泛化能力。

实验 1：气象预测（ERA5 数据集）

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

在 1.4° ERA5 数据集上，团队的模型（Ours（w/ finetuning））在 6 小时至 10 天的预测中，RMSE 均为最低，ACC 均为最高，全面超越 Pangu-Weather、Graphcast、Oneforecast 等基线模型（如表 1 所示）。

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

在 0.25° ERA5 数据集上，EMFormer 同样表现优异，在多变量预测中 RMSE 显著低于基线模型（如图 5 所示）。

实验 2：台风路径预测（2024 年台风数据）

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

在极端天气预测场景中，团队选取 2024 年 10 个台风，对比 9 个基线模型（包括 AIFS、ECMF、Pangu 等），EMFormer 取得了最低的平均路径误差（88.49 km），远低于次优模型的 119.17 km（如表 2 所示），尤其在长期台风路径预测中优势显著。

实验 3：视觉任务（ImageNet-1K + ADE20K）

为验证模型泛化能力，团队将 EMFormer 应用于图像分类（ImageNet-1K）和语义分割（ADE20K）任务，结果表明：

图像分类：在 tiny、small、base 三个参数尺度下，EMFormer 的 Top-1 准确率均为最高（分别为 83.2%、84.1%、84.4%），且参数和计算量低于同类模型（如表 5 所示）；

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

语义分割：EMFormer-S 和 EMFormer-B 在 ADE20K 上的 mIoU 分别达到 46.7 和 49.6，仅需同类模型 75% 的参数和 25% 的计算量（如表 6 所示）。

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

核心贡献总结

本次中稿 ICML 2026 的工作，主要做出了以下三大贡献：

提出 Multi-Convs Layer，在保证功能和梯度等价的前提下，实现高效多尺度特征提取，大幅降低计算成本；
设计累积上下文微调策略，有效缓解长期预测的误差累积，提升时间一致性，且可迁移至其他模型；
提出正弦加权混合损失函数，平衡多变量与地理特征的优化需求，同时实现 EMFormer 在气象与视觉任务中的高效泛化。

从气象预测到视觉任务，EMFormer 的突破证明了多尺度 Transformer 架构在跨领域学习中的巨大潜力，也为后续多尺度特征学习与跨领域模型设计提供了新的思路。

作者团队：香港科技大学（HKUST）郭嵩院士（IEEE Fellow）+ 上海人工智能实验室（Shanghai AI Lab）白磊团队

论文链接：https://arxiv.org/pdf/2602.01194

代码仓库：https://github.com/chenhao-zju/emformer

欢迎有兴趣的读者点击 👉 了解更多

🌟 点亮星标 🌟

每日获取前沿科技进展

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/34768

ICML 2026论文：EMFormer破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

ICML 2026 论文：EMFormer 破解气象预测三大痛点，精度效率双提升还能跨界视觉任务

研究背景：气象预测的核心痛点是什么？

核心创新：EMFormer 的三大关键设计

创新点 1：Multi-Convs Layer——高效多尺度特征提取的核心

创新点 2：Accumulative Context Finetuning——缓解误差累积，提升时间一致性

创新点 3：自适应混合损失函数——平衡多变量与地理特征

实验结果：多任务验证，性能全面超越基线

实验 1：气象预测（ERA5 数据集）

实验 2：台风路径预测（2024 年台风数据）

实验 3：视觉任务（ImageNet-1K + ADE20K）

核心贡献总结

相关推荐

谷歌地图重磅升级！Gemini驱动“Ask Maps”和“沉浸式导航”两大功能，旅行规划应用面临挑战

迈向AGI新范式：视频空间超感知如何突破LLM感知瓶颈

DynamicVLA：南洋理工突破机器人动态操控瓶颈，实现边想边做的实时响应

阿里Qwen3-TTS深度解析：多语言方言语音合成的技术突破与产业影响

Grok 4.3深度评测：性能逼近GPT-5.5，价格却低60%，xAI的务实反击