ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

ICML 2026 论文:EMFormer 破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

随着全球气候变化日益复杂,气象预测已成为机器学习领域最具挑战性的赛道之一。近日,国际机器学习顶会 ICML 2026 接收了论文《Efficient Multi-Scale Transformer for Accumulative Context Weather Forecasting》。

该研究提出的高效多尺度 Transformer 架构(EMFormer) ,不仅在气象预测中实现了精度与效率的双重突破,更跨越了领域界限,在图像分类、语义分割等视觉任务中展现出强大的泛化能力

本文将深入解析这一模型背后的三大创新支柱,揭示它如何精准捕捉跨尺度的时空特征,并有效破解长期预测中的误差累积难题

研究背景:气象预测的核心痛点是什么?

气象预测,尤其是多步长长期预测,始终面临三大核心挑战:

  • 多尺度特征难以高效捕捉:大气系统中,从微小气流到全球环流,不同尺度的特征相互交织,传统模型难以在高效计算的前提下全面提取多尺度信息;
  • 长期预测误差累积:随着预测时间延长,误差不断积累,导致长期预测精度大幅下降,同时难以保证时间一致性;
  • 模型泛化能力不足:多数气象预测模型仅针对特定任务设计,难以迁移到其他领域(如视觉任务),通用性较差。

针对这些痛点,来自香港科技大学(HKUST)和上海人工智能实验室(Shanghai AI Lab)的研究团队设计了 EMFormer 架构,通过三大核心创新,实现了气象预测与视觉任务的双向突破。

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

图中展示了一个包含三个阶段的新型流程示意图:

  • 第一阶段:在大气变量上预训练 EMFormer。该过程采用了一种“修剪-恢复”架构,具体包括一个修剪模块、一系列 EMFormer 块以及一个恢复模块;
  • 第二阶段:累积上下文微调(Accumulative Context Finetuning);
  • 第三阶段:预测阶段,涵盖气象预报与台风路径预测。

核心创新:EMFormer 的三大关键设计

团队的核心思路是:以“高效多尺度特征提取”为核心,结合“累积上下文微调”和“自适应损失函数”,兼顾精度、效率与泛化能力。以下是三大创新点的详细解析:

创新点 1:Multi-Convs Layer——高效多尺度特征提取的核心

传统多尺度模块需要堆叠多个卷积分支,计算成本高且梯度更新效率低。团队设计的 Multi-Convs Layer,通过融合三个不同尺度(1×1、3×3、5×5)的卷积核,在单次前向传播中完成多尺度特征提取,同时利用自定义 CUDA 核解耦反向传播,确保每个尺度的梯度独立更新。

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

如图 3 所示,Multi-Convs Layer(图 3c)相比传统多尺度模块(图 3a)和标准重参数化模块(图 3b),在保证功能等价和梯度等价的前提下,将计算复杂度从 O(Nₖₑᵣₙₑₗₛ · H₀ · W₀ · r²) 降至 O(H₀ · W₀ · rₘₐₓ²),训练时间减少 25% 以上。

理论证明(Theorem 2.1)表明,Multi-Convs Layer 与传统多尺度模块在功能和梯度上完全等价,但计算效率提升显著,为后续特征学习奠定了高效基础。

创新点 2:Accumulative Context Finetuning——缓解误差累积,提升时间一致性

为解决长期预测中的误差累积问题,团队提出累积上下文微调策略,通过缓存前序步骤的 KV 对,结合动态修剪机制,保留关键历史信息,同时避免内存溢出。

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

如图 4 所示,该策略通过三步实现 KV 缓存的动态更新与修剪:计算当前注意力得分、融合历史得分与当前得分、修剪冗余 KV 对,确保模型在长期预测中能够利用低误差历史状态,提升时间一致性。

消融实验表明,相比无微调和标准微调,累积上下文微调能显著提升长期预测精度,10 天预测的 ACC 提升至 0.5389(如表 3 所示)。

创新点 3:自适应混合损失函数——平衡多变量与地理特征

气象数据存在两大特性:不同变量(如温度、气压)的时间变化率差异大,不同纬度的网格区域面积不同。团队设计了融合变量自适应损失与纬度自适应损失的混合损失函数,通过正弦加权机制,在训练过程中平滑切换损失重点。

损失函数公式如下:

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

其中,L_lat 是纬度加权损失(考虑网格面积差异),L_var 是变量自适应损失(为不同变量分配动态权重),α 为可学习参数,实现训练过程中从“地理校正”到“变量优化”的平滑过渡。

理论证明(Theorem 2.2)表明,α 会从 -π/2 单调演化至 π/2,确保损失重点的自适应切换,有效提升预测精度。

实验结果:多任务验证,性能全面超越基线

团队在气象预测、台风路径预测、图像分类、语义分割四大任务中对 EMFormer 进行了全面验证,所有实验均优于现有基线模型,充分证明了模型的有效性与泛化能力。

实验 1:气象预测(ERA5 数据集)

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

在 1.4° ERA5 数据集上,团队的模型(Ours(w/ finetuning))在 6 小时至 10 天的预测中,RMSE 均为最低,ACC 均为最高,全面超越 Pangu-Weather、Graphcast、Oneforecast 等基线模型(如表 1 所示)。

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

在 0.25° ERA5 数据集上,EMFormer 同样表现优异,在多变量预测中 RMSE 显著低于基线模型(如图 5 所示)。

实验 2:台风路径预测(2024 年台风数据)

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

在极端天气预测场景中,团队选取 2024 年 10 个台风,对比 9 个基线模型(包括 AIFS、ECMF、Pangu 等),EMFormer 取得了最低的平均路径误差(88.49 km),远低于次优模型的 119.17 km(如表 2 所示),尤其在长期台风路径预测中优势显著。

实验 3:视觉任务(ImageNet-1K + ADE20K)

为验证模型泛化能力,团队将 EMFormer 应用于图像分类(ImageNet-1K)和语义分割(ADE20K)任务,结果表明:

  • 图像分类:在 tiny、small、base 三个参数尺度下,EMFormer 的 Top-1 准确率均为最高(分别为 83.2%、84.1%、84.4%),且参数和计算量低于同类模型(如表 5 所示);

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

  • 语义分割:EMFormer-S 和 EMFormer-B 在 ADE20K 上的 mIoU 分别达到 46.7 和 49.6,仅需同类模型 75% 的参数和 25% 的计算量(如表 6 所示)。

ICML 2026论文:EMFormer破解气象预测三大痛点,精度效率双提升还能跨界视觉任务

核心贡献总结

本次中稿 ICML 2026 的工作,主要做出了以下三大贡献:

  1. 提出 Multi-Convs Layer,在保证功能和梯度等价的前提下,实现高效多尺度特征提取,大幅降低计算成本;
  2. 设计累积上下文微调策略,有效缓解长期预测的误差累积,提升时间一致性,且可迁移至其他模型;
  3. 提出正弦加权混合损失函数,平衡多变量与地理特征的优化需求,同时实现 EMFormer 在气象与视觉任务中的高效泛化。

从气象预测到视觉任务,EMFormer 的突破证明了多尺度 Transformer 架构在跨领域学习中的巨大潜力,也为后续多尺度特征学习与跨领域模型设计提供了新的思路。

作者团队:香港科技大学(HKUST)郭嵩院士(IEEE Fellow)+ 上海人工智能实验室(Shanghai AI Lab)白磊团队

论文链接:https://arxiv.org/pdf/2602.01194

代码仓库:https://github.com/chenhao-zju/emformer

欢迎有兴趣的读者点击 👉 了解更多

🌟 点亮星标 🌟

每日获取前沿科技进展


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34768

(0)
上一篇 5小时前
下一篇 2026年4月24日 下午3:52

相关推荐

  • 谷歌地图重磅升级!Gemini驱动“Ask Maps”和“沉浸式导航”两大功能,旅行规划应用面临挑战

    谷歌地图重磅升级:Gemini驱动“Ask Maps”与“沉浸式导航” 谷歌正持续将其强大的Gemini模型能力深度整合至旗下产品。近日,谷歌正式宣布为谷歌地图推出两项由Gemini驱动的新功能:“Ask Maps”与“沉浸式导航”。 此次更新被官方称为谷歌地图十多年来的最大升级,引发了广泛关注。 核心功能解析 1. Ask Maps:对话式智能规划 用户可…

    2026年3月14日
    44700
  • 迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

    在人工智能迈向通用智能(AGI)的漫长征程中,一个根本性的哲学问题日益凸显:在构建超级智能之前,我们首先需要什么?近期,由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S:迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向,更可能重新定义AI感知能力的演进路径。 三位作者的组合…

    2025年11月10日
    27400
  • DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

    当物体在滚动、滑动、被撞飞,机器人还在执行几百毫秒前的动作预测。 对动态世界而言,这种延迟,往往意味着失败。 在过去几年中,视觉-语言-动作(Vision-Language-Action,VLA)模型已成为机器人领域的焦点。这类模型能够“看懂”画面、“理解”语言指令,并直接输出连续动作,在静态抓取、摆放等桌面操作任务中取得了显著进展。 然而,一个长期被忽视的…

    2026年2月10日
    32200
  • 阿里Qwen3-TTS深度解析:多语言方言语音合成的技术突破与产业影响

    近日,阿里巴巴继开源Z-Image模型后,正式发布了Qwen3-TTS语音合成模型(版本号2025-11-27),标志着其在多模态AI领域的技术布局进一步深化。该模型不仅解决了语音合成领域的多个核心痛点,更在多语言支持、方言适配、音色丰富度等方面实现了显著突破,为全球语音技术应用带来了新的可能性。 从技术架构层面分析,Qwen3-TTS的核心创新体现在三个维…

    2025年12月6日
    43600
  • Grok 4.3深度评测:性能逼近GPT-5.5,价格却低60%,xAI的务实反击

    Grok 4.3 是 xAI 一次务实的升级:它变得更便宜、更快,也更像一个能真正干活的助手。然而,在硬推理、稳定性和可信度方面,它仍落后于 GPT-5.5 与 Claude Opus 4.7。 xAI 发布了 Grok 4.3,但没有大张旗鼓地宣传。马斯克甚至没有为此单独发推,它看起来更像是一个过渡版本。 这更像是一次安静的“产品换挡”:将模型接入 API…

    2026年5月2日
    50000