持续学习

  • In-Place Test-Time Training:让大语言模型在推理时原地进化,长上下文任务准确率显著提升

    关键词:测试时训练、原位更新、大语言模型、长上下文 “静态的‘训练后部署’范式,从根本上限制了大语言模型在推理时根据新信息动态调整权重的能力。”这是来自字节跳动 Seed 团队与北京大学联合发表的论文《In-Place Test-Time Training》中的核心论断。 当 GPT-4、Llama 3 等大模型在部署后就“凝固”为静态的知识库,它们便无法像…

    2026年4月10日
    55400
  • Self-Distillation:大模型持续学习的破局之道与2026三大突破

    2026年伊始,大模型领域的研究者们似乎达成了一种默契。翻开近期arXiv上备受关注的论文,一个词汇频繁出现:Self-Distillation(自蒸馏)。 近年来,基础模型在语言、视觉、机器人等领域取得了显著成功,为AI应用提供了强大支持。然而,在模型真正落地与长期使用的过程中,研究者们逐渐发现一个关键瓶颈:如何让模型在持续吸收新知识的同时,不遗忘已有的核…

    2026年2月10日
    1.1K00
  • 前OpenAI研究VP挑战Transformer霸权,10亿美元融资打造持续学习AI新范式

    Transformer 是当前大语言模型(LLM)发展的核心基础,但一些顶尖研究者正积极寻求替代路径。其中甚至包括 Transformer 的创造者之一、Sakana AI 联合创始人兼 CTO Llion Jones。他在 Sakana 的官方博客中直言不讳地写道:“为什么 Transformer 的这位创造者受够了 Transformer”。 “我不是说…

    2026年1月31日
    34700
  • 清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

    可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardi…

    2025年12月30日
    52600
  • Gemini负责人揭秘:Pro模型竟是Flash的“蒸馏器”,后训练与持续学习成AI进化新战场

    2025年底,AI领域最引人注目的事件之一是Gemini 3 Flash的发布。这款模型主打轻量级与高速度,其智能表现不仅全面超越了前代Gemini 2.5 Pro,甚至在编程能力和多模态推理等部分性能上反超了Gemini 3 Pro与GPT-5.2,表现令人惊艳。 就在近日,Gemini的三位联合技术负责人——Oriol Vinyals、Jeff Dean…

    2025年12月21日
    45200