原位更新
-
In-Place Test-Time Training:让大语言模型在推理时原地进化,长上下文任务准确率显著提升
关键词:测试时训练、原位更新、大语言模型、长上下文 “静态的‘训练后部署’范式,从根本上限制了大语言模型在推理时根据新信息动态调整权重的能力。”这是来自字节跳动 Seed 团队与北京大学联合发表的论文《In-Place Test-Time Training》中的核心论断。 当 GPT-4、Llama 3 等大模型在部署后就“凝固”为静态的知识库,它们便无法像…