扩散式语言模型新突破：仅需50小时微调，BERT实现对话能力

2025年11月23日上午11:35 • AI产业动态 • 阅读 88

近日，加州大学伯克利分校计算机博士生周展辉与伊利诺伊大学厄巴纳香槟分校计算机博士生陈凌杰领导的团队，在扩散式语言模型（Diffusion Language Model, DLM）领域取得了一项引人注目的进展。他们基于自研的扩散语言模型工具dLLM，通过一项创新实验证明：经典的BERT模型仅需约50 GPU・小时的监督微调，就能获得接近主流小规模生成式语言模型的对话能力。这一发现不仅挑战了传统认知，更为扩散式语言模型的普及与应用开辟了低成本、高效率的新路径。

长期以来，扩散式语言模型虽在理论上展现出独特优势，但其实际发展却面临两大核心瓶颈：一是缺乏易于上手、功能完善的开发框架，导致研究者入门门槛高、实验复现困难；二是训练成本极其高昂，动辄需要数千甚至上万GPU・小时的计算资源，使得大多数研究团队和个人开发者望而却步。这些限制严重阻碍了DLM技术的迭代、验证与社区生态的繁荣。

伯克利与UIUC团队的研究正是针对这些痛点展开。他们选择ModernBERT作为基座模型——这是BERT的一个先进变体，其上下文长度从原始的512个token大幅扩展至8,192个token，并在多项理解任务中表现更优。团队首先探究了一个关键问题：ModernBERT在非生成任务上的改进，能否转化为生成式场景的优势？通过在Wikitext-103-v1数据集上进行离散扩散语言建模预训练测试，他们发现ModernBERT取得了最低的训练损失，初步证实了其在生成式训练中的潜力。

然而，更深入的实验带来了颠覆性的发现。当团队尝试在更大规模的OpenWebText语料上进行扩散预训练时，模型的损失并未显著下降。这暗示ModernBERT通过原始的掩码语言建模预训练已编码了丰富的语言知识，额外的扩散预训练可能收益有限。为了验证这一点，团队设计了对比实验：分别对未经任何生成式预训练、在Wikitext-103-v1上预训练过、在OpenWebText上预训练过的三个ModernBERT-large检查点进行指令微调。结果显示，尽管经过预训练的模型在微调初期损失更低，但三者最终的收敛表现几乎相同。

这一结论至关重要：对于ModernBERT而言，决定其最终生成能力的关键并非额外的扩散预训练，而是指令微调本身。基于此，团队放弃了耗时的预训练阶段，直接对ModernBERT-base和ModernBERT-large进行离散扩散监督微调，使用的数据是allenai/tulu-3-sft-mixture与HuggingFaceTB/smoltalk的拼接。最终，他们以极低的成本（约50 GPU・小时）得到了两个模型：ModernBERT-base-chat-v0（0.1B参数）和ModernBERT-large-chat-v0（0.4B参数）。

评测结果令人惊喜。在LAMBADA（语言理解）、GSM8K（数学推理）、CEVAL-valid（中文知识测评）等多个主流任务上，ModernBERT-large-chat-v0的整体性能已逼近参数量更大的Qwen1.5-0.5B模型。而仅0.1B参数的base版本也能生成流畅自然的语言，证明了扩散式训练在小模型规模下依然具备强大竞争力。这彻底打破了“生成能力必须依赖大规模生成式预训练”的固有思维，展示了“离散扩散 + 轻量级指令微调”这一组合的高效性。

为了推动社区发展，团队已将训练、推理与评测的全流程代码完全开源，并封装为可直接运行的“Hello World”示例。这使得初学者也能轻松复现实验，深入理解扩散式语言模型的核心机制。更重要的是，他们开源了背后的支撑框架dLLM。dLLM不仅是一个工具库，更是一个一体化的研究平台，它兼容当前主流的开源扩散模型（如Dream、LLaDA、RND等），结构清晰、脚本完善，支持在单卡甚至笔记本环境下复现实验，极大地降低了入门门槛。此外，dLLM还实现了多个缺乏公开实现的研究算法（如Edit Flows），让许多仅存于论文中的方法得以落地，为后续探索提供了坚实基础。

团队明确将BERT Chat系列定位为一项教学与研究实验，而非追求商业性能的系统。在0.1B与0.4B的小模型规模下，其价值在于作为一个高效的入门示例，帮助研究者直观理解扩散式语言模型的训练与生成全流程。项目链接、技术报告和模型权重均已公开，为社区提供了宝贵的实践资源。

综上所述，这项研究的意义深远。它首次系统验证了基于BERT架构的模型通过离散扩散微调即可获得强大生成能力，且无需昂贵的生成式预训练。这为资源有限的研究者、学生和小型团队提供了切实可行的技术路径。同时，dLLM框架的开源填补了社区在易用开发工具上的空白，有望加速扩散式语言模型领域的创新与协作。未来，随着更多研究者基于此框架进行探索，我们或许将看到更多经典模型以低成本焕发新的生成潜力，进一步丰富自然语言处理的技术生态。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/6401

扩散式语言模型新突破：仅需50小时微调，BERT实现对话能力

相关推荐

AI大模型周报：阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

2025宝山智能机器人产业大会前瞻：从具身智能到核心部件，解码产业新生态

从感恩节AI狂欢到数字记忆危机：当虚假图像比真实更“完美”

从Roadster退款到52页备忘录：马斯克与奥特曼的OpenAI恩怨与Ilya证词深度解析

学术界的隐形操控：大模型审稿中的隐藏提示注入攻击及其对科研诚信的挑战

发表回复