扩散语言模型

  • 微信AI突破扩散模型推理瓶颈:WeDLM实现vLLM部署3倍加速,低熵场景超10倍

    腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性…

    2026年1月3日
    7000
  • 华为openPangu-R-7B-Diffusion:扩散语言模型突破32K长文本瓶颈,开启“慢思考”推理新范式

    在人工智能技术快速演进的浪潮中,文本生成领域正经历着从自回归模型到扩散语言模型(Diffusion Language Models)的深刻范式转变。这一转变不仅代表着技术路径的革新,更预示着语言模型在处理复杂认知任务时的能力边界将被重新定义。然而,扩散模型在长序列训练中的不稳定性问题,尤其是上下文窗口的限制,一直是制约其在数学推理、编程任务等需要深度“慢思考…

    2025年12月2日
    7700
  • 扩散式语言模型新突破:仅需50小时微调,BERT实现对话能力

    近日,加州大学伯克利分校计算机博士生周展辉与伊利诺伊大学厄巴纳香槟分校计算机博士生陈凌杰领导的团队,在扩散式语言模型(Diffusion Language Model, DLM)领域取得了一项引人注目的进展。他们基于自研的扩散语言模型工具dLLM,通过一项创新实验证明:经典的BERT模型仅需约50 GPU・小时的监督微调,就能获得接近主流小规模生成式语言模型…

    2025年11月23日
    8700