推理加速
-
动态缓存+自适应解码,哈工大华为联合提出免训练dLLM加速框架,最高4.48倍提速
Dynamic-dLLM团队 投稿 量子位 | 公众号 QbitAI 文本生成领域,扩散大语言模型(dLLMs)正展现出巨大潜力。但与此同时,它也面临严重的计算瓶颈—— 为此,哈工大(深圳)与华为、深圳河套学院的研究团队提出了一套免训练加速框架 Dynamic-dLLM。 不同于主流dLLM加速方案(如dLLM-Cache、Fast-dLLM等),这些方案主…
-
Mac本地AI新突破:4B模型实现476 tokens/s,数据不上云也能操控桌面
《Mac本地AI新突破:4B模型实现476 tokens/s,数据不上云也能操控桌面》 前段时间,一个名为 Skill 的开源项目引起了关注,它能让 Agent 控制你的 Mac。这个工具通过纯视觉方式理解桌面上的任何软件界面,像人类一样进行操作,并且所有处理都在你自己的电脑上完成,数据不会上传到云端。 继 Skill 开源之后,该团队最近终于开源了其端侧模…
-
斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍
在大语言模型推理领域,推测解码(Speculative Decoding,SD)已成为加速生成的主流技术,但其草拟(Drafting)与验证(Verification)阶段必须串行执行,这构成了一个核心的性能瓶颈。 近日,来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO,成功实现了草拟与验证的…
-
GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元
近日,极佳视界(GigaAI)发布了全新的世界-动作模型(World-Action Model,简称 WAM)—— GigaWorld-Policy。该模型针对现有具身大模型在推理速度和训练效率方面的挑战,实现了显著性能提升:推理速度提升10倍,训练效率提升10倍,真机任务成功率提升30%。GigaWorld-Policy 的发布,标志着世界模型驱动的机器人…
-
AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱
大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。 为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…
-
ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画
ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画 在图像生成领域,扩散模型通常需要数十步的迭代去噪才能生成高质量图像,这带来了高昂的计算成本,阻碍了实时应用。为了加速推理,常见的知识蒸馏方法试图将生成过程压缩到几步之内,但它们通常假设从噪声到图像的路径是一条直线,而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…
-
清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍
RAM团队 投稿 量子位 | 公众号 QbitAI 让大模型像人类一样阅读!通过精读略读实现性能与效率的双重飞跃。 在长上下文场景中,Transformer架构的二次计算复杂度让推理速度急剧下降,而人类面对长文档时却能游刃有余——我们不会逐字阅读整本小说,而是对关键情节精读,对背景描述略读。 来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现…
-
华为MindScale算法架构升级:行业Agent实现工作流自进化与提示词自动化,KV Cache优化提升5.7倍效率
华为MindScale算法架构升级:行业Agent实现工作流自进化与提示词自动化,KV Cache优化提升5.7倍效率 在大模型的多种应用形态中,执行专业功能的行业Agent,无疑是提升生产效率、实现价值创造的利器。 然而,千行百业包含着大量的私域知识、专家经验和工具使用逻辑,使得智能体的行业应用构建存在各类门槛。 为了提升开发效率,业界提出了诸如Skill…
-
高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率
关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…
-
突破GPU瓶颈:d-PLENA NPU架构实现扩散大模型采样2.53倍加速
关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…
