推理加速 - 鲸林向海

动态缓存+自适应解码，哈工大华为联合提出免训练dLLM加速框架，最高4.48倍提速

Dynamic-dLLM团队投稿量子位 | 公众号 QbitAI 文本生成领域，扩散大语言模型（dLLMs）正展现出巨大潜力。但与此同时，它也面临严重的计算瓶颈—— 为此，哈工大（深圳）与华为、深圳河套学院的研究团队提出了一套免训练加速框架 Dynamic-dLLM。不同于主流dLLM加速方案（如dLLM-Cache、Fast-dLLM等），这些方案主…

大模型推理 4天前

81000

开源项目

Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面

《Mac本地AI新突破：4B模型实现476 tokens/s，数据不上云也能操控桌面》前段时间，一个名为 Skill 的开源项目引起了关注，它能让 Agent 控制你的 Mac。这个工具通过纯视觉方式理解桌面上的任何软件界面，像人类一样进行操作，并且所有处理都在你自己的电脑上完成，数据不会上传到云端。继 Skill 开源之后，该团队最近终于开源了其端侧模…

5天前

183000

大模型推理

斯坦福团队突破大模型推理瓶颈：SSD框架实现草拟验证并行，推理速度提升2倍

在大语言模型推理领域，推测解码（Speculative Decoding，SD）已成为加速生成的主流技术，但其草拟（Drafting）与验证（Verification）阶段必须串行执行，这构成了一个核心的性能瓶颈。近日，来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO，成功实现了草拟与验证的…

2026年4月1日

342000

AI产业动态

GigaWorld-Policy震撼发布：推理速度飙升10倍，训练效率提升10倍，真机成功率暴涨30%，开启机器人高频实时控制新纪元

近日，极佳视界（GigaAI）发布了全新的世界-动作模型（World-Action Model，简称 WAM）—— GigaWorld-Policy。该模型针对现有具身大模型在推理速度和训练效率方面的挑战，实现了显著性能提升：推理速度提升10倍，训练效率提升10倍，真机任务成功率提升30%。GigaWorld-Policy 的发布，标志着世界模型驱动的机器人…

2026年3月29日

426000

大模型推理

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

大模型 Agent 正从演示走向生产应用，面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而，许多看似先进的推理加速技术在落地时却可能失效：单步推理虽快，端到端性能反而下降；吞吐量虽高，高并发下却出现延迟抖动；上下文虽被压缩，Agent 却更容易迷失方向，导致交互回合数激增。为此，华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…

2026年3月13日

383000

AI产业动态

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画在图像生成领域，扩散模型通常需要数十步的迭代去噪才能生成高质量图像，这带来了高昂的计算成本，阻碍了实时应用。为了加速推理，常见的知识蒸馏方法试图将生成过程压缩到几步之内，但它们通常假设从噪声到图像的路径是一条直线，而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

2026年2月15日

382000

AI产业动态

清华RAM框架：大模型学会人类式精读略读，实现12倍推理加速与性能翻倍

RAM团队投稿量子位 | 公众号 QbitAI 让大模型像人类一样阅读！通过精读略读实现性能与效率的双重飞跃。在长上下文场景中，Transformer架构的二次计算复杂度让推理速度急剧下降，而人类面对长文档时却能游刃有余——我们不会逐字阅读整本小说，而是对关键情节精读，对背景描述略读。来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现…

2026年2月14日

334000

AI产业动态

华为MindScale算法架构升级：行业Agent实现工作流自进化与提示词自动化，KV Cache优化提升5.7倍效率

华为MindScale算法架构升级：行业Agent实现工作流自进化与提示词自动化，KV Cache优化提升5.7倍效率在大模型的多种应用形态中，执行专业功能的行业Agent，无疑是提升生产效率、实现价值创造的利器。然而，千行百业包含着大量的私域知识、专家经验和工具使用逻辑，使得智能体的行业应用构建存在各类门槛。为了提升开发效率，业界提出了诸如Skill…

2026年2月12日

303000

AI产业动态

高通QuoKA：无需训练、硬件无关，88% KV缩减实现5倍推理加速，革新LLM预填充效率

关键词：大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速无需训练、不依赖特定硬件，仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。近年来，随着大型语言模型（LLM）的广泛应用，其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…

2026年2月11日

344000

AI产业动态

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

关键词：dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型（dLLM）是一种融合了扩散模型迭代去噪特性的大语言模型，可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法（GEMM）为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…

2026年2月10日

366000