大模型推理
-
告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升
来自复旦大学、上海交通大学及上海人工智能实验室的研究者共同完成了这项工作。第一作者江书洋是复旦大学与上海人工智能实验室的联合培养博士生,目前在实验室担任见习研究员,师从上海交通大学人工智能学院的王钰教授与张娅教授。 以DeepSeek-R1和OpenAI GPT Thinking为代表的大型推理模型,凭借长达数千token的“思维链”,在各类复杂推理任务中展…
-
存内计算芯片设计新范式:AccelCIM框架如何打破“纸上最优”魔咒?
当算力密度与能效比成为AI芯片追求的终极目标时,基于SRAM的存内计算(CIM)技术被寄予厚望。然而,一个现实困境随之浮现:面对像LLaMA-3这类动辄数十亿参数的大模型,片上存储容量显得捉襟见肘。 既然模型无法完全“常驻”于芯片内部,那么数据在片内与片外之间的流动方式,便成为了决定性能的关键变量。这正是本文的核心切入点。作者一针见血地指出,过往众多CIM加…
-
PRISM:专为离散扩散语言模型设计的高效测试时扩展框架,颠覆传统自回归推理范式
近年来,大模型能力的提升焦点正逐步从“训练时扩展”转向“推理时扩展”。从 Best-of-N、Self-Consistency 到更为复杂的搜索与验证框架,测试时扩展(Test-Time Scaling)已成为提升大模型复杂推理能力的关键范式。 然而,一个长期被忽略的问题是:这些方法大多默认模型采用自回归生成方式。 对于离散扩散语言模型(Discrete D…
-
Meta IKBO:如何通过内核内广播优化,将推荐系统推理延迟降低一个数量级?
推荐系统推理与大语言模型推理之间存在一个显著却常被忽略的差异:同一请求中的大量候选内容,往往共享同一份用户上下文信息。 在传统实现中,这意味着用户嵌入、用户序列等“请求级共享特征”必须反复复制,才能与候选批次对齐并送入交互层进行计算。这一复制操作看似只是“广播”,但在工业级部署中,它会持续吞噬显存带宽、推高 IO 成本,并导致延迟随候选数量线性恶化。 In-…
-
机器人拉个拉链也要“动脑子”?北大等提出LaST-R1,让机器人先想再做,成功率狂飙至99.9%
机器人拉拉链也得“动脑子”?北大等提出 LaST-R1:先想后做,成功率飙至 99.9% 机器人拉拉链,究竟需不需要“思考”? 过去几年,从 OpenVLA 到 π0、π0.5,具身大模型已经能让机器人将指令与动作流畅地串联起来。 但一旦物体位置偏移几厘米,或者光照条件稍有变化,它们往往就会“当场卡壳”。 究其根本,是因为这些机器人大多在玩一种“视觉映射游戏…
-
动态缓存+自适应解码,哈工大华为联合提出免训练dLLM加速框架,最高4.48倍提速
Dynamic-dLLM团队 投稿 量子位 | 公众号 QbitAI 文本生成领域,扩散大语言模型(dLLMs)正展现出巨大潜力。但与此同时,它也面临严重的计算瓶颈—— 为此,哈工大(深圳)与华为、深圳河套学院的研究团队提出了一套免训练加速框架 Dynamic-dLLM。 不同于主流dLLM加速方案(如dLLM-Cache、Fast-dLLM等),这些方案主…
-
FlashRT:专为机器人实时控制打造的推理引擎,延迟低至2.39ms,性能碾压TensorRT
关于大模型推理的常见讨论,往往聚焦于“更高的吞吐量”、“更大的批处理规模”以及“更复杂的服务化系统”。 然而,在机器人控制、实时交互和边缘部署等场景中,我们面临的是一套截然不同的挑战:批量极小、延迟极度敏感、输入形态频繁变化,控制闭环无法容忍数十毫秒的额外调度开销。 TensorRT 擅长将模型编译为冻结的引擎,vLLM 与 SGLang 则专注于服务高并发…
-
智能体推理引擎TokenSpeed:重新定义LLM推理效率,优化从内核到调度全栈
大型语言模型推理的性能瓶颈,早已不再局限于“矩阵乘法运算的速度够不够快”这个单一维度。 随着 Claude Code、Codex、Cursor 这类智能体编码系统从演示级产品蜕变为真正的生产力工具,推理系统所应对的流量特征也发生了根本性转变:上下文长度动辄超过 50K tokens,对话轮次跨越数十轮,工具调用、代码检索、补丁生成以及反思修正等操作不断交织在…
-
RDMA+P2P权重传输提速7倍:SGLang如何用32GB CPU内存换1T模型秒级更新
我们为 SGLang 中的强化学习工作负载引入了一种基于 RDMA 的点对点权重更新机制,作为传统 NCCL 广播方法的补充,该机制兼容所有主流开源模型。 在数秒内更新 1T 参数 —— 大规模分布式强化学习中的点对点权重传输 https://www.lmsys.org/blog/2026-04-29-p2p-update/ 全文约 6000 字,阅读需 4…
-
AMD ATOM推理引擎:如何用分页KV缓存和分段编译实现大模型推理性能翻倍
在探讨大模型推理优化时,最引人注目的往往是单一算子的性能提升:GEMM 加速了多少,Attention 快了百分之几,MoE 路由是否已经融合。然而,真正左右线上服务体验的,并非单个 kernel 的峰值指标,而是一条请求从 HTTP 入口进入,经历分词、调度、写入 KV 缓存、进入 GPU 图执行、经过采样,再到流式返回的完整生命周期。 以下图表展示了 D…
