并行推理 - 鲸林向海

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

当前主流的搜索智能体（Agent）普遍存在一个效率瓶颈：其执行流程是严格串行的。以广泛采用的ReAct框架为例，其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下，模型在等待搜索引擎返回结果时完全处于空闲状态，造成了大量的时间浪费。多轮交互中，延迟不断累积，严重影响了用户体验。研究团队通过分析发现，在多跳问答等复杂任务中，这种“干等”的串行…

2026年3月1日

78000

大模型推理

原生并行推理革命：NPR框架让AI智能体告别单线程思维，进化出多路径探索大脑

近年来，大语言模型在文本生成的流畅度和长度上进步显著。然而，当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时，传统的链式思维（Chain-of-Thought）方法便开始显得力不从心：它容易受早期判断误导、思维发散不足、自我纠错能力弱，并且其顺序生成的特性在效率上存在天然瓶颈。北京通用人工智能研究院（BIGA…

2025年12月27日

185000

AI产业动态

SDAR：打破大模型推理瓶颈的协同扩散-自回归新范式

在人工智能技术飞速发展的今天，大语言模型（LLM）已成为推动产业变革的核心引擎。然而，随着模型规模的不断扩大和应用场景的日益复杂，一个根本性挑战日益凸显：自回归（AR）模型的串行推理模式导致生成速度缓慢、服务成本高昂，严重制约了其在实时交互、大规模部署等场景下的应用潜力。近日，上海人工智能实验室联合多所高校的研究团队提出了一种革命性的解决方案——SDAR（S…

2025年11月1日

192000