大模型推理
-
FAST-Prefill:FPGA动态稀疏注意力加速器,突破长上下文LLM预填充瓶颈,性能提升2.5倍
FAST-Prefill 并非简单的算法硬件映射,而是一个硬件-算法深度协同设计的范例。它基于 Flex-Prefill 算法的计算模式与数据流特征,定制了专用的数据通路与访存策略。这项工作不仅提供了一个实用的加速方案,更确立了一种方法论启示:针对特定工作负载,精巧的架构设计往往比通用算力的堆砌更为高效。 关键词:FPGA 加速、稀疏注意力、长上下文 LLM…
-
RL驱动的KV缓存压缩框架KV Policy:超越启发式策略SOTA性能,仅增1%预填充计算开销
关键词:大语言模型、KV 缓存、强化学习、缓存驱逐、长上下文推理 自 Transformer 架构诞生以来,大型语言模型(LLMs)在自然语言处理领域取得了革命性进展。从文本生成到逻辑推理,从多轮对话到长文档理解,LLMs 的能力边界不断拓展。然而,模型性能的飞跃背后,是日益严峻的推理效率挑战——当处理长序列或交互式会话时,KV(Key-Value)缓存成为…
-
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减
当前主流的搜索智能体(Agent)普遍存在一个效率瓶颈:其执行流程是严格串行的。以广泛采用的ReAct框架为例,其模式为 “思考→调用工具→等待结果→再思考……” 。在这种模式下,模型在等待搜索引擎返回结果时完全处于空闲状态,造成了大量的时间浪费。多轮交互中,延迟不断累积,严重影响了用户体验。 研究团队通过分析发现,在多跳问答等复杂任务中,这种“干等”的串行…
-
DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升
DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升 当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外…
-
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!
首个系统性研究:强化学习如何让3D模型学会推理? 图像生成领域,强化学习(RL)已交出亮眼答卷。那么,在更具挑战性的3D生成领域,RL能否同样奏效?当GRPO等算法让大模型在数学、代码推理上实现质变时,一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的工作 正式诞生,并已被CVPR 2026接收。该研究并非简单移植2D经验,而是针…
-
DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍
DeepSeek 联合北大清华发布 DualPath 框架:利用闲置网卡突破 Agent 推理 I/O 瓶颈,性能提升近 2 倍 当业界广泛关注 DeepSeek 的 GitHub 仓库,期待其下一代模型发布时,DeepSeek 与北京大学、清华大学的研究团队在 arXiv 上悄然发布了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架的核…
-
RL赋能3D生成新突破:首个系统性强化学习研究让3D模型学会复杂文本推理,生成质量大幅跃升
RL赋能3D生成新突破:首个系统性强化学习研究让3D模型学会复杂文本推理 图像生成领域,强化学习(RL)已取得显著成果。那么,3D生成呢? 当GRPO(Group Relative Policy Optimization)等技术推动大模型在数学、代码推理上实现质变时,一项开创性研究率先给出了答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,…
-
北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升
关键词: Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡 近年来,大型语言模型(LLM)的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色,交互回合有限,上下文相对较短。然而,随着技术的发展,LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体(Agent)系统。这类系统通过多轮交互与环境(如代码解释器、浏览器、终端…
-
谷歌Aletheia创FirstProof数学挑战新纪录:AI自主解决6道高难度研究问题,超越IMO金牌表现
去年七月,国际数学奥林匹克竞赛(IMO)见证了人工智能系统首次达到金牌水平。当时,OpenAI与谷歌DeepMind相继宣布其AI模型在此类测试中取得优异成绩,其中DeepMind的Gemini模型更是首个获得IMO官方金牌认证的AI系统。 然而,竞赛解题与真正的数学研究之间,仍存在显著差异。 此后,AI智能体技术飞速发展,其解决数学问题的能力不再仅仅依赖于…
-
Co-rewarding:突破自监督RL瓶颈,无标注数据下稳定诱导大模型推理能力
本文介绍的工作来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数…
