推理优化
-
DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升
DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升 当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外…
-
DeepSeek联手清北发布DualPath框架:用闲置网卡打破Agent推理瓶颈,性能提升近2倍
DeepSeek 联合北大清华发布 DualPath 框架:利用闲置网卡突破 Agent 推理 I/O 瓶颈,性能提升近 2 倍 当业界广泛关注 DeepSeek 的 GitHub 仓库,期待其下一代模型发布时,DeepSeek 与北京大学、清华大学的研究团队在 arXiv 上悄然发布了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架的核…
-
AI大模型周报:阿里Qwen3.5 Plus多模态突破、谷歌Gemini 3.1 Pro推理升级、蚂蚁Ling-2.5即时模型开源
2月16日 【开源】阿里推出最新模型 Qwen3.5 Plus,支持文本、图像和视频多模态输入。 该模型在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面(GUI)等多种任务中表现卓越,并支持内置工具调用。详情请参见:https://help.aliyun.com/zh/model-studio/text-generation 【开…
-
LightRetriever:颠覆传统!千倍提速的LLM检索架构,将计算负担从查询侧彻底移除
近年来,大模型文本检索(LLM-based Text Retrieval)技术发展迅猛,主流的LLM Embedding模型参数量普遍在7B以上,在相关性搜索性能提升的同时,也带来了部署成本的大幅增长。 传统的LLM Embedding模型通常采用对称式双塔结构,查询(Query)端和文档(Doc)端共享同一个完整的大语言模型。然而,一个长期被忽视的问题是:…
-
Qwen3.5震撼发布:3970亿参数性能超万亿模型,推理吞吐量提升19倍,开源AI新标杆诞生
智东西2月16日报道,刚刚,Qwen3.5正式发布并开源,在多模态理解、复杂推理、编程、Agent智能体等几大能力上领先同级开源模型,多项基准测试成绩媲美甚至超越GPT-5.2、Gemini 3 Pro等闭源第一梯队模型。 Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,其性能超越了万亿参数的Qwen3-Max模型。在部署上,其显存占用降低了…
-
SIM-CoT:隐式推理新突破,零开销实现可解释的AI内部思考
魏熙林是本文的第一作者,复旦大学博士生,师从林达华教授,研究方向主要为多模态大语言模型与高效人工智能。他目前在上海人工智能实验室实习,指导老师为臧宇航与王佳琦。 本文介绍隐式思维链(Implicit Chain-of-Thought)的最新进展——SIM-CoT(Supervised Implicit Chain-of-Thought)。该方法直击了隐式Co…
-
FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。现有的通用视觉 token 剪枝方法并非为自动驾驶场景设计,在实际应用中存在诸多局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文《FastDriveVLA》,为自动驾驶 VLA 模型中的高效视觉 token …
-
信息论视角下的思考革命:Adaptive Think如何终结大模型的过度推理困境
在人工智能领域,大模型的推理能力已成为衡量技术进步的关键指标。从OpenAI的o1系列到DeepSeek的R1,再到QwQ等强化学习推理模型,这些系统通过生成冗长的推理链条(Chain-of-Thought,CoT),在数学、逻辑和常识推理任务中展现出令人瞩目的多步推理能力。然而,中国人民大学、腾讯Jarvis Lab和西湖大学的研究团队通过深入分析发现,当…
-
2025年AI大分流:100万亿Token数据揭示开源崛起、推理为王与亚洲时刻
100万亿Token实证:2025年AI大分流全景图 2025年,人工智能领域迎来一个结构性转折点。OpenRouter与a16z联合发布了一份基于真实算力消耗的深度研究报告,通过分析过去一年处理的超过100万亿个Token的元数据,揭示了当前AI发展的核心趋势与反直觉洞察。这份报告摒弃了传统的学术基准或宣称的用户数,从全球300多个模型、60多个提供方的实…
-
华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命
在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…
