大模型推理

Parallel-Probe：大模型并行推理效率革命，计算浪费减少35.8%

当大模型推理进入并行思考时代，一个关键问题随之浮现：在并行推理过程中，大量计算资源是否被浪费在了那些已无必要继续的思考路径上？为探究此问题，来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手，而是首先引入 2D Probing 技术，系统性刻画了在线并行推理的全局动态特性…

5天前

85000

大模型推理

北大清华联手DeepSeek突破Agentic LLM推理瓶颈！DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

关键词： Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡近年来，大型语言模型（LLM）的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色，交互回合有限，上下文相对较短。然而，随着技术的发展，LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体（Agent）系统。这类系统通过多轮交互与环境（如代码解释器、浏览器、终端…

2026年2月26日

127000

大模型推理

COMI框架：通过边际信息增益实现高压缩率下的长文本智能压缩

为什么现有上下文压缩方法在高压缩率下集体“翻车”？当模型需要将32K的长文本压缩到1K时，性能为何会断崖式下跌？现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容，陷入“信息内卷”：看似保留了相关片段，实则堆砌了语义雷同的冗余token，反而会误导模型生成错误答案。来自阿里巴巴未来生活实验室的研究团队发现，这背后是压缩目标的根本错位：现有方法只关…

2026年2月25日

108000

大模型推理

颠覆AI推理：24人团队打造芯片即模型，每秒17000个token硬刚英伟达

造芯片的还有高手？刚刚推出的一款最新芯片，直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。这是什么概念？当前公认性能强大的Cerebras芯片，速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍，同时成本骤减20倍、功耗降低10倍。这使大语言模型（LLM）真正进入了亚毫秒级的即时响应时代。实机效果如下： …

2026年2月21日

182000

AI产业动态

谷歌Gemini 3.1 Pro震撼发布：百万Token上下文、全领域SOTA刷新、SVG生成王者，价格不变性能翻倍

今天凌晨，谷歌正式发布了Gemini 3.1 Pro模型。该模型在多项基准测试中刷新了全领域SOTA（State-of-the-Art）记录，实现了推理能力的大幅跃升。在ARC-AGI-2测试中，Gemini 3.1 Pro得分77.1%，性能是上一代3.0 Pro的两倍多。在ARC-AGI-1测试中，新模型得分达到98%，超越了GPT-5.2 Pro和C…

2026年2月20日

154000

AI产业动态

通义Qwen3.5-Plus深度测评：开源战神部队的排头兵，推理效率与性价比双突破

短的结论：开源战神部队的排头兵基本情况： Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论，此前Qwen2.5-80B 曾战平旧款235B模型，如今这一策略再次上演：不到400B参数的Plus模型，在能力上已能追赶上一代万亿参数规模的Max模型。其单位Token的推理性能也达到了前所未有的优秀水平。要…

2026年2月18日

214000

AI产业动态

华为发布扩散语言模型Agent：部分场景效率飙升8倍，开启AI智能体新范式

大模型通往现实世界的“最后三公里”：Agent范式迎来效率革命当前，衡量AI智能体（Agent）能力的标准已发生深刻变化。核心不再仅仅是“答对问题”，而是看其能否在面对多轮推理、工具调用及复杂协作时，以最短的路径和最少的交互成本，稳定地完成任务。在此背景下，一个根本性问题凸显出来：当Agent的框架、工具、数据和训练方式均保持一致时，仅改变其底层语言模型…

2026年2月10日

95000

AI产业动态

扩散语言模型：从架构挑战到推理优化的深度探索

★ 原文链接：https://zhuanlan.zhihu.com/p/1998418717743289472 作者：王云鹤在思考这一主题时，我首先回想起多年前一位前辈提出的问题：Transformer的下一代范式是什么？我当时认为，Transformer是长期技术积累从量变到质变的成果，其思想（如Non-local模块）在早期视觉研究中已有体现，而卷积…

2026年2月8日

82000

AI产业动态

决战性能之巅！MLSys 2026 CUDA 内核优化大赛开启，用代码挑战 B200 GPU 极限

关键词： FlashInfer、MLSys26、高性能推理、AI 计算、深度学习一行行精简的 CUDA 代码，将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日，一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…

2026年1月25日

265000

AI产业动态

思维链太长拖慢推理？把它「画」进隐空间！新框架RoT探索大模型隐空间推理新范式

在 LLM 时代，思维链（CoT）已成为解锁模型复杂推理能力的关键技术。然而，CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤，带来了巨大的计算开销和显存占用，严重制约了推理效率。为了解决这个问题，研究界近期尝试了「隐式 CoT」（Implicit CoT），即让模型在内部隐状态中完成推理，而不输出具体文本。这种方法虽然速度快，却是一个「黑…

2026年1月23日

170000