大模型推理

斯坦福团队突破大模型推理瓶颈：SSD框架实现草拟验证并行，推理速度提升2倍

在大语言模型推理领域，推测解码（Speculative Decoding，SD）已成为加速生成的主流技术，但其草拟（Drafting）与验证（Verification）阶段必须串行执行，这构成了一个核心的性能瓶颈。近日，来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO，成功实现了草拟与验证的…

2026年4月1日

342000

大模型推理

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型（VLM）和大语言模型（LLM）的默认形态。然而，真正的性能瓶颈往往潜藏在推理端的键值（KV）缓存中。随着上下文长度增加，KV缓存线性膨胀，导致显存占用与带宽开销飙升，进而严重压制模型吞吐量。因此，KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存，却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

2026年3月31日

246000

大模型工程

MoE模型：稀疏化革命如何突破大语言模型扩展瓶颈？

引言过去几年，大规模稠密语言模型的扩展是推动大语言模型 (LLMs) 发展的主要动力。从早期如ULMFiT（约3000万参数）或GPT-2（15亿参数）等模型，到如今拥有数千亿参数的系统，其核心扩展思路始终遵循一个简单的范式：数据越多 + 参数越多 = 性能越好缩放定律进一步强化了这一趋势。然而，纯粹扩展稠密模型正面临严峻的现实瓶颈：* 训练成本呈指数…

2026年3月27日

646000

大模型推理

NCCL EP统一MoE通信生态：打破碎片化，加速大模型推理新纪元

关键词： MoE（Mixture-of-Experts）、NCCL、GPU 通信、Device-Initiated Communication、大模型推理在通往通用人工智能的道路上，模型规模正以前所未有的速度扩张。当稠密的 Transformer 模型在计算和参数效率上触及瓶颈时，混合专家（Mixture-of-Experts, MoE）架构凭借其“加人加…

2026年3月26日

585000

大模型推理

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍当前大语言模型在推理任务上表现出色，但在需要多步骤、长上下文的精确计算任务中，其表现仍不理想。为此，一项获得卡帕西点赞的新研究提出了一种根本性解决方案：在大模型内部直接构建一台原生计算机。该方法摒弃了依赖外部工具的“外包”模式，创新性地在Transformer的权重中内嵌了…

2026年3月17日

406000

大模型推理

MiniMax模型惊现“马嘉祺”识别Bug：Tokenizer机制缺陷引发“幽灵编辑”现象

最近，有用户发现了一个有趣的现象：MiniMax的模型在处理“马嘉祺”这个名字时，出现了识别异常。起初这被认为是个偶然事件。但经过多方测试，该问题在不同接口和平台上均能稳定复现。甚至有人调侃道：未来如果在OpenRouter上出现一个匿名模型，且它认不出“马嘉祺”，那么它很可能就来自MiniMax。测试表明，无论是在MiniMax官方的Agent平台，…

2026年3月17日

714000

大模型推理

Parallel-Probe：大模型并行推理效率革命，计算浪费减少35.8%

当大模型推理进入并行思考时代，一个关键问题随之浮现：在并行推理过程中，大量计算资源是否被浪费在了那些已无必要继续的思考路径上？为探究此问题，来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手，而是首先引入 2D Probing 技术，系统性刻画了在线并行推理的全局动态特性…

2026年3月7日

321000

大模型推理

北大清华联手DeepSeek突破Agentic LLM推理瓶颈！DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

关键词： Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡近年来，大型语言模型（LLM）的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色，交互回合有限，上下文相对较短。然而，随着技术的发展，LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体（Agent）系统。这类系统通过多轮交互与环境（如代码解释器、浏览器、终端…

2026年2月26日

438000

大模型推理

COMI框架：通过边际信息增益实现高压缩率下的长文本智能压缩

为什么现有上下文压缩方法在高压缩率下集体“翻车”？当模型需要将32K的长文本压缩到1K时，性能为何会断崖式下跌？现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容，陷入“信息内卷”：看似保留了相关片段，实则堆砌了语义雷同的冗余token，反而会误导模型生成错误答案。来自阿里巴巴未来生活实验室的研究团队发现，这背后是压缩目标的根本错位：现有方法只关…

2026年2月25日

347000

大模型推理

颠覆AI推理：24人团队打造芯片即模型，每秒17000个token硬刚英伟达

造芯片的还有高手？刚刚推出的一款最新芯片，直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。这是什么概念？当前公认性能强大的Cerebras芯片，速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍，同时成本骤减20倍、功耗降低10倍。这使大语言模型（LLM）真正进入了亚毫秒级的即时响应时代。实机效果如下： …

2026年2月21日

738000