大模型推理

大模型随机性幻觉：Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷

大模型随机性幻觉：Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷（1/4）关键词：大语言模型、随机采样、智能体、分布偏差、伪随机幻觉本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中，直指大模型智能体一项被长期掩盖的致命…

2026年4月15日

200000

大模型推理

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

研究发现，多模态大模型的幻觉问题，很多时候并非源于“看错”图像，而是在推理链最不确定的阶段“想偏”。具体而言，模型在生成 because、however、wait 等转折词时，往往处于高熵关键节点，更容易脱离视觉证据，转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能，并注入视觉锚点，有效缓解了这一问题。随着多模…

2026年4月10日

261000

大模型推理

苹果官方批准TinyGPU驱动：Mac用户现可外接NVIDIA/AMD显卡运行AI推理，无需关闭SIP

关键词：AI、Apple、GPU、硬件、推理、开源专为 AI 设计，游戏玩家再次失望 Apple approves drivers that let AMD and Nvidia eGPUs run on Mac — software designed for AI, though, and not built for gaming https://www…

2026年4月7日

1.5K000

大模型推理

突破注意力瓶颈！FlatAttention数据流+片上集合通信协同优化，晶圆级系统实现2.9倍吞吐量提升

关键词：晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计随着大语言模型（LLM）推理的序列长度急剧增长以及混合专家（MoE）架构的普及，注意力（Attention）算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。图 1：(a) 大语言模型在预填充与解码阶段的浮点运算…

2026年4月7日

427000

大模型推理

清华&港中文团队提出ColaVLA：自动驾驶推理告别文本，潜空间思维+分层并行规划引领新范式

过去两年，自动驾驶与大模型（尤其是视觉语言模型，VLM）的结合成为热门研究方向。一个直观的思路是：利用VLM强大的场景理解与推理能力，使其像人类驾驶员一样，先理解环境、再做判断、最后输出控制轨迹。然而，将这一思路落地到自动驾驶领域时，一个普遍存在的问题是：许多方法虽然引入了大模型，却仍将“推理”过程构建为文本链式思维（Chain-of-Thought）。即…

2026年4月3日

347000

大模型推理

SkipOPU：突破动态推理瓶颈，FPGA加速大语言模型效率革命

关键词：大语言模型、动态推理、FPGA 加速、混合精度计算、KV 缓存管理大语言模型的推理效率面临一个根本性矛盾：模型对所有词元执行相同的计算，但不同词元对语义的贡献差异巨大。正如人类阅读时会自动略过虚词，聚焦实词，大模型也应具备“选择性计算”的能力——这正是动态计算分配方法（如 SkipGPT）的核心思想。然而，算法层面宣称的计算量减少，往往难以在实际…

2026年4月3日

301000

大模型推理

斯坦福团队突破大模型推理瓶颈：SSD框架实现草拟验证并行，推理速度提升2倍

在大语言模型推理领域，推测解码（Speculative Decoding，SD）已成为加速生成的主流技术，但其草拟（Drafting）与验证（Verification）阶段必须串行执行，这构成了一个核心的性能瓶颈。近日，来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO，成功实现了草拟与验证的…

2026年4月1日

350000

大模型推理

告别暴力堆卡！FleetOpt用“压缩即路由”破解LLM推理集群成本悬崖，最高节省82.4% GPU成本

关键词： LLM 推理、集群规划、成本悬崖、压缩即路由、M/G/c 队列当我们在讨论大模型推理时，我们究竟在关注什么？是每秒处理的 Token 数（TPS）？是首字延迟（TTFT）？还是那令人瞩目的 GPU 云服务器账单？如果你曾管理或规划过 LLM 推理集群，很可能面临过一个“房间里的大象”：我们的集群是为最坏情况设计的，但绝大多数请求从未触及那个边界…

2026年4月1日

325000

大模型推理

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型（VLM）和大语言模型（LLM）的默认形态。然而，真正的性能瓶颈往往潜藏在推理端的键值（KV）缓存中。随着上下文长度增加，KV缓存线性膨胀，导致显存占用与带宽开销飙升，进而严重压制模型吞吐量。因此，KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存，却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

2026年3月31日

246000

大模型推理

谷歌TurboQuant算法震撼发布：KV Cache压缩6倍精度零损失，AI推理迎来内存革命

谷歌研究院在即将到来的ICLR 2026学术会议上展示了一项突破性研究，推出了名为 TurboQuant 的新型压缩算法。该算法能够将AI推理过程中内存消耗最大的KV Cache压缩至少6倍，同时实现精度零损失。这一进展被市场解读为可能显著降低长上下文AI推理对内存的需求。 KV Cache量化至3比特要理解TurboQuant的重要性，首先需要明确其解决…

2026年3月26日

786000

分类

排序

大模型推理

大模型随机性幻觉：Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

苹果官方批准TinyGPU驱动：Mac用户现可外接NVIDIA/AMD显卡运行AI推理，无需关闭SIP

突破注意力瓶颈！FlatAttention数据流+片上集合通信协同优化，晶圆级系统实现2.9倍吞吐量提升

清华&港中文团队提出ColaVLA：自动驾驶推理告别文本，潜空间思维+分层并行规划引领新范式

SkipOPU：突破动态推理瓶颈，FPGA加速大语言模型效率革命

斯坦福团队突破大模型推理瓶颈：SSD框架实现草拟验证并行，推理速度提升2倍

告别暴力堆卡！FleetOpt用“压缩即路由”破解LLM推理集群成本悬崖，最高节省82.4% GPU成本

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

谷歌TurboQuant算法震撼发布：KV Cache压缩6倍精度零损失，AI推理迎来内存革命