大模型推理
-
大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷
大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷(1/4) 关键词:大语言模型、随机采样、智能体、分布偏差、伪随机幻觉 本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中,直指大模型智能体一项被长期掩盖的致命…
-
多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题
研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。 随着多模…
-
苹果官方批准TinyGPU驱动:Mac用户现可外接NVIDIA/AMD显卡运行AI推理,无需关闭SIP
关键词:AI、Apple、GPU、硬件、推理、开源 专为 AI 设计,游戏玩家再次失望 Apple approves drivers that let AMD and Nvidia eGPUs run on Mac — software designed for AI, though, and not built for gaming https://www…
-
突破注意力瓶颈!FlatAttention数据流+片上集合通信协同优化,晶圆级系统实现2.9倍吞吐量提升
关键词:晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计 随着大语言模型(LLM)推理的序列长度急剧增长以及混合专家(MoE)架构的普及,注意力(Attention)算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。 图 1:(a) 大语言模型在预填充与解码阶段的浮点运算…
-
清华&港中文团队提出ColaVLA:自动驾驶推理告别文本,潜空间思维+分层并行规划引领新范式
过去两年,自动驾驶与大模型(尤其是视觉语言模型,VLM)的结合成为热门研究方向。一个直观的思路是:利用VLM强大的场景理解与推理能力,使其像人类驾驶员一样,先理解环境、再做判断、最后输出控制轨迹。 然而,将这一思路落地到自动驾驶领域时,一个普遍存在的问题是:许多方法虽然引入了大模型,却仍将“推理”过程构建为文本链式思维(Chain-of-Thought)。即…
-
SkipOPU:突破动态推理瓶颈,FPGA加速大语言模型效率革命
关键词:大语言模型、动态推理、FPGA 加速、混合精度计算、KV 缓存管理 大语言模型的推理效率面临一个根本性矛盾:模型对所有词元执行相同的计算,但不同词元对语义的贡献差异巨大。正如人类阅读时会自动略过虚词,聚焦实词,大模型也应具备“选择性计算”的能力——这正是动态计算分配方法(如 SkipGPT)的核心思想。 然而,算法层面宣称的计算量减少,往往难以在实际…
-
斯坦福团队突破大模型推理瓶颈:SSD框架实现草拟验证并行,推理速度提升2倍
在大语言模型推理领域,推测解码(Speculative Decoding,SD)已成为加速生成的主流技术,但其草拟(Drafting)与验证(Verification)阶段必须串行执行,这构成了一个核心的性能瓶颈。 近日,来自斯坦福大学、普林斯顿大学和 Together AI 的研究团队提出了 SSD 框架及其优化算法 SAGUARO,成功实现了草拟与验证的…
-
告别暴力堆卡!FleetOpt用“压缩即路由”破解LLM推理集群成本悬崖,最高节省82.4% GPU成本
关键词: LLM 推理、集群规划、成本悬崖、压缩即路由、M/G/c 队列 当我们在讨论大模型推理时,我们究竟在关注什么?是每秒处理的 Token 数(TPS)?是首字延迟(TTFT)?还是那令人瞩目的 GPU 云服务器账单? 如果你曾管理或规划过 LLM 推理集群,很可能面临过一个“房间里的大象”:我们的集群是为最坏情况设计的,但绝大多数请求从未触及那个边界…
-
MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快
长上下文推理已成为视觉-语言模型(VLM)和大语言模型(LLM)的默认形态。然而,真正的性能瓶颈往往潜藏在推理端的键值(KV)缓存中。随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而严重压制模型吞吐量。 因此,KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存,却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…
-
谷歌TurboQuant算法震撼发布:KV Cache压缩6倍精度零损失,AI推理迎来内存革命
谷歌研究院在即将到来的ICLR 2026学术会议上展示了一项突破性研究,推出了名为 TurboQuant 的新型压缩算法。该算法能够将AI推理过程中内存消耗最大的KV Cache压缩至少6倍,同时实现精度零损失。这一进展被市场解读为可能显著降低长上下文AI推理对内存的需求。 KV Cache量化至3比特 要理解TurboQuant的重要性,首先需要明确其解决…
