大模型推理
-
告别大模型“过度思考”:复旦等团队提出DECS框架,推理长度减半,准确率反升
来自复旦大学、上海交通大学及上海人工智能实验室的研究者共同完成了这项工作。第一作者江书洋是复旦大学与上海人工智能实验室的联合培养博士生,目前在实验室担任见习研究员,师从上海交通大学人工智能学院的王钰教授与张娅教授。 以DeepSeek-R1和OpenAI GPT Thinking为代表的大型推理模型,凭借长达数千token的“思维链”,在各类复杂推理任务中展…
-
冻结大模型也能精准划重点?HiLight新方法用轻量助手引导注意力,提升推理表现
在实际应用场景中,大型语言模型常常会遗漏关键信息,这被称为“Lost in the Middle”(迷失在中间)现象——即模型对位于输入中间位置的内容关注度显著不足。目前,主流的优化策略主要分为两大方向: 硬选择:先通过检索或裁剪提取相关片段,再将其输入模型。但这种方法可能导致对推理至关重要的上下文信息丢失。 软选择:利用摘要或压缩技术缩短输入文本长度。然而…
-
告别短视路由!RMS-MoE用记忆检索让MoE专家协作效率倍增
随着大模型参数规模持续膨胀,Mixture-of-Experts(MoE)已成为平衡模型容量与计算成本的关键架构。然而,在真实世界的 Web 级系统中,MoE 的路由机制存在一个常被忽略的缺陷:它本质上是“无记忆”的。 在搜索、问答、对话等高并发场景中,大量输入并非彼此孤立,而是存在显著的语义重复与结构相似性。传统的 MoE 路由器每次仅基于当前输入独立决策…
-
Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍
中科院计算所发布晶圆级存算一体芯片Ouroboros,大模型推理吞吐量最高提升9.1倍 当前大模型的发展呈现出模型规模持续攀升的趋势,对计算硬件的需求也随之快速增长。从千亿参数到万亿规模,每一次迭代都对硬件资源提出了更高的要求。 在这一背景下,一个关键的“隐性开销”日益凸显:数据搬运。在传统计算架构中,一次推理过程往往需要在DRAM、SRAM与计算单元之间反…
-
Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%
长上下文推理新突破:Kimi提出PrFaaS范式,实现跨机房调度 将长上下文能力做到极致的Kimi,近日联合清华大学团队,在大模型推理架构上取得关键进展。 他们提出了一种名为 Prefill-as-a-Service(PrFaaS) 的全新范式,即“预填充即服务”。其核心突破在于,首次实现了 KV Cache 能够跨数据中心进行传输,从而将大模型推理中的 P…
-
ArcLight:突破众核CPU推理瓶颈,NUMA感知架构让LLM推理性能飙升46%
当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而,主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。 这类平台普遍采用非统一内存访问(NUMA)架构,其跨节点的内存访问延迟远高于本地访问,形成了严重的“跨 NUMA 内存访问墙”,成为制约 LLM 推理性能的核心瓶颈。 现…
-
OmniInfer:统一多后端引擎,破解端侧大模型推理碎片化难题
随着大语言模型(LLM)和视觉语言模型(VLM)在参数量和架构上快速演进,AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。 端侧推理能够显著降低对云端服务器的算力依赖与带宽压力,并在保护用户数据隐私的前提下,提供离线可用、低延迟的交互体验。然而,要将LLM/VLM真正部署到“每一台设备上”,开发者面临着前所未有的工程挑战。 核心问题与痛点 硬件生…
-
京东发布JoyAI-LLM Flash:480亿参数仅激活2.7B,稀疏率超94%的MoE大模型,重新定义token效率与性能平衡
一个拥有480亿参数的大模型,每次推理仅激活其中2.7B参数——稀疏率超过94%。在18个基准测试的平均表现中,它以更低的token消耗达到了与同级甚至更大模型相当或更优的准确率。这就是京东发布的JoyAI-LLM Flash。 论文指出,当前大语言模型面临两大交织挑战:token效率低下与计算成本高昂。JoyAI-LLM Flash正是为此而生——一个在5…
-
突破注意力瓶颈!FlatAttention数据流+片上集合通信协同优化,晶圆级系统实现2.9倍吞吐量提升
关键词:晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计 随着大语言模型(LLM)推理的序列长度急剧增长以及混合专家(MoE)架构的普及,注意力(Attention)算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。 图 1:(a) 大语言模型在预填充与解码阶段的浮点运算…
-
Gemma 4震撼发布:256K上下文、原生多模态、Apache 2.0许可,开源模型新标杆
Google DeepMind 正式发布 Gemma 4,这是一个包含四个型号的多模态开源模型家族。 四款模型分别为:E2B(2.3B 有效参数)、E4B(4.5B 有效参数)、31B(密集模型)以及 26B A4B(MoE 架构,4B 激活参数)。其中,31B 和 26B A4B 均支持 256K 上下文窗口,并可在单张 H100 GPU 上运行。 从架构…
