大模型推理
-
通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破
短的结论:开源战神部队的排头兵 基本情况: Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。 其单位Token的推理性能也达到了前所未有的优秀水平。要…
-
腾讯开源Sherry三元量化方案:1.25bit登顶LLM边缘推理,3:4稀疏榨干硬件性能
关键词:三元量化、细粒度稀疏、3:4稀疏模式、权重陷阱、退火残余突触 大语言模型(LLM)的部署正面临一个根本性矛盾:模型规模持续扩大与终端硬件资源受限之间的矛盾。云端推理虽然强大,但数据隐私、网络延迟、服务成本等问题日益突出,将LLM推向边缘设备已成为必然趋势。 在众多模型压缩技术中,权重量化因其直接降低模型尺寸和计算开销而备受关注。然而,大多数现有量化方…
-
ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画
ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画 在图像生成领域,扩散模型通常需要数十步的迭代去噪才能生成高质量图像,这带来了高昂的计算成本,阻碍了实时应用。为了加速推理,常见的知识蒸馏方法试图将生成过程压缩到几步之内,但它们通常假设从噪声到图像的路径是一条直线,而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…
-
TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代
关键词: TileRT、大语言模型、推理引擎、低延迟、编译器 副标题: 600 tokens/s!TileRT 让千亿参数模型推理进入毫秒时代 TileRT v0.1.3 是一次里程碑式的发布,标志着 TileRT 从仅支持 DeepSeek-V3.2 单一模型扩展为多模型架构支持。本版本新增了对最新 GLM-5 模型的完整推理支持,并在 8× NVIDIA…
-
清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍
RAM团队 投稿 量子位 | 公众号 QbitAI 让大模型像人类一样阅读!通过精读略读实现性能与效率的双重飞跃。 在长上下文场景中,Transformer架构的二次计算复杂度让推理速度急剧下降,而人类面对长文档时却能游刃有余——我们不会逐字阅读整本小说,而是对关键情节精读,对背景描述略读。 来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现…
-
开源多模态推理新突破:MMFineReason框架以4B参数逆袭30B模型,开启数据驱动的高效推理时代
长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。 社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或者模型参数的规模。真正的瓶颈,在于高质量、思维链(CoT)密集的推理数据极度匮乏。 在纯文本领域,DeepSeek-R1 的成功已验证了高质量后训练数据(Post-training D…
-
开源多模态推理新突破:MMFineReason框架以4B参数逆袭30B模型,开启数据驱动的高效推理时代
长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。 社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或参数规模的扩大,而在于高质量、思维链(CoT)密集的推理数据极度匮乏。 在纯文本领域,DeepSeek-R1 的成功已验证了高质量后训练数据的威力。但在多模态领域,研究者们面对的是横亘…
-
高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率
关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…
-
突破GPU瓶颈:d-PLENA NPU架构实现扩散大模型采样2.53倍加速
关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…
-
何恺明团队颠覆生成模型范式:漂移模型实现单步推理,告别迭代训练
训练生成模型是一项复杂的任务。 从底层逻辑看,生成模型是一个逐步拟合的过程。与常见的判别模型不同,判别模型关注将单个样本映射到对应标签,而生成模型则关注从一个分布映射到另一个分布。 以大家熟悉的扩散模型为例,扩散模型及其基于流的对应方法,通常通过微分方程(随机微分方程 SDE 或常微分方程 ODE)来刻画从噪声到数据的映射。然而,训练扩散模型耗时费力,其核心…