大模型推理
-
美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 256K文本预加载提速超50%,并解锁了1M上下文窗口。 美团LongCat系列发布全新稀疏注意力机制LoZA。 该技术旨在集中解决长文本任务中的理解与算力难题。 相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解…
-
NVIDIA Blackwell架构微基准深度解析:FP4/FP6赋能LLM推理2.5倍加速,36.3TFLOPS FP64重塑科学计算
关键词:Blackwell、GPU、 Microbenchmark 、5th-generation Tensor Core 、 TMEM 本文工作量化了张量内存(TMEM)对矩阵密集型负载的影响,评估了硬件解压缩引擎(DE)的吞吐量及最优使用方式,通过新的tcgen05 PTX 指令分析了第五代张量核心的执行特性。 此外,还评估了 FP4 与 FP6 精度的…
-
清华MARSHAL框架:通过策略游戏自博弈激发大模型的多智能体推理泛化能力
近日,清华大学等机构的研究团队提出了 MARSHAL 框架。该框架利用强化学习,让大语言模型在策略游戏中进行自博弈(Self-Play)。实验表明,这种多轮、多智能体训练不仅提升了模型在游戏中的博弈决策水平,更将其推理能力有效泛化到了通用的多智能体系统中:在数学竞赛和专家级问答等一般推理任务中,显著提升了多智能体系统的整体表现。 论文标题:MARSHAL: …
-
DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破
R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…
-
阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损
关键词:VLCache、视觉语言模型(VLM)、KV缓存复用、动态重计算、推理加速、精度保留 你有没有遇到过这样的场景:用 AI 工具连续询问同一张图片的不同问题时,每次都要等待好几秒才能得到回复?明明图片没有变,模型却要重复处理整幅图像,造成大量冗余计算。 VLCACHE: Computing 2% Vision Tokens and Reusing 98…
-
Mirage Persistent Kernel:突破LLM推理极限,自动巨核化技术实现1.7倍性能飞跃
关键词:#MPK、#LLM推理、#MegaKernel、#SM级任务图、#多GPU优化、#跨算子优化 MPK 作为首个自动 Mega Kernel 化多 GPU LLM 推理的编译器-运行时系统 ,以 SM 级 tGraph 打破核间壁垒,让跨算子 软件流水线与细粒度计算-通信重叠从理论走向实用;无需修改模型代码,仅需数行 PyTorch 集成,它即可在 A…
-
FastDriveVLA:专为自动驾驶VLA模型定制的视觉token剪枝方法,实现高效端到端驾驶
VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。现有的通用视觉 token 剪枝方法并非为自动驾驶场景设计,在实际应用中存在诸多局限性。 小鹏汽车联合北京大学计算机科学学院多媒体信息处理国家重点实验室发表论文《FastDriveVLA》,为自动驾驶 VLA 模型中的高效视觉 token …
-
Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析
关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…
-
微信AI突破扩散模型推理瓶颈:WeDLM实现vLLM部署3倍加速,低熵场景超10倍
腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性…
-
Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…