大模型推理
-
Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…
-
vLLM Playground:可视化界面让大模型推理部署零门槛
用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…
-
LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板
文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正…
-
原生并行推理革命:NPR框架让AI智能体告别单线程思维,进化出多路径探索大脑
近年来,大语言模型在文本生成的流畅度和长度上进步显著。然而,当面对真正复杂的推理任务——需要多路径探索、自我反思与交叉验证、以及在多条线索间进行综合与抉择时,传统的链式思维(Chain-of-Thought)方法便开始显得力不从心:它容易受早期判断误导、思维发散不足、自我纠错能力弱,并且其顺序生成的特性在效率上存在天然瓶颈。 北京通用人工智能研究院(BIGA…
-
突破NVFP4量化性能瓶颈!MIT与NVIDIA提出Four Over Six开源方案:近BF16困惑度与<2%推理开销兼得!
关键词: NVFP4 、Four Over Six(4/6)、大型语言模型(LLM)、自适应块缩放 、低精度训练 、 后训练量化(PTQ) Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling 代码: https://github.com/mit-han-lab…
-
清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临
在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…
-
推理成本突破1元/百万token:浪潮信息元脑HC1000如何重塑AI产业竞争格局
当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本” 不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。 在此大背景下,浪潮信息推出元脑HC1000超扩展AI服务器 ,将推理成本首次击穿至1元/每百万token 。 这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑AI产业竞争的底层逻辑。 浪…
-
揭秘LLM推理两阶段瓶颈:从GPU微架构根源到跨场景高效部署策略
关键词:LLM Inference、GPU、 Prefill-Decode Heterogeneity 、Microarchitectural Analysis 、Multi-GPU Scaling 、Energy Predictability A Systematic Characterization of LLM Inference on GPUs ht…
-
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍
清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍 现在,生成一个视频可能比你刷视频还要快。 一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。 以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9…
-
英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命
这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…