推理加速 - 鲸林向海

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍

清华联手生数开源TurboDiffusion：单卡2秒生成视频，速度提升200倍现在，生成一个视频可能比你刷视频还要快。一个开源新框架，能让视频生成在保证质量的情况下，最高提速200多倍，并且仅需单张显卡即可实现。以1.3B参数、480P分辨率的模型为例，在单张RTX 5090上生成一段5秒视频，原始方法需要约184秒。而采用新框架后，时间缩短至1.9…

2025年12月25日

186000

AI产业动态

Fast3Dcache：突破3D生成瓶颈，无需训练的几何感知加速框架

在AIGC技术迅猛发展的浪潮中，3D内容生成正成为人工智能领域的重要前沿。以TRELLIS为代表的3D生成模型，通过扩散过程逐步构建三维几何结构，其生成质量已取得显著进步。然而，这类模型普遍面临一个核心挑战：生成过程缓慢且计算密集。复杂的去噪迭代与庞大的体素计算，使得生成一个高质量3D资产往往耗时数十分钟甚至数小时，严重制约了其在实时应用、游戏开发、影视制作…

2025年12月4日

214000

大模型推理

RAG延迟削减97%！REFRAG技术揭秘：压缩、感知、扩展三阶段实现效率飞跃

传统RAG为何低效：冗余与延迟的根源传统检索增强生成（RAG）流水线通常将检索到的多个文本片段直接拼接，作为上下文输入给大语言模型。然而，这些片段之间往往缺乏紧密的语义关联，导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源，更关键的是，模型将大量时间耗费在了跨片段（cross-chunk）的、近乎无效的注意力计算上，效率低下。 …

2025年11月26日

192000