-
斯坦福伯克利英伟达联手:LLM-as-a-Verifier验证框架,扩展计算量显著提升Agent性能
LLM-as-a-Verifier:斯坦福、伯克利与英伟达联合提出的验证框架,通过扩展计算量显著提升Agent性能 Transformer论文作者Lukasz Kaiser及GAN论文作者Bing Xu共同转发了一项备受关注的工作——LLM-as-a-Verifier验证框架。该框架作为一种通用验证机制,能够与任意Agent Harness及模型无缝结合。 …
-
突破极端边缘计算极限:AI引擎如何让科学推理性能飙升4倍,打破FPGA部署瓶颈
突破极端边缘计算极限:AI引擎如何让科学推理性能飙升4倍,打破FPGA部署瓶颈 第1/5部分:极端边缘计算的性能困局与AI引擎的破局之道 在极端边缘科学实时推理场景中,系统面临着极为严苛的约束条件:必须实现微秒级的端到端延迟、维持数十兆赫兹的吞吐速率,并且所有模型权重都必须完整地驻留在芯片上,无法依赖外部存储器。 传统方案依赖FPGA可编程逻辑(PL)配合H…
-
阿里HappyHorse 1.0正式上线:免费体验,视频生成效果惊艳,动作与镜头语言全面升级
曾一度在权威AI评测平台Artifical Analysis的AI视频竞技场排行榜上独占鳌头的视频生成模型HappyHorse 1.0,如今我们终于能正式使用官方版本了。现在,只需打开千问APP或千问创作Web端(c.qianwen.com),即可直接体验,甚至还附赠免费试用额度。 不久前,一款名为HappyHorse 1.0的视频生成模型悄然登顶AI视频竞…
-
Luminal编译器实测翻车?fp32推理远逊vLLM,FlashAttention融合尚未实现
我们之前推送过多篇关于 Mega Kernel 的文章,今天来探讨这篇:《无需手动构建MegaKernels!Luminal 编译生成 MegaKernels:解决 GPU SM 负载不均,消除内核启动开销与内存气泡,适配任意架构!》。作者郑启航深入分析了开源编译器 Luminal,并结合其在 H200 上运行 gemma-3-4b 的实际测试,梳理了其 I…
-
DeepSeek-V4揭秘:细粒度专家并行隐藏通信时延,FP4量化与TileLang协同优化百万Token上下文
混合专家模型(MoE)所采用的专家并行技术,虽然能够有效加速模型的推理与训练过程,但同时也引入了复杂的节点间通信难题。这一难题对互联带宽与延迟提出了极为苛刻的要求,从而成为了制约大型模型性能提升的核心瓶颈。 DeepSeek-V4 构建了一套完备的通用基础设施体系,精准应对了通信与计算协同、内核开发效率、训练确定性、量化部署以及长上下文推理等多项关键挑战。 …
-
AMD AITER深度解析:融合四种后端的MoE加速引擎,GEMM自动调优与JIT编译实战
在大型模型推理的战场上,算子的性能是构建一切的基础。随着Transformer模型的参数规模突破千亿级别,并且MoE架构逐渐成为行业标配,单一的Kernel实现早已无法满足不同形状、不同精度以及不同硬件代际的多样化需求。 AITER(面向ROCm的AI张量引擎)是AMD推出的一款高性能AI算子库,专为基于ROCm的推理与训练负载提供经过深度优化的GPU核心运…
-
Anthropic首款AI桌宠硬件竟是中国制造:深圳M5Stack开发板成Claude电子宠物
深度重写与降重版本 听雨 发自 凹非寺 量子位 | 公众号 QbitAI 谁能料到,大名鼎鼎的 Anthropic 推出的首款 AI 桌宠硬件,核心竟来自 深圳制造。 这个名为 Claude-Desktop-Buddy 的开源项目,由 Anthropic 工程师 Felix Rieseberg 发起。 官方推荐的硬件是 M5StickC Plus,出自深圳公…
-
AI 3D生成杀入3D打印圈!胡渊鸣的Meshy发布创意工坊,一键生成3D模型还能直接打印
潮水转向,从一场展会开始 全球3D打印行业的风向标TCT Asia展会,一个月前在上海举行。一个展台被围得水泄不通,成为全场焦点。 主角并非某家3D打印机厂商,而是Meshy——由计算机图形学大神胡渊鸣创立的AI 3D公司。 围观者里三层外三层,目的只有一个:亲眼见证用AI生成3D模型后直接打印出来的成品,究竟有多惊艳。 例如这些具有釉面质感的“文博陶瓷”,…
-
百万token成本暴降90%!DeepSeek-V4揭秘:混合压缩注意力+流形约束超连接,重构大模型长上下文架构
当上下文窗口扩展到百万级 token 时,大模型的底层架构正经历一场静默重构。DeepSeek-V4 通过融合混合注意力机制、受约束的残差连接、创新优化器以及极致的工程手段,将长上下文处理成本压缩了 90%。围绕这场架构变革,有人在 XHS 上算了一笔具体的账:DeepSeek-V4-Pro 的预训练计算量约为 1e25 FLOPs,如果以 OpenAI 的…
-
苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密
近期,苹果公司迎来重大人事变动:执掌公司超过14年的蒂姆·库克宣布将于9月正式卸任CEO一职,由现任硬件工程高级副总裁约翰·特努斯接棒。回顾库克时代,外界津津乐道的不仅是他极致的供应链管理艺术,还有他带领苹果市值一路飙升至4万亿美元的辉煌历程。 然而,在生成式AI主导的全新十年里,特努斯接手的苹果,亟需在AI领域证明自身实力。 近年来,苹果在AI底层技术上的…
