AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量已超过 700 万。现在,一个有力的证明出现了。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

近日,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了新项目 VibeTensor,展示了 AI 在编程方面的强大能力。

从名字可以看出,这是「氛围编程」(Vibe Coding)的成果。这位谷歌学术引用量超 20 万的工程师在 X 上表示:「这是第一个完全由 AI 智能体生成的深度学习系统,没有一行人类编写的代码。」

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

具体而言,VibeTensor 是一个可运行的深度学习系统,配备了 RCU 风格的调度器、缓存分配器和反向模式自动微分器。该智能体还发明了一种名为 Fabric 的张量系统——这是目前任何现有框架中都不存在的新概念。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成
(许冰分享的这张项目架构图也是 AI 生成的)

其 Vibe Kernel 包含 13 种不同类型、总计约 4.7 万行自动生成的代码内核,这些内核使用 Triton 和 CuteDSL 编写,并展现出较强的性能。

许冰表示,VibeTensor 由英伟达的第四代智能体生成。但它也呈现出一种「弗兰肯斯坦效应」:系统本身是正确的,但某些关键路径的设计效率低下,因此其性能目前无法与 PyTorch 相媲美。

更重要的是,许冰强调:「自 2025 年夏天以来,我一行代码都没写过。」他表示这项工作始于观看 Andrej Karpathy 的播客之后。「我当时并不认同他的观点,所以我和 Terry Chen(英伟达首席工程师)开始用它来测试我们智能体的能力。弗兰肯斯坦效应最终暴露了我们智能体的一些局限性——但方向很明确。」

该项目在 X 上引起了广泛关注,许冰的几位著名英伟达同事(也被列为项目参与者)也分享了点评。

例如,陈天奇表示:VibeTensor 很有意思,它表明 AI 智能体能够构建深度学习框架这样复杂的东西。「生成的代码还有一些需要改进的地方,但它能够做到这一点本身就非常有趣。」

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

贾扬清的评价则更高,他认为该项目的出现罕见地验证了一个根本性问题:AI 能否编写复杂的系统代码?而该项目给出的答案是「能,但是……(仍有问题)」。他说 AI 正以惊人的速度前进,「如果我们能掌握更多正确的原则,AI 终将完全超越人类程序员。这就像 2015 年 1 月的 AlphaGo。」

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

目前,许冰已在 GitHub 上 NVlabs 帐号下发布了 VibeTensor 的相关内容,其中也包含一篇论文。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

  • 论文标题:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
  • 论文地址:https://github.com/NVlabs/vibetensor/blob/main/docs/vibetensor-paper.pdf
  • 项目链接:https://github.com/NVlabs/vibetensor

有趣的是,初看这篇论文时,我们发现其中有一些 AI 生成的痕迹。在询问许冰本人后,我们得到了一个令人震惊的答案:这篇论文竟也是 100% 由 AI 撰写的!

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成
(许冰的回复)

下面我们来详细看看这个由 AI 编写的项目。

VibeTensor:全球首个完全由 AI 智能体生成的全栈系统

VibeTensor 不仅仅是一个深度学习库。它是全球首个完全由 AI 智能体生成的全栈系统。从 Python/Node.js 的上层绑定,到 C++ 核心调度器,再到最底层的 CUDA 内存管理,每一行代码的增删改查、每一次 Bug 的修复、每一轮构建验证,全部由英伟达第四代智能体独立完成。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

人类的作用是提供高层级的需求指导,然后像监工一样看着 AI 智能体在两个月内持续输出。下面我们来拆解这个「氛围编程」版的 PyTorch:VibeTensor。

首先,性能上虽然 VibeTensor 目前还无法与 PyTorch 这种经过多年磨砺的框架抗衡(根据论文测试,部分场景慢了约 1.7 到 6.2 倍),但作为一个功能完整的技术原型,其设计的完整度令人吃惊。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成
AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

根据论文描述,VibeTensor 并非一个简单的包装库,它拥有极其硬核的底层架构。

核心运行时的「暴力美学」

VibeTensor 的 C++20 核心并非简单的库调用。它实现了一个完整的 TensorImpl 架构,作为参考计数的 Storage 之上的视图。令人惊讶的是,AI 赋予了它支持非连续视图和 as_strided 语义的能力,并引入了原子版本计数器来确保原地操作的安全性。

在算子调度层面,AI 构建了一个 schema-lite 调度器,能够将 vt::add 这样的操作名精准映射到 CPU 或 CUDA 的内核实现上。这种设计支持锁定和非锁定调用路径,并通过不可变的快照状态实现了稳态下的无锁调用,极大地压低了调度开销。

独创的 Fabric 张量系统:不属于任何现有框架

在 VibeTensor 的所有组件中,最令人振奋的莫过于名为 Fabric 的实验性子系统。这是目前市面上任何主流深度学习框架(如 PyTorch 或 TensorFlow)中都不曾以这种形式存在的概念。

Fabric 本质上是一个显式的多设备抽象层。它的核心使命是打破单卡运行时的限制,直接接管硬件拓扑的自动发现过程。根据论文描述,Fabric 能够主动识别 CUDA P2P(点对点)和 UVA(统一虚拟地址)支持情况。

不同于传统框架将多卡通信隐藏在复杂的分布式 API 后,Fabric 提供了一套透明的可观测原语,允许研究者直接控制内存的放置与同步策略。

在 VibeTensor 的 Blackwell 评估中,AI 甚至基于 Fabric 构建了一个可选的环形全归约插件。这种插件直接绑定了 CUTLASS 的实验性内核,完全绕过了 NCCL。这意味着 AI 已经开始尝试从底层通信协议层面,去重构大规模分布式训练的逻辑。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

异步优先的「Node.js + Python」双前端

在用户界面上,AI 并没有止步于复刻一个 PyTorch。它不仅利用 nanobind 打造了一个高度兼容的 Python 覆盖层,还开创性地引入了一个基于 Node-API 的 Node.js 插件。

这个 JavaScript/TypeScript 界面采用了纯粹的「异步优先」设计。所有的重负载任务都被调度至 napi_async_work 以避免阻塞 Node 事件循环,并通过一个全局在途任务上限来精细控制排队压力。这种横跨数据科学与后端工程的选型,体现了 AI 智能体在处理异构开发环境时的灵活性。

AI 内核套件:从算子到显存的全自动进化

在最底层的算子实现上,VibeTensor 附带了一个由 AI 生成的庞大内核套件,包含了 200 多个源文件,涵盖了从基础的 LayerNorm 到复杂的 Fused Attention 等各类算子。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

这些内核利用 Triton 和英伟达自家的 CuTeDSL 编写。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

值得注意的是,AI 生成的内核并非只是「能用」。在 H100 的实测中,其生成的 Fused Attention 内核在特定形状下,前向计算比 PyTorch 的原生 FlashAttention 快了 1.54 倍,后向计算快了 1.26 倍。尽管这只是孤立算子的表现,但它证明了 AI 在掌握硬件特性(如 Hopper 架构的 TMA 或 Tensor Cores)方面的巨大潜力。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

弗兰肯斯坦效应:AI 编程的隐形墙

尽管 VibeTensor 能够跑通复杂的神经网络模型,但许冰和团队在论文中诚实地提出了一个引人深思的概念:「弗兰肯斯坦效应(Frankenstein Effect)」。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

这是 AI 智能体在构建复杂系统时暴露出的核心局限性。简单来说,AI 能够确保每一个局部子系统(如调度器、分配器、算子)在逻辑上是正确的,且能通过单元测试。但当这些局部组件拼凑成一个庞大的全局系统时,它们之间会产生意想不到的「摩擦」,形成性能瓶颈。

例如,AI 为了确保多线程环境下的安全性,在 Autograd 引擎中设计了一个非重入的全局互斥锁。这个设计从局部看非常稳健、安全,但在全局运行时却成了「扼杀」并行性能的元凶,导致原本高效的显卡内核因数据等待而频繁空转。这种「正确但低效」的代码,正是目前智能体在系统级架构设计上的天花板。

AI 辅助的开发方法

VibeTensor 的诞生并非源于一次简单的提示词工程,而是一场长达两个月的、由高层级人类指令驱动的 Agent 自主演化过程。许冰也让 AI 在论文中用一个章节专门总结了「AI 辅助的开发方法」。

1. 彻底的「黑盒」工作流

在这场实验中,人类的角色从「程序员」彻底转变为「监工」与「策略制定者」。许冰及其团队并没有进行任何代码层面的 Diff Review(差异审查),也没有手动运行过任何验证命令。

相反,开发流程被简化为一个持续循环的闭环:
* 目标设定: 人类指定一个作用域明确的目标和必须遵守的约束条件。
* 代码生成: AI 智能体自主提议代码更改,并以 Diff 的形式应用到仓库中。
* 工具校验: Agent 会自动调用编译器、测试框架和差异检查工具。
* 多智能体评审: 为了弥补单体 AI 可能存在的盲点,团队引入了多 Agent 协作评审机制,用于捕捉缺失的边界情况、冗余的抽象或是潜在的安全隐患。

2. 测试驱动的「硬核」规范

在 Agent 驱动的开发中,测试不再是锦上添花,而是唯一的「真理来源」。VibeTensor 的每一行代码都必须经过 C++(CTest)和 Python(pytest)双重测试套件的洗礼。

更具创新性的是,AI 智能体还利用 PyTorch 作为一个「参考原件」,建立了一套自动化的 API 对齐检查器。当 AI 编写的算子出现数值偏差或内存泄漏时,Agent 会自主分析报错日志,添加一个最小化的回归测试用例,并重新进入修复循环。这种「测试即规格说明」的模式,确保了即使在缺乏人工干预的情况下,生成的 16 万行代码依然保持了极高的逻辑一致性。

3. 跨层级调试的挑战

论文揭示了一个有趣的现象:AI 在处理「单次正确」的任务时表现卓越,但在处理系统的「组合稳定性」时却面临巨大挑战。例如,在 Fused Attention 算子的移植过程中,Agent 经历了多次挫败:从最初的参数超限、显存对齐错误,到运行数千次后才暴露出的缓冲区初始化隐患。

这种跨越 C++ 运行时、CUDA 驱动程序和 Python 封装层的多级调试能力,正是此次英伟达第四代智能体展示出的最核心竞争力。它证明了 Agent 已经能够理解复杂的内存语义和硬件约束,而不仅仅是模仿代码片段。

AI 工程师的「AlphaGo 时刻」?

VibeTensor 的出现并非为了取代 PyTorch,而是一场关于「生成式软件工程」的宏大实验。

正如前文所述,许冰提到这项工作的灵感源于 Andrej Karpathy 的播客。当时他并不完全认同 Karpathy 关于「AI 编程」的某些激进观点,于是决定和首席工程师 Terry Chen 一起,用最硬核的系统开发来测试智能体的极限。

现在,方向已经明确。虽然「弗兰肯斯坦效应」依然存在,但 VibeTensor 的诞生标志着一个新时代的开启:未来的系统软件可能不再是工程师逐行敲出来的,而是由人类定义需求、由 AI 在「氛围」中生成出来的。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19075

(0)
上一篇 2026年1月23日 下午2:50
下一篇 2026年1月23日 下午3:59

相关推荐

  • 斯坦福CS146S深度解析:AI原生软件工程师的“零代码”革命与未来编程范式重构

    在人工智能浪潮席卷全球的当下,斯坦福大学计算机系推出的《现代软件开发者》(CS146S: The Modern Software Developer)课程,以其颠覆性的“零代码”教学理念,迅速成为AI领域的热门焦点。这门课程不仅反映了高等教育对技术变革的前瞻性响应,更揭示了软件开发范式正在经历的根本性重构。本文将从课程设计、技术内涵、行业影响三个维度,深入剖…

    2025年12月8日
    46900
  • DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

    近日,来自中国人民大学与清华大学的研究团队联合发布了DeepAnalyze,这是全球首个面向自主数据科学的agentic LLM(大型语言模型)。该模型的发布在学术界和工业界引发了广泛关注,一周内即在GitHub上获得超过1000个星标,社交媒体浏览量突破20万次,标志着数据科学领域向智能化、自主化迈出了关键一步。 DeepAnalyze-8B的核心突破在于…

    2025年10月30日
    23100
  • REFRAG:突破RAG性能瓶颈,利用注意力稀疏性实现30倍加速

    随着大语言模型在检索增强生成(RAG)系统中的广泛应用,一个日益突出的性能问题浮出水面:上下文窗口的持续扩展导致首个token生成延迟呈二次方增长,严重制约了系统的实时响应能力。传统RAG流程虽然简单直接——将查询编码为向量,从向量数据库中检索相似文本块,然后完整输入给LLM处理——但这种方法存在显著效率缺陷。大多数检索到的文本块包含大量无关内容,迫使LLM…

    2025年10月17日
    18200
  • 突破CLIP瓶颈:HiMo-CLIP如何通过语义层级建模实现长文本图像检索SOTA

    在多模态人工智能领域,视觉-语言对齐一直是核心挑战之一。传统的CLIP模型虽然在短文本图像检索上表现出色,但在处理长文本描述时却暴露出明显的局限性:随着文本描述的详细化,模型的匹配分数不升反降,这与人类的认知逻辑背道而驰。最近,中国联通数据科学与人工智能研究院团队在AAAI 2026上发表的研究成果HiMo-CLIP,通过创新的语义层级建模方法,成功解决了这…

    2025年12月1日
    20300
  • 从12次拒签到AI框架革命:Soumith Chintala与PyTorch的逆袭之路

    在人工智能发展的历史长河中,框架工具往往成为技术演进的关键催化剂。2017年,一个名为PyTorch的开源框架悄然问世,它改变了深度学习研究的范式,重塑了AI开发的生态格局。而这一切的背后,是一位曾被世界反复拒绝的工程师——Soumith Chintala。 Soumith Chintala的起点并不耀眼。他出生于印度海德拉巴,就读于VIT Vellore这…

    2025年11月15日
    17200