AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量已超过 700 万。现在,一个有力的证明出现了。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

近日,英伟达杰出工程师许冰(Bing Xu)在 GitHub 上开源了新项目 VibeTensor,展示了 AI 在编程方面的强大能力。

从名字可以看出,这是「氛围编程」(Vibe Coding)的成果。这位谷歌学术引用量超 20 万的工程师在 X 上表示:「这是第一个完全由 AI 智能体生成的深度学习系统,没有一行人类编写的代码。」

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

具体而言,VibeTensor 是一个可运行的深度学习系统,配备了 RCU 风格的调度器、缓存分配器和反向模式自动微分器。该智能体还发明了一种名为 Fabric 的张量系统——这是目前任何现有框架中都不存在的新概念。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成
(许冰分享的这张项目架构图也是 AI 生成的)

其 Vibe Kernel 包含 13 种不同类型、总计约 4.7 万行自动生成的代码内核,这些内核使用 Triton 和 CuteDSL 编写,并展现出较强的性能。

许冰表示,VibeTensor 由英伟达的第四代智能体生成。但它也呈现出一种「弗兰肯斯坦效应」:系统本身是正确的,但某些关键路径的设计效率低下,因此其性能目前无法与 PyTorch 相媲美。

更重要的是,许冰强调:「自 2025 年夏天以来,我一行代码都没写过。」他表示这项工作始于观看 Andrej Karpathy 的播客之后。「我当时并不认同他的观点,所以我和 Terry Chen(英伟达首席工程师)开始用它来测试我们智能体的能力。弗兰肯斯坦效应最终暴露了我们智能体的一些局限性——但方向很明确。」

该项目在 X 上引起了广泛关注,许冰的几位著名英伟达同事(也被列为项目参与者)也分享了点评。

例如,陈天奇表示:VibeTensor 很有意思,它表明 AI 智能体能够构建深度学习框架这样复杂的东西。「生成的代码还有一些需要改进的地方,但它能够做到这一点本身就非常有趣。」

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

贾扬清的评价则更高,他认为该项目的出现罕见地验证了一个根本性问题:AI 能否编写复杂的系统代码?而该项目给出的答案是「能,但是……(仍有问题)」。他说 AI 正以惊人的速度前进,「如果我们能掌握更多正确的原则,AI 终将完全超越人类程序员。这就像 2015 年 1 月的 AlphaGo。」

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

目前,许冰已在 GitHub 上 NVlabs 帐号下发布了 VibeTensor 的相关内容,其中也包含一篇论文。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

  • 论文标题:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
  • 论文地址:https://github.com/NVlabs/vibetensor/blob/main/docs/vibetensor-paper.pdf
  • 项目链接:https://github.com/NVlabs/vibetensor

有趣的是,初看这篇论文时,我们发现其中有一些 AI 生成的痕迹。在询问许冰本人后,我们得到了一个令人震惊的答案:这篇论文竟也是 100% 由 AI 撰写的!

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成
(许冰的回复)

下面我们来详细看看这个由 AI 编写的项目。

VibeTensor:全球首个完全由 AI 智能体生成的全栈系统

VibeTensor 不仅仅是一个深度学习库。它是全球首个完全由 AI 智能体生成的全栈系统。从 Python/Node.js 的上层绑定,到 C++ 核心调度器,再到最底层的 CUDA 内存管理,每一行代码的增删改查、每一次 Bug 的修复、每一轮构建验证,全部由英伟达第四代智能体独立完成。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

人类的作用是提供高层级的需求指导,然后像监工一样看着 AI 智能体在两个月内持续输出。下面我们来拆解这个「氛围编程」版的 PyTorch:VibeTensor。

首先,性能上虽然 VibeTensor 目前还无法与 PyTorch 这种经过多年磨砺的框架抗衡(根据论文测试,部分场景慢了约 1.7 到 6.2 倍),但作为一个功能完整的技术原型,其设计的完整度令人吃惊。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成
AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

根据论文描述,VibeTensor 并非一个简单的包装库,它拥有极其硬核的底层架构。

核心运行时的「暴力美学」

VibeTensor 的 C++20 核心并非简单的库调用。它实现了一个完整的 TensorImpl 架构,作为参考计数的 Storage 之上的视图。令人惊讶的是,AI 赋予了它支持非连续视图和 as_strided 语义的能力,并引入了原子版本计数器来确保原地操作的安全性。

在算子调度层面,AI 构建了一个 schema-lite 调度器,能够将 vt::add 这样的操作名精准映射到 CPU 或 CUDA 的内核实现上。这种设计支持锁定和非锁定调用路径,并通过不可变的快照状态实现了稳态下的无锁调用,极大地压低了调度开销。

独创的 Fabric 张量系统:不属于任何现有框架

在 VibeTensor 的所有组件中,最令人振奋的莫过于名为 Fabric 的实验性子系统。这是目前市面上任何主流深度学习框架(如 PyTorch 或 TensorFlow)中都不曾以这种形式存在的概念。

Fabric 本质上是一个显式的多设备抽象层。它的核心使命是打破单卡运行时的限制,直接接管硬件拓扑的自动发现过程。根据论文描述,Fabric 能够主动识别 CUDA P2P(点对点)和 UVA(统一虚拟地址)支持情况。

不同于传统框架将多卡通信隐藏在复杂的分布式 API 后,Fabric 提供了一套透明的可观测原语,允许研究者直接控制内存的放置与同步策略。

在 VibeTensor 的 Blackwell 评估中,AI 甚至基于 Fabric 构建了一个可选的环形全归约插件。这种插件直接绑定了 CUTLASS 的实验性内核,完全绕过了 NCCL。这意味着 AI 已经开始尝试从底层通信协议层面,去重构大规模分布式训练的逻辑。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

异步优先的「Node.js + Python」双前端

在用户界面上,AI 并没有止步于复刻一个 PyTorch。它不仅利用 nanobind 打造了一个高度兼容的 Python 覆盖层,还开创性地引入了一个基于 Node-API 的 Node.js 插件。

这个 JavaScript/TypeScript 界面采用了纯粹的「异步优先」设计。所有的重负载任务都被调度至 napi_async_work 以避免阻塞 Node 事件循环,并通过一个全局在途任务上限来精细控制排队压力。这种横跨数据科学与后端工程的选型,体现了 AI 智能体在处理异构开发环境时的灵活性。

AI 内核套件:从算子到显存的全自动进化

在最底层的算子实现上,VibeTensor 附带了一个由 AI 生成的庞大内核套件,包含了 200 多个源文件,涵盖了从基础的 LayerNorm 到复杂的 Fused Attention 等各类算子。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

这些内核利用 Triton 和英伟达自家的 CuTeDSL 编写。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

值得注意的是,AI 生成的内核并非只是「能用」。在 H100 的实测中,其生成的 Fused Attention 内核在特定形状下,前向计算比 PyTorch 的原生 FlashAttention 快了 1.54 倍,后向计算快了 1.26 倍。尽管这只是孤立算子的表现,但它证明了 AI 在掌握硬件特性(如 Hopper 架构的 TMA 或 Tensor Cores)方面的巨大潜力。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

弗兰肯斯坦效应:AI 编程的隐形墙

尽管 VibeTensor 能够跑通复杂的神经网络模型,但许冰和团队在论文中诚实地提出了一个引人深思的概念:「弗兰肯斯坦效应(Frankenstein Effect)」。

AI颠覆编程:英伟达VibeTensor全栈系统,连论文都100%由AI生成

这是 AI 智能体在构建复杂系统时暴露出的核心局限性。简单来说,AI 能够确保每一个局部子系统(如调度器、分配器、算子)在逻辑上是正确的,且能通过单元测试。但当这些局部组件拼凑成一个庞大的全局系统时,它们之间会产生意想不到的「摩擦」,形成性能瓶颈。

例如,AI 为了确保多线程环境下的安全性,在 Autograd 引擎中设计了一个非重入的全局互斥锁。这个设计从局部看非常稳健、安全,但在全局运行时却成了「扼杀」并行性能的元凶,导致原本高效的显卡内核因数据等待而频繁空转。这种「正确但低效」的代码,正是目前智能体在系统级架构设计上的天花板。

AI 辅助的开发方法

VibeTensor 的诞生并非源于一次简单的提示词工程,而是一场长达两个月的、由高层级人类指令驱动的 Agent 自主演化过程。许冰也让 AI 在论文中用一个章节专门总结了「AI 辅助的开发方法」。

1. 彻底的「黑盒」工作流

在这场实验中,人类的角色从「程序员」彻底转变为「监工」与「策略制定者」。许冰及其团队并没有进行任何代码层面的 Diff Review(差异审查),也没有手动运行过任何验证命令。

相反,开发流程被简化为一个持续循环的闭环:
* 目标设定: 人类指定一个作用域明确的目标和必须遵守的约束条件。
* 代码生成: AI 智能体自主提议代码更改,并以 Diff 的形式应用到仓库中。
* 工具校验: Agent 会自动调用编译器、测试框架和差异检查工具。
* 多智能体评审: 为了弥补单体 AI 可能存在的盲点,团队引入了多 Agent 协作评审机制,用于捕捉缺失的边界情况、冗余的抽象或是潜在的安全隐患。

2. 测试驱动的「硬核」规范

在 Agent 驱动的开发中,测试不再是锦上添花,而是唯一的「真理来源」。VibeTensor 的每一行代码都必须经过 C++(CTest)和 Python(pytest)双重测试套件的洗礼。

更具创新性的是,AI 智能体还利用 PyTorch 作为一个「参考原件」,建立了一套自动化的 API 对齐检查器。当 AI 编写的算子出现数值偏差或内存泄漏时,Agent 会自主分析报错日志,添加一个最小化的回归测试用例,并重新进入修复循环。这种「测试即规格说明」的模式,确保了即使在缺乏人工干预的情况下,生成的 16 万行代码依然保持了极高的逻辑一致性。

3. 跨层级调试的挑战

论文揭示了一个有趣的现象:AI 在处理「单次正确」的任务时表现卓越,但在处理系统的「组合稳定性」时却面临巨大挑战。例如,在 Fused Attention 算子的移植过程中,Agent 经历了多次挫败:从最初的参数超限、显存对齐错误,到运行数千次后才暴露出的缓冲区初始化隐患。

这种跨越 C++ 运行时、CUDA 驱动程序和 Python 封装层的多级调试能力,正是此次英伟达第四代智能体展示出的最核心竞争力。它证明了 Agent 已经能够理解复杂的内存语义和硬件约束,而不仅仅是模仿代码片段。

AI 工程师的「AlphaGo 时刻」?

VibeTensor 的出现并非为了取代 PyTorch,而是一场关于「生成式软件工程」的宏大实验。

正如前文所述,许冰提到这项工作的灵感源于 Andrej Karpathy 的播客。当时他并不完全认同 Karpathy 关于「AI 编程」的某些激进观点,于是决定和首席工程师 Terry Chen 一起,用最硬核的系统开发来测试智能体的极限。

现在,方向已经明确。虽然「弗兰肯斯坦效应」依然存在,但 VibeTensor 的诞生标志着一个新时代的开启:未来的系统软件可能不再是工程师逐行敲出来的,而是由人类定义需求、由 AI 在「氛围」中生成出来的。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19075

(0)
上一篇 2026年1月23日 下午2:50
下一篇 2026年1月23日 下午3:59

相关推荐

  • 生产级 Agentic AI 系统的 7 层架构详解

    现代的代理型 AI 系统,无论是运行在开发、预发布还是生产环境中,都应构建为一组职责明确的架构层,而非单一服务。每一层分别负责代理编排、记忆管理、安全控制、可扩展性、故障处理等具体关注点。一个面向生产的代理系统通常会组合这些层,以确保在真实工作负载下具备可靠性、可观测性与安全性。 Production Grade Agentic System (Create…

    2025年12月23日
    9300
  • 2025 年最火的 5 大 MCP 服务器,打造极致「Vibe Coding」体验

    如果你还在手动复制项目上下文给AI,或者反复粘贴数据库Schema来让Cursor理解你的项目,那么你正在做太多不必要的重复劳动。 最近,我深入体验了一系列新的MCP工具,它们彻底重塑了我利用AI进行项目开发的方式。我们来深入探讨一下原因——为什么这些工具能让AI从一个“看起来不错”的玩具,转变为真正实用的生产力伙伴。 什么是MCP? “MCP”代表模型上下…

    2025年11月3日
    9000
  • JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

    长期以来,AI领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。 传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海量的样本才能学到一点皮毛,这在奖励信号稀疏的现实环境中效率低下。 为了打破这一僵局,研究者们提出了“世界模型”这一概念,即让智能体在脑海中构建一个物理模拟器,通过预测未来状态来…

    2026年1月3日
    6300
  • TritonForge:剖析引导+LLM协同,突破Triton内核优化瓶颈,成功率42.7%最高提速5倍

    TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization https://arxiv.org/pdf/2512.09196 本文提出 TritonForge,一款基于剖析引导的自动化 Triton 内核优化框架,旨在解决现代机器学习中 GPU 内核优化耗时…

    2025年12月21日
    15200
  • Python开发者的内部工具构建指南:7大神器打造高效企业应用

    立即构建仪表盘、追踪器与工作流。 对于有经验的 Python 开发者而言,经常会遇到这样的需求:管理层希望快速构建一个内部仪表盘或工具。虽然这听起来颇具挑战,但事实是,企业运营确实离不开各类内部工具,如数据看板、审批流程、KPI 追踪器和自动化机器人。Python 凭借其丰富的生态系统,正是构建这类应用的理想选择。 在经历了多年为不同团队构建内部系统的实践后…

    2025年12月18日
    7800