xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

xAI 再失大将:预训练负责人庄钧堂离职马斯克“留不住人”困境加剧

就在今天,xAI 的预训练负责人庄钧堂正式宣布离职,成为这家公司最新一位离开的高管。

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

庄钧堂在 xAI 工作了两年,期间主导了 Grok 多个版本的预训练工作,并负责 Grok 在 X 和 Tesla 平台上的语音模型,以及 xAI 面向企业的 API 模型。尽管他在正式官宣前两个月就已离开,但这一消息恰好赶上了 xAI 不再独立运营后的新一轮离职潮。仅今天一天,就有多位员工相继宣布离职。如此密集的人员流失,不禁让人发问:xAI 到底怎么了?

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

谁是庄钧堂?

2024 年,庄钧堂加入 xAI。在随后的两年里,他主导了 Grok 多代模型的预训练,并牵头预训练了 Grok 在 X 和 Tesla 上的语音模型,以及 xAI 对外的企业 API 模型。

在此之前,他曾在 OpenAI 工作过两年。期间,他是 GPT-4 技术报告的联合作者,还参与了 GPT-4o 和 DALL-E 3 的核心开发,提出了 GPT4-Turbo 128k 算法,并以第一贡献者的身份搭建了 OpenAI 的 Embedding 模型。这几项成果分别对应了 OpenAI 在语言模型、多模态、图像生成和向量检索等方向上的关键产品节点。

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

他的学术背景与这份光鲜的履历形成了鲜明的反差。庄钧堂本科毕业于清华大学,但专业并非计算机,而是工程物理,同时还辅修了法律。他的硕博生涯在耶鲁大学度过,硕士攻读统计学,博士则专攻生物医学工程。读博期间,他的研究课题是利用神经网络判断自闭症患者脑连接组中哪些异常连接与诊断相关。

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

在博士期间,他提出了 AdaBelief 优化器。其核心思路是根据模型对当前梯度的置信程度来自适应地调整步长:如果当前观测到的梯度方向与模型预期偏差很大,说明此刻的观测不可靠,应该迈小步;反之,如果梯度方向与预期接近,说明信号可靠,可以迈大步。这个设计直击了深度学习训练中一个长期存在的痛点——现有优化器对噪声梯度的处理过于粗糙。该论文在 NeurIPS 2020 获得 Spotlight,随后被 PyTorch、TensorFlow、Google Flax、DeepMind Optax 等主流框架相继收录,成为研究者工具箱中的常备选项。

马斯克留不住人

就在庄钧堂宣布离职的同一天,xAI 还有多名员工也发出了同样的消息。三天前,马斯克刚刚宣布 xAI 不再作为独立公司运营,而是并入 SpaceX,统一更名为“SpaceXAI”。这个消息发布后不久,离职的消息便接踵而至。

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

与此同时,另一批人正在进场——Cursor 的员工开始出现在 xAI 的办公室里,由 xAI 现任研究负责人 Aman Madaan 主持联合会议。Cursor 的到来,目的之一就是解决马斯克长期以来“留不住人”的困境。从 2024 年中开始,xAI 的联创就在陆续离开,SpaceX 完成收购后密集爆发,到今年 3 月底,11 位联创已全部清零。据 Fast Company 统计,过去一年内 xAI 可查证的离职员工已超过 80 人。

马斯克也曾试图解决人事危机,但专门挖来的人也是说走就走。今年 3 月,他把 Mistral AI 和 Thinking Machines Lab 的联创 Devendra Chaplot 请来,直接向他汇报,但 Devendra 入职才一个月便离职了。马斯克承认,xAI“没有建立在正确的基础上,正在从头重建”。今年 4 月,他转向外部,与 Cursor 达成合作,于是便有了 Cursor 员工进驻 xAI 办公室的一幕。

Grok 正常更新

尽管马斯克在人事问题上屡遭滑铁卢,但 xAI 的主要产品 Grok 刚刚宣布了一波更新。新版增加了连接器功能,支持接入邮件、日历、Notion 等工具,帮助用户提取邮件、整理日程。

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

同时,马斯克还下场驳斥了“Grok 将死”的传闻。毕竟一边是团队不再独立运行,另一边又刚刚把 Colossus 集群租给了 Anthropic,让人很难不产生联想。但马斯克表示,新的 Grok 模型正在 Colossus 2 集群上正常训练中,也算是解开了 Colossus 出租的疑云。

xAI再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧

那就等着看看,马斯克还能交出怎样的模型吧。

参考链接:
[1]https://x.com/archanfel_anoth/status/2052878350868484361
[2]https://x.com/elonmusk/status/2052269744120869106


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33905

(0)
上一篇 4天前
下一篇 3天前

相关推荐

  • AutoBio:VLA模型在生物实验室的“图灵测试”——ICLR 2026新基准揭示科研自动化挑战

    现有视觉-语言-动作模型的研究和基准测试多集中于家庭场景,缺乏对专业科学场景的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂等特点,是评估VLA模型精准操作、视觉推理和指令遵循能力的理想场景。 近期,来自香港大学MMLAB与上海交通大学的研究团队提出了AutoBio,一个面向数字化生物实验室的机器人仿真系统与基准测试平台。该工作已被ICL…

    2026年2月20日
    35600
  • 从数据闭环到训练闭环:理想汽车世界模型如何重塑自动驾驶AI范式

    近期,人工智能领域关于范式转变的讨论日益激烈。强化学习之父Rich Sutton在《体验时代》中指出,AI正从依赖人类标注数据转向体验式学习的新阶段。OpenAI前研究员姚顺雨更明确表示AI已进入“下半场”,强调需要为现实世界任务开发新的评估体系,并寻求超越人类模仿、依赖智能体自我改进的可扩展数据源。在这一宏观背景下,自动驾驶作为AI技术落地的前沿阵地,其范…

    2025年10月31日
    37500
  • 从手工特征到端到端学习:Faster R-CNN如何重塑计算机视觉的十年征程

    在NeurIPS 2025会议上,《Faster R-CNN》论文荣获“时间检验奖”,这不仅是学术界的认可,更是对计算机视觉领域过去十年发展轨迹的深刻总结。何恺明在题为《视觉目标检测简史》的演讲中,系统梳理了从传统方法到深度学习范式的完整演进历程,揭示了现代AI视觉能力背后的技术革命。 回顾计算机视觉的发展,可以清晰地划分为三个技术时代:手工特征工程时代、深…

    2025年12月11日
    37800
  • 突破PEFT合并瓶颈:方向鲁棒性理论揭示与RobustMerge方案解析

    在人工智能技术快速演进的浪潮中,多模态大模型已成为推动产业进步的核心引擎。然而,随着模型参数规模呈指数级增长,全量微调(Full Fine-Tuning, FFT)所需的海量计算资源已成为制约技术民主化的重要瓶颈。参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,特别是LoRA(Low-Rank Adaptati…

    2025年11月10日
    37200
  • LimiX:结构化数据处理的通用革命,开启工业AI新纪元

    在科幻作家刘慈欣的《超新星纪元》中,一个关于盐和味精供应量的场景深刻揭示了现代工业社会运转的本质——它建立在海量精确数据的处理之上。从生产计划到机器监控,再到电力调度,结构化数据如同社会的神经网络,支撑着工业化便利的每一个环节。这些以固定行列格式组织、关系预先定义的数据,构成了现代社会高效运转的基石。 然而,在人工智能浪潮席卷全球的今天,处理这些最基础的结构…

    2025年11月21日
    40700