xAI 再失大将:预训练负责人庄钧堂离职,马斯克“留不住人”困境加剧
就在今天,xAI 的预训练负责人庄钧堂正式宣布离职,成为这家公司最新一位离开的高管。

庄钧堂在 xAI 工作了两年,期间主导了 Grok 多个版本的预训练工作,并负责 Grok 在 X 和 Tesla 平台上的语音模型,以及 xAI 面向企业的 API 模型。尽管他在正式官宣前两个月就已离开,但这一消息恰好赶上了 xAI 不再独立运营后的新一轮离职潮。仅今天一天,就有多位员工相继宣布离职。如此密集的人员流失,不禁让人发问:xAI 到底怎么了?

谁是庄钧堂?
2024 年,庄钧堂加入 xAI。在随后的两年里,他主导了 Grok 多代模型的预训练,并牵头预训练了 Grok 在 X 和 Tesla 上的语音模型,以及 xAI 对外的企业 API 模型。
在此之前,他曾在 OpenAI 工作过两年。期间,他是 GPT-4 技术报告的联合作者,还参与了 GPT-4o 和 DALL-E 3 的核心开发,提出了 GPT4-Turbo 128k 算法,并以第一贡献者的身份搭建了 OpenAI 的 Embedding 模型。这几项成果分别对应了 OpenAI 在语言模型、多模态、图像生成和向量检索等方向上的关键产品节点。

他的学术背景与这份光鲜的履历形成了鲜明的反差。庄钧堂本科毕业于清华大学,但专业并非计算机,而是工程物理,同时还辅修了法律。他的硕博生涯在耶鲁大学度过,硕士攻读统计学,博士则专攻生物医学工程。读博期间,他的研究课题是利用神经网络判断自闭症患者脑连接组中哪些异常连接与诊断相关。

在博士期间,他提出了 AdaBelief 优化器。其核心思路是根据模型对当前梯度的置信程度来自适应地调整步长:如果当前观测到的梯度方向与模型预期偏差很大,说明此刻的观测不可靠,应该迈小步;反之,如果梯度方向与预期接近,说明信号可靠,可以迈大步。这个设计直击了深度学习训练中一个长期存在的痛点——现有优化器对噪声梯度的处理过于粗糙。该论文在 NeurIPS 2020 获得 Spotlight,随后被 PyTorch、TensorFlow、Google Flax、DeepMind Optax 等主流框架相继收录,成为研究者工具箱中的常备选项。
马斯克留不住人
就在庄钧堂宣布离职的同一天,xAI 还有多名员工也发出了同样的消息。三天前,马斯克刚刚宣布 xAI 不再作为独立公司运营,而是并入 SpaceX,统一更名为“SpaceXAI”。这个消息发布后不久,离职的消息便接踵而至。

与此同时,另一批人正在进场——Cursor 的员工开始出现在 xAI 的办公室里,由 xAI 现任研究负责人 Aman Madaan 主持联合会议。Cursor 的到来,目的之一就是解决马斯克长期以来“留不住人”的困境。从 2024 年中开始,xAI 的联创就在陆续离开,SpaceX 完成收购后密集爆发,到今年 3 月底,11 位联创已全部清零。据 Fast Company 统计,过去一年内 xAI 可查证的离职员工已超过 80 人。
马斯克也曾试图解决人事危机,但专门挖来的人也是说走就走。今年 3 月,他把 Mistral AI 和 Thinking Machines Lab 的联创 Devendra Chaplot 请来,直接向他汇报,但 Devendra 入职才一个月便离职了。马斯克承认,xAI“没有建立在正确的基础上,正在从头重建”。今年 4 月,他转向外部,与 Cursor 达成合作,于是便有了 Cursor 员工进驻 xAI 办公室的一幕。
Grok 正常更新
尽管马斯克在人事问题上屡遭滑铁卢,但 xAI 的主要产品 Grok 刚刚宣布了一波更新。新版增加了连接器功能,支持接入邮件、日历、Notion 等工具,帮助用户提取邮件、整理日程。

同时,马斯克还下场驳斥了“Grok 将死”的传闻。毕竟一边是团队不再独立运行,另一边又刚刚把 Colossus 集群租给了 Anthropic,让人很难不产生联想。但马斯克表示,新的 Grok 模型正在 Colossus 2 集群上正常训练中,也算是解开了 Colossus 出租的疑云。

那就等着看看,马斯克还能交出怎样的模型吧。
参考链接:
[1]https://x.com/archanfel_anoth/status/2052878350868484361
[2]https://x.com/elonmusk/status/2052269744120869106
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33905

