揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

马斯克开源𝕏推荐算法:一个纯AI驱动的端到端系统

目前,GitHub上已完整公开了马斯克开源的𝕏推荐算法系统

开源文件明确指出,这是一个几乎完全由AI模型驱动的算法系统。

我们移除了所有人工设计特征和绝大多数启发式规则。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

消息一出,社区反响热烈,一条获得高赞的评论写道:

不可思议!没有其他平台能做到如此透明。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

马斯克本人也迅速转发了𝕏工程团队的原帖,但他此番表态却颇为低调:

我们知道这个算法很蠢(dumb),需要大幅改进,但至少您可以实时、透明地看到我们为改进它而努力。

其他社交媒体公司都没有这样做。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

早在2022年收购𝕏(原Twitter)之前,马斯克就多次批评该平台过于封闭。自收购之后,他已多次公开Twitter的核心推荐算法,此次开源可谓延续了其最初的承诺。

纯AI驱动的推荐系统如何运作?

该系统可以概括为:基于Grok-1同款的Transformer架构打造,通过学习用户的历史互动行为(如点赞、回复、转发),来决定推荐什么内容。

当用户打开“For You”信息流时,客户端会向服务器发送请求,触发整个算法流程。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

系统首先会构建“实时用户画像”,为此会拉取两类信息:
* 行为序列:代表最直接、最强烈的兴趣信号,如最近的点赞、回复、转发、点击、停留等行为。
* 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等。

这一步的目标是摒弃工程师的主观假设,尽可能原始地收集用户真实行为数据,并将其直接输入后续模型,实现“去人工化”和“端到端”学习。

获得用户画像后,系统会兵分两路,从海量推文中快速筛选出数千条候选推文:
1. 通过 Thunder模块 抓取用户关注账号的最新推文(熟人圈)。
2. 通过核心的 Phoenix Retrieval模块 抓取用户可能感兴趣、但来自未关注账号的推文(外部发现)。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

随后,系统通过 Hydration模块 补全每条候选推文的详细信息(全文、作者、媒体、历史互动数据等)。在正式计算前,还会通过 Filtering模块 淘汰明显不合适的内容,例如:
* 重复或过期的帖子
* 用户自己发布的内容
* 来自拉黑或静音账号的帖子
* 包含用户屏蔽关键词的内容
* 已看过或当前会话中展示过的帖子
* 用户无权限访问的订阅内容

此阶段仅判断内容“能否出现”,而非“是否值得推荐”。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

最终剩余的候选内容会被逐条送入 Phoenix排序模型 进行打分。这是一个基于Transformer的模型,它会同时接收:
* 用户的行为序列与属性信息
* 单条候选帖子的内容与作者信息

模型会预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数。系统还会进行少量工程调节,例如控制作者多样性,防止单一账号刷屏。

需要指出,为保证每条帖子独立评分,系统设置了“候选帖子相互不可见”的机制(即推文之间无交叉注意力)。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

所有候选帖子按最终得分排序,系统选出Top-K条作为推荐结果。在返回客户端前,还会进行最后一轮安全校验,移除已删除、被标记为垃圾信息或包含违规内容的推文。

最终,经过重重筛选的内容会根据分数高低展示给用户。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

根据官方总结,该系统成功运转的五大关键在于:
1. 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义的复杂规则。
2. 候选隔离机制,独立评分:每条内容在打分时“看不见”其他候选内容,确保分数一致且可高效缓存复用。
3. 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率。
4. 预测多元行为,而非单一分数:模型同时预测多种用户行为的概率,而非输出一个模糊的“推荐值”。
5. 模块化流水线,支撑快速迭代:系统采用模块化设计,各组件可独立开发、测试与替换。

开源后的评价与算法“缺陷”

尽管众人赞赏马斯克的开源姿态,但社区也指出了算法存在的一些问题。

有网友在算法开源后指出,代码显示“被大量用户屏蔽”是一个强负面信号,会导致账号被“降权”,但代码中似乎缺乏针对“屏蔽”信号的时间衰减机制。这意味着历史上的屏蔽记录可能至今仍在影响账号的推荐分数。

对此,马斯克本人在评论区直言:

是的,这算法太烂了。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

无论如何,马斯克持续改进和开放的态度已十分明确。他表示未来将每4周更新一次开源代码。

开源仓库
https://github.com/xai-org/x-algorithm

参考链接
[1]https://x.com/elonmusk/status/2013482798884233622
[2]https://x.com/elonmusk/status/2013496642851279270

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18513

(0)
上一篇 2026年1月21日 上午11:53
下一篇 2026年1月22日 上午6:51

相关推荐

  • GitHub本周爆火:从Linux运行Windows应用到AI绘图管理,10个必看开源项目盘点

    01 在 Linux 上运行 Windows 应用 winapps 是一个拥有 12K Star 的开源项目,它能让你在 Linux 上运行 Windows 软件,并获得如同原生 Linux 应用般丝滑的体验。 该项目通过 KVM/QEMU 虚拟机,以无缝模式运行 Windows 应用程序。与 Wine 的指令翻译方式不同,winapps 在后台运行一个真实…

    2025年12月7日
    7800
  • AMD Iris:Triton原生多GPU通信库,以Tile级抽象实现1.79倍性能飞跃,重塑计算-通信融合范式

    关键词:Iris、Triton、多 GPU 通信、计算-通信融合、对称内存抽象、tile 级编程 现代 AI 工作负载需要近乎峰值的性能以充分提取 AI 系统的效率。 然而,多 GPU 编程传统上要求开发者在性能与可编程性之间进行复杂的权衡:高性能实现通常依赖于低层 HIP/CUDA 通信库,即便实现基本的 重叠模式也需要大量工程努力;而更简单的抽象则往往牺…

    2026年1月9日
    5600
  • AI编程革命:本周6大GitHub明星项目深度解析

    DeepCode:智能体编程平台 DeepCode 由香港大学数据智能实验室开发,是一个采用多智能体系统架构的智能体编程平台。它能够理解复杂需求(如研究论文或自然语言描述),并通过智能体协作自动生成高质量的、可运行的代码。例如,用户上传一篇 ICML 论文,DeepCode 能自动解析其中的算法,生成 Python 实现,并附带测试用例和文档。 它提供网页界…

    2025年11月9日
    6500
  • NotebookLM开源替代方案全解析:三大GitHub明星项目打造本地化AI笔记助手

    NotebookLM 是谷歌推出的一款 AI 笔记助手。与普通 AI 不同,它严格限制在你上传的文档范围内进行回答,并能提供精准的原文引用。其标志性功能之一是播客生成,能将上传的复杂资料一键转换为逼真的双人英语对话播客,让学习过程更有趣,也支持通过“听”来消化信息。 本文将盘点 GitHub 上所有 NotebookLM 的开源替代方案,帮助你部署自己的本地…

    2025年12月19日
    7500
  • 四大前沿AI开源项目盘点:从智能体编排到浏览器自动化,加速你的开发效率

    Claude Code 的开源外挂 Agents 是一个专为 Claude Code 设计的智能自动化和多智能体编排系统。借助该项目,开发者可以构建一个由不同 AI 专家组成的协作团队,而非仅依赖单一的 AI 助手。 该系统集成了丰富的资源,例如 63 个插件、85 个智能体以及 47 项技能: 该项目的一个核心优势在于其极致的 Token 效率与混合模型编…

    2025年12月14日
    12100