揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

马斯克开源𝕏推荐算法:一个纯AI驱动的端到端系统

目前,GitHub上已完整公开了马斯克开源的𝕏推荐算法系统

开源文件明确指出,这是一个几乎完全由AI模型驱动的算法系统。

我们移除了所有人工设计特征和绝大多数启发式规则。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

消息一出,社区反响热烈,一条获得高赞的评论写道:

不可思议!没有其他平台能做到如此透明。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

马斯克本人也迅速转发了𝕏工程团队的原帖,但他此番表态却颇为低调:

我们知道这个算法很蠢(dumb),需要大幅改进,但至少您可以实时、透明地看到我们为改进它而努力。

其他社交媒体公司都没有这样做。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

早在2022年收购𝕏(原Twitter)之前,马斯克就多次批评该平台过于封闭。自收购之后,他已多次公开Twitter的核心推荐算法,此次开源可谓延续了其最初的承诺。

纯AI驱动的推荐系统如何运作?

该系统可以概括为:基于Grok-1同款的Transformer架构打造,通过学习用户的历史互动行为(如点赞、回复、转发),来决定推荐什么内容。

当用户打开“For You”信息流时,客户端会向服务器发送请求,触发整个算法流程。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

系统首先会构建“实时用户画像”,为此会拉取两类信息:
* 行为序列:代表最直接、最强烈的兴趣信号,如最近的点赞、回复、转发、点击、停留等行为。
* 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等。

这一步的目标是摒弃工程师的主观假设,尽可能原始地收集用户真实行为数据,并将其直接输入后续模型,实现“去人工化”和“端到端”学习。

获得用户画像后,系统会兵分两路,从海量推文中快速筛选出数千条候选推文:
1. 通过 Thunder模块 抓取用户关注账号的最新推文(熟人圈)。
2. 通过核心的 Phoenix Retrieval模块 抓取用户可能感兴趣、但来自未关注账号的推文(外部发现)。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

随后,系统通过 Hydration模块 补全每条候选推文的详细信息(全文、作者、媒体、历史互动数据等)。在正式计算前,还会通过 Filtering模块 淘汰明显不合适的内容,例如:
* 重复或过期的帖子
* 用户自己发布的内容
* 来自拉黑或静音账号的帖子
* 包含用户屏蔽关键词的内容
* 已看过或当前会话中展示过的帖子
* 用户无权限访问的订阅内容

此阶段仅判断内容“能否出现”,而非“是否值得推荐”。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

最终剩余的候选内容会被逐条送入 Phoenix排序模型 进行打分。这是一个基于Transformer的模型,它会同时接收:
* 用户的行为序列与属性信息
* 单条候选帖子的内容与作者信息

模型会预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数。系统还会进行少量工程调节,例如控制作者多样性,防止单一账号刷屏。

需要指出,为保证每条帖子独立评分,系统设置了“候选帖子相互不可见”的机制(即推文之间无交叉注意力)。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

所有候选帖子按最终得分排序,系统选出Top-K条作为推荐结果。在返回客户端前,还会进行最后一轮安全校验,移除已删除、被标记为垃圾信息或包含违规内容的推文。

最终,经过重重筛选的内容会根据分数高低展示给用户。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

根据官方总结,该系统成功运转的五大关键在于:
1. 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义的复杂规则。
2. 候选隔离机制,独立评分:每条内容在打分时“看不见”其他候选内容,确保分数一致且可高效缓存复用。
3. 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率。
4. 预测多元行为,而非单一分数:模型同时预测多种用户行为的概率,而非输出一个模糊的“推荐值”。
5. 模块化流水线,支撑快速迭代:系统采用模块化设计,各组件可独立开发、测试与替换。

开源后的评价与算法“缺陷”

尽管众人赞赏马斯克的开源姿态,但社区也指出了算法存在的一些问题。

有网友在算法开源后指出,代码显示“被大量用户屏蔽”是一个强负面信号,会导致账号被“降权”,但代码中似乎缺乏针对“屏蔽”信号的时间衰减机制。这意味着历史上的屏蔽记录可能至今仍在影响账号的推荐分数。

对此,马斯克本人在评论区直言:

是的,这算法太烂了。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

无论如何,马斯克持续改进和开放的态度已十分明确。他表示未来将每4周更新一次开源代码。

开源仓库
https://github.com/xai-org/x-algorithm

参考链接
[1]https://x.com/elonmusk/status/2013482798884233622
[2]https://x.com/elonmusk/status/2013496642851279270

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18513

(0)
上一篇 2026年1月21日 上午11:53
下一篇 2026年1月22日 上午6:51

相关推荐

  • 从生物进化到AI演进:开源加速与非线性跃迁的深层逻辑

    在科技发展的宏大叙事中,生物进化与人工智能的演进轨迹呈现出令人惊异的相似性。这种相似性不仅体现在表面模式上,更深入到两者共享的底层逻辑——试错、选择与适应性突破。本文将以Daniel Povey在MEET2026智能未来大会上的核心观点为线索,深入剖析AI发展的进化隐喻,探讨开源生态的关键作用,并展望下一代架构的探索路径。 **一、进化逻辑的深层映射:从生物…

    2025年12月15日
    15600
  • Cursor CEO宣布AI编程进入“第三时代”:云端Agent独立完成大规模任务,开发者角色从编码转向工厂管理

    近日,Cursor CEO Michael Truell 在社交平台发文指出,AI 编程已正式进入“第三时代”。这一时代的核心特征是:智能体(Agent)能够在更长的时间跨度内、更少的人工干预下,独立完成大规模任务。 AI 编程的三个时代 Michael Truell 回顾了 AI 辅助编程的演进历程: 第一时代:Tab 自动补全 早期代码大多依靠手动输入,…

    3天前
    7300
  • LLM重构数据准备:从规则驱动到语义驱动的范式革命

    在企业级系统中,数据团队普遍面临一个困境:模型迭代飞速,但数据准备的「老旧管道」却愈发沉重。清洗、对齐、标注……这些工作依然深陷于人工规则与专家经验的泥潭。 数据格式五花八门:正则表达式越写越多,却总有意想不到的「脏数据」出现。 跨系统表结构不一致:对齐逻辑复杂,人工映射耗时耗力。 海量数据缺少标签和语义描述:分析师「看不懂、用不好」。 这背后是数据准备这一…

    2026年2月8日
    4800
  • ChatGPT广告功能上线:OpenAI商业化新策略与隐私保护机制解析

    OpenAI 今日在美国启动 ChatGPT 广告功能的测试。测试范围限定于已登录的成年用户,且仅面向 Free 和 Go 两个订阅层级。Plus、Pro、Business、Enterprise 及 Education 用户将不会看到广告。 广告不会影响 ChatGPT 的回复内容,OpenAI 同时承诺不会向广告主透露用户的对话内容。公司表示,引入广告旨在…

    2026年2月10日
    3700
  • 从TNT到AutoGLM:开源GUI Agent如何重塑人机交互与隐私边界

    在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT…

    2025年12月10日
    15500