揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

马斯克开源𝕏推荐算法:一个纯AI驱动的端到端系统

目前,GitHub上已完整公开了马斯克开源的𝕏推荐算法系统

开源文件明确指出,这是一个几乎完全由AI模型驱动的算法系统。

我们移除了所有人工设计特征和绝大多数启发式规则。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

消息一出,社区反响热烈,一条获得高赞的评论写道:

不可思议!没有其他平台能做到如此透明。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

马斯克本人也迅速转发了𝕏工程团队的原帖,但他此番表态却颇为低调:

我们知道这个算法很蠢(dumb),需要大幅改进,但至少您可以实时、透明地看到我们为改进它而努力。

其他社交媒体公司都没有这样做。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

早在2022年收购𝕏(原Twitter)之前,马斯克就多次批评该平台过于封闭。自收购之后,他已多次公开Twitter的核心推荐算法,此次开源可谓延续了其最初的承诺。

纯AI驱动的推荐系统如何运作?

该系统可以概括为:基于Grok-1同款的Transformer架构打造,通过学习用户的历史互动行为(如点赞、回复、转发),来决定推荐什么内容。

当用户打开“For You”信息流时,客户端会向服务器发送请求,触发整个算法流程。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

系统首先会构建“实时用户画像”,为此会拉取两类信息:
* 行为序列:代表最直接、最强烈的兴趣信号,如最近的点赞、回复、转发、点击、停留等行为。
* 属性:代表长期属性,如关注列表、声明的兴趣主题、地理位置、使用设备等。

这一步的目标是摒弃工程师的主观假设,尽可能原始地收集用户真实行为数据,并将其直接输入后续模型,实现“去人工化”和“端到端”学习。

获得用户画像后,系统会兵分两路,从海量推文中快速筛选出数千条候选推文:
1. 通过 Thunder模块 抓取用户关注账号的最新推文(熟人圈)。
2. 通过核心的 Phoenix Retrieval模块 抓取用户可能感兴趣、但来自未关注账号的推文(外部发现)。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

随后,系统通过 Hydration模块 补全每条候选推文的详细信息(全文、作者、媒体、历史互动数据等)。在正式计算前,还会通过 Filtering模块 淘汰明显不合适的内容,例如:
* 重复或过期的帖子
* 用户自己发布的内容
* 来自拉黑或静音账号的帖子
* 包含用户屏蔽关键词的内容
* 已看过或当前会话中展示过的帖子
* 用户无权限访问的订阅内容

此阶段仅判断内容“能否出现”,而非“是否值得推荐”。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

最终剩余的候选内容会被逐条送入 Phoenix排序模型 进行打分。这是一个基于Transformer的模型,它会同时接收:
* 用户的行为序列与属性信息
* 单条候选帖子的内容与作者信息

模型会预测用户对某条推文执行各种操作(如点赞、拉黑)的概率,并按预设权重加权组合,形成最终排序分数。系统还会进行少量工程调节,例如控制作者多样性,防止单一账号刷屏。

需要指出,为保证每条帖子独立评分,系统设置了“候选帖子相互不可见”的机制(即推文之间无交叉注意力)。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

所有候选帖子按最终得分排序,系统选出Top-K条作为推荐结果。在返回客户端前,还会进行最后一轮安全校验,移除已删除、被标记为垃圾信息或包含违规内容的推文。

最终,经过重重筛选的内容会根据分数高低展示给用户。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

根据官方总结,该系统成功运转的五大关键在于:
1. 纯数据驱动,拒绝人工规则:由AI模型直接从原始用户数据中学习,摒弃人工定义的复杂规则。
2. 候选隔离机制,独立评分:每条内容在打分时“看不见”其他候选内容,确保分数一致且可高效缓存复用。
3. 哈希嵌入,实现高效检索:检索和排序都使用多个哈希函数进行向量嵌入查找,提高效率。
4. 预测多元行为,而非单一分数:模型同时预测多种用户行为的概率,而非输出一个模糊的“推荐值”。
5. 模块化流水线,支撑快速迭代:系统采用模块化设计,各组件可独立开发、测试与替换。

开源后的评价与算法“缺陷”

尽管众人赞赏马斯克的开源姿态,但社区也指出了算法存在的一些问题。

有网友在算法开源后指出,代码显示“被大量用户屏蔽”是一个强负面信号,会导致账号被“降权”,但代码中似乎缺乏针对“屏蔽”信号的时间衰减机制。这意味着历史上的屏蔽记录可能至今仍在影响账号的推荐分数。

对此,马斯克本人在评论区直言:

是的,这算法太烂了。

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发

无论如何,马斯克持续改进和开放的态度已十分明确。他表示未来将每4周更新一次开源代码。

开源仓库
https://github.com/xai-org/x-algorithm

参考链接
[1]https://x.com/elonmusk/status/2013482798884233622
[2]https://x.com/elonmusk/status/2013496642851279270

揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18513

(0)
上一篇 2026年1月21日 上午11:53
下一篇 2026年1月22日 上午6:51

相关推荐

  • 全球第一GUI智能体Mano-P 1.0亮相:断崖领先13.2%,纯视觉操作桌面软件,数据零上云

    自从AI智能体展现出在电脑上执行操作的能力以来,人们对其应用场景的想象不断拓展。例如,能否让AI智能体代替用户完成一些复杂的桌面软件操作任务? 然而,现有的一些智能体方案在操作图形用户界面时仍显笨拙。它们往往需要依赖特定的插件或技能库,执行复杂任务时不够流畅,这限制了其在严肃工作流程中的应用。 近期,明略科技发布了其全新进化的面向端侧设备的GUI-VLA智能…

    2026年4月13日
    96000
  • DeepSeek V4发布:百万token上下文开源,国产芯片适配

    DeepSeek V4“迟到”半年,但发布后的好评如潮还在如潮。 中外热搜上了一整圈,科技媒体的版面今天都让给了它,OpenAI也成了它的陪衬。 大家惊叹于DeepSeek在有限条件下作出重大突破的创造力,也佩服其在2026年,还能坚定选择开源路线的决心。 可以说,一时间信息多的有些超载,但多归多,主线就两条。 第一条,百万token上下文全面开源,KV c…

    2026年4月25日
    34100
  • QSVD:多模态大模型轻量化革命——联合低秩分解与量化技术突破

    在多模态人工智能的快速发展浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接计算机视觉与自然语言处理的核心桥梁。从图像描述生成、视觉问答到智能教育系统和交互式应用,这些模型让机器具备了“看懂世界、说人话”的能力。然而,这种强大的能力伴随着巨大的计算代价——模型参数动辄达到数百亿级别,导致显存占用巨大、推理速度缓慢,严重制…

    2025年11月15日
    42800
  • WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

    在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主…

    2025年10月29日
    37000
  • AI抗体设计新纪元:Chai-2突破药物研发瓶颈,引领生物医药理性设计革命

    在人工智能技术日新月异的今天,当公众目光聚焦于Gemini等通用大模型的娱乐化应用时,一场更为深刻的技术革命正在生物医药领域悄然发生。Chai-2模型的突破性进展,标志着抗体药物研发正式迈入“计算优先”的新时代,其意义不亚于当年的AlphaFold对结构生物学的颠覆。 传统抗体药物研发面临的根本性挑战在于其高度依赖试错式实验筛选。科学家通常需要从数百甚至数千…

    2025年12月3日
    35300