มัสก์ป่วนโซเชียลมีเดีย: X เปิดซอร์สระบบโฆษณาและโค้ดตรวจสอบ พร้อมโมเดลแนะนำขนาด 3GB ทำงานทันที

8 hours ago • โครงการโอเพนซอร์ส • 12 views

马斯克再次引爆社交媒体！𝕏 将社交平台向来讳莫如深的“广告系统”与“内容审查”代码，连同可直接运行的推荐模型，一股脑儿全部开源至GitHub。如今，6亿用户每天刷到的内容，将由Grok全权决定。

就在刚刚，马斯克宣布开源𝕏最新版的算法！

他仅用一句话官宣，便瞬间吸引了超过2700万网友围观。

มัสก์ป่วนโซเชียลมีเดีย: X เปิดซอร์สระบบโฆษณาและโค้ดตรวจสอบ พร้อมโมเดลแนะนำขนาด 3GB ทำงานทันที

此举之所以引发轰动，是因为社交平台有两项核心机密向来不对外公开：

第一，广告注入系统——堪称“印钞机”。
第二，内容审查管线——无异于“生死簿”。

而𝕏 这次不仅将这两者的源码，连同体积高达3GB的推荐模型，一股脑儿全部上传到了GitHub！

仓库地址：https://github.com/xai-org/x-algorithm

等等，𝕏 连广告代码也公开了？

早在1月19日，𝕏 就曾首次开源推荐算法。

当时公开的是Phoenix排名模型和Thunder信息流引擎，也就是决定“你打开‘为你推荐’会看到什么”的逻辑。

但广告系统的代码，一个字都没透露。

这次，全盘托出。

新增的 home-mixer/ads/ 目录中，包含了四个相关的Rust文件：

partition_organic_blender.rs：负责将广告与自然内容混合。
safe_gap_blender.rs：控制两条广告之间至少间隔多少条自然帖子。
ads_brand_safety_hydrator.rs 和 ads_brand_safety_vf_hydrator.rs：负责品牌安全，确保广告不会出现在暴力或色情内容旁边。

请注意关键词：blender，即混合器。

这意味着，广告并非硬性插入，而是与你发布的帖子、你关注的人发布的帖子一起排队、一起打分，然后依据规则混合。你刷到的每一条广告，都是在与相邻几条自然内容的“竞争”中胜出，才出现在那个位置的。

有个审帖工具，名字叫“deluxe”

另一个从未公开的组件是 grox/ 目录。

它专门负责帖子发布后、进入推荐前的那道“审查流水线”。

六个分类器各司其职：

spam.py：负责垃圾内容检测。
post_safety_screen_deluxe.py：负责安全审查（“豪华版”这个命名，很𝕏）。
safety_ptos.py：负责平台服务条款策略检查。
banger_initial_screen.py：负责爆款初筛，判断一条帖子是否“够炸”。
reply_ranking.py：负责回复排序。
classifier.py：负责通用内容分类。

其中，最有意思的是 banger_initial_screen。banger，即爆款。

也就是说，𝕏 的算法中专门有一个分类器用于判断“这条帖子够不够炸”，够炸的优先往前排。

整套Grox管线采用Python编写，与Rust编写的推荐系统主体形成了分层架构。其中，Rust负责毫秒级排序，Python则负责判断“这条内容该不该存在”。配套的还有Kafka数据加载器、ASR语音识别处理、帖子摘要生成器，以及一个调度引擎，将这些任务编排成不同的“plan”来运行。

3GB模型给你，拿去直接跑

技术圈最为兴奋的，可能是第三个变化。

以往开源推荐算法，你能看到逻辑，但跑不起来。没有模型权重，代码就是一堆空壳。

这次，𝕏 直接塞了一个预训练好的mini Phoenix模型：

Mini Phoenix Model
├── 嵌入维度: 256
├── 注意力头: 4
├── Transformer层数: 2
├── 模型体积: ~3 GB（Git LFS分发）
└── 推理入口: python run_pipeline.py（检索→排序，一行跑通）

只需一行命令，从检索到排序的完整推理流程就能跑通，pipeline结构与生产环境一模一样。

当然，mini模型的参数规模远小于线上版本。

但这已经是社交平台历史上，第一次有人把“能跑的模型”和“生产级代码”打包在一起公开。

一条帖子的生死，15个概率说了算

广告、审查、模型是这次最炸的三个新组件。但它们各自填补了推荐pipeline的具体位置。

1月那一版，pipeline六步中大部分只有骨架代码。

这次补全后，每一步都有了完整的Rust或Python实现。

Pipeline 六步                        1月有的          5月15日新增的
─────────────────────────────────────────────────────────────
[1] 用户画像                        无                17个query_hydrator
(Query Hydration)                                 （关注/屏蔽/话题/互关/IP/
Bloom过滤器/历史时间戳……）
[2] 候选召回                         Thunder          +Ads Source（广告）
(Candidate Sources)              Phoenix          +Phoenix MoE（混合专家）
                                                      +Phoenix Topics（话题）
                                                      +Who To Follow（推荐关注）
                                                      +Prompts Source（Grok提示）
[3] 特征填充                         基础版            +互动数/品牌安全/语言检测/
(Hydration)                                       媒体类型/视频时长/引用展开
[4] 打分前过滤                       基础版            +屏蔽词/已看过/付费权限/
(Pre-Scoring Filter)                              社交关系图谱过滤
[5] 打分 + 排序                      Phoenix Scorer   不变（下面展开）
[6] 打分后过滤 + 广告混排            基础版            +VF可见性检查
                                                      +会话去重
                                                      +完整ads blending模块

从2个候选源扩展到7个以上，从0个用户画像hydrator增加到17个。

整个 pipeline 从“能看”直接进化到了“能跑”。

这条 pipeline 的核心灵魂在于第五步的打分环节。

Phoenix 的 Grok Transformer 在给每一条帖子打分时，会同步预测 15 种用户行为的概率。

- - - - *

正向行为（11种）负向行为（4种）
────────────────────── ──────────────────
P(favorite) 点赞 P(not_interested) 不感兴趣
P(reply) 回复 P(block_author) 拉黑
P(repost) 转发 P(mute_author) 静音
P(quote) 引用 P(report) 举报
P(click) 点击
P(profile_click) 查看主页
P(video_view) 看视频
P(photo_expand) 展开图片
P(share) 分享
P(dwell) 停留浏览
P(follow_author) 关注作者

最终得分的计算规则如下：