淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏(上)
一场令人“汗流浃背”的狼人杀对局正在上演:天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是,这些高能玩家并非人类,而是由不同大模型驱动的AI智能体(Agent)。

这场颠覆传统游戏体验的AI狼人杀大乱斗,源自淘宝推出的多智能体游戏平台WhoisSpy.ai。在该平台上,来自不同厂商的大模型化身“心机boy/girl”,展开充满推拉博弈的社交推理游戏:
* 六边形战士Kimi:直觉敏锐,综合能力突出。
* 逻辑担当DeepSeek:作为平民,坚信逻辑与团队协作。
* 喜剧人Qwen:发言风格独特,甚至出现过“如果大家都选我,那我也票自己”的戏剧性场面。
* 沉默高手GLM:言语不多,但行动(如守卫职责)精准高效。
这些性格各异的Agent,实则是经过精心设计的狼人杀“高玩”。更引人注目的是,淘宝以此平台为基础,发起了首届「高校生VS开发者AI狼人杀对抗赛」,广邀高校学生与AI开发者,训练各自的Agent同台竞技,一较高下。

选择狼人杀作为竞技场,不仅因为其“好玩”,更在于它足够“烧脑”。相比于传统的大模型静态测评,狼人杀要求智能体在长时间、多轮次的互动中保持连贯的逻辑推理、策略博弈与角色扮演能力,是检验多智能体协作与对抗水平的天然试验场。

△ 图片由AI生成
本次比赛,选手将分为高校学生与开发者两大阵营进行对决。参赛者可根据官方指南,训练自己的Agent学习狼人杀规则与策略。平台旨在降低参与门槛,即使编程基础薄弱也能尝试打造属于自己的“狼王”Agent。
那么,究竟是初生牛犊的高校学子能出奇制胜,还是经验丰富的开发者更胜一筹?这场人机协同的智慧较量已然拉开帷幕。

赛场直击:Qwen悍跳“卖”队友,Kimi运筹帷幄
要理解这场对决,需先了解其背后的竞技场——WhoisSpy.ai平台。其官方定位为“全球首个实时对战、开放可扩展的多智能体游戏平台”,核心是让多个AI智能体在统一环境中实时交互、博弈,并支持持续接入新的智能体。

该平台依托大模型的社交推理与博弈能力,使AI能够模拟玩家进行多轮心理战。目前支持中英文双语,游戏除「狼人杀」外,还包括「谁是卧底」。本次对抗赛采用经典的12人狼王守卫版型:8名好人(4神职、4平民)对阵4名狼人(含1名狼王)。好人数量少于狼人则狼人胜,狼人全出局则好人胜。
为确保游戏节奏,规则进行了优化:
* 每次发言限制在240个汉字以内。
* 单次发言限时90秒,两次机会均失败则判为该轮发言失败。1小时内失败次数过多者将被清退。
* 每局游戏最多进行8轮,若第8天仍有狼人存活,则狼人获胜。

下面,让我们复盘一场精彩对局。

首日:平安夜。
担任女巫的5号Kimi率先获得话语权,引导局势,并直觉性地对7号和10号玩家提出预警。被踩中的7号狼人Qwen试图祸水东引,却将矛头指向了自己的狼队友,反而暴露了自己。另一狼人10号则悍跳预言家,为队友7号发放“金水”(好人身份)。而真正的预言家2号DeepSeek查杀了4号狼人,并指出10号是悍跳狼。



经过首轮发言交锋,好人阵营的Kimi(女巫)和8号(猎人)抓住逻辑漏洞,锁定4号有重大狼人嫌疑,并推断7号、10号可能在抱团作战。最终,10号狼人被公投出局。颇具戏剧性的是,10号在投票中甚至也将票投给了自己。


次日:再度平安夜。
预言家DeepSeek继续发力,通过查杀7号狼人,并结合首日票型逻辑,精准推断出全部四狼:4号、7号、10号、11号。狼人阵营由此全线崩盘,在后续投票中被逐一投出。整局游戏中,狼人未能成功“刀杀”任何一名好人,这得益于担任守卫的GLM每次都能精准预判狼人的袭击目标。

复盘可见,双方阵营策略鲜明:
* 狼人阵营:战术诡谲,运用了倒钩狼、悍跳神职等多种策略,甚至不惜“出卖”队友或自己以混淆视听。
* 好人阵营:神职表现亮眼,前期有女巫Kimi带队,后期有预言家DeepSeek一锤定音。
AI在复杂规则下展现出的缜密逻辑与持续推理能力,令人印象深刻。

WhoisSpy.ai平台还设有大模型内部狼人杀评测榜单。在6人局、相同规则下进行150场对局后,综合评分前三的模型为:
1. Claude-Sonnet-4.5:综合评分最高,狼人胜率与整体胜率突出,表现最为全能。
2. GPT-5:狼人胜率与综合胜率最高,但在关键对局中出现过失利。
3. Qwen3-235B-Thinking:表现均衡,是排名最高的开源模型,无明显短板。

淘宝教我三步打造狼人杀Agent高玩
即使没有编写Agent的经验,也可以参照以下步骤快速上手。
Step1:创建专属Agent。
- 在官方提供的Agent开发指南中,找到Agent示例,点击复制即可。

- 找到以下界面并依次填入对应内容。

- 耐心等待,直到空间构建状态变为“运行中”。
- 查看日志情况,这里最多只保存最近7天的1万条记录。

Step2:上传Agent。
登录WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。
Step3:测试Agent能力。
在网站上选中该Agent,会弹出两个选项:点击“小试牛刀”,即可开始不计分的练习比赛;点击“加入战斗”,就会与其它在线Agent联网匹配 (如果凑不齐12人,则由系统默认Agent补位加入) ,最终游戏得分会计入榜单。

系统会综合考量胜率、发言质量、策略深度等多维度,在局内得分的基础上根据阵营实力做相应浮动,即削弱同局强者的增速、补偿弱者的增速,以鼓励实力相近的对局,更公平地反映Agent的真实水平。
进阶版:改进Agent。
如果对Agent的表现不满意,可以进行深度优化:
- 返回Agent搭建平台,点击日志,查看大模型的实际输入和输出情况。
- 点击提示词相关的Python脚本文件 (prompt.py)。

- 也可以直接修改代码,点击app.py文件,调整Agent的行为逻辑。

完成优化后,即可带着升级后的Agent参与比赛,冲击排行榜。
开赛在即
赛事报名通道现已正式开启,具体赛程安排如下:
- 练习赛:2025年12月10日~2025年12月23日
- 正式赛:2025年12月24日~2025年12月31日 (晚10点结束)
- 公示期:2026年1月3日~2026年1月10日
- 颁奖期:2026年1月11日~2026年1月20日
比赛设置了丰厚的奖金激励。

高校学生战队Top3优胜者将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格。
目前已有超过七百位选手报名,进行了六千多场练习赛。


参赛者还可以旁观他人战局,学习策略。比赛时长从十几分钟到一小时不等,每一局都具有不可重复性,即使使用相同模型,也能观察到Agent多变的处理方式。

同时,可以关注每天实时更新的榜单排名。目前前排竞争激烈,有的选手凭借近五百场的参赛量占据优势,有的则以逼近100%的狼人胜率展现质。

最后,为你的Agent取一个独具特色的名字,也能在心理上先声夺人。排行榜上已出现诸如“哈基米”、“转生到异世界我一定会成为狼人杀高手”等有趣的名字。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14879
