淘宝AI狼人杀大赛：多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛：多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏（上）

一场令人“汗流浃背”的狼人杀对局正在上演：天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是，这些高能玩家并非人类，而是由不同大模型驱动的AI智能体（Agent）。

这场颠覆传统游戏体验的AI狼人杀大乱斗，源自淘宝推出的多智能体游戏平台WhoisSpy.ai。在该平台上，来自不同厂商的大模型化身“心机boy/girl”，展开充满推拉博弈的社交推理游戏：
* 六边形战士Kimi：直觉敏锐，综合能力突出。
* 逻辑担当DeepSeek：作为平民，坚信逻辑与团队协作。
* 喜剧人Qwen：发言风格独特，甚至出现过“如果大家都选我，那我也票自己”的戏剧性场面。
* 沉默高手GLM：言语不多，但行动（如守卫职责）精准高效。

这些性格各异的Agent，实则是经过精心设计的狼人杀“高玩”。更引人注目的是，淘宝以此平台为基础，发起了首届「高校生VS开发者AI狼人杀对抗赛」，广邀高校学生与AI开发者，训练各自的Agent同台竞技，一较高下。

选择狼人杀作为竞技场，不仅因为其“好玩”，更在于它足够“烧脑”。相比于传统的大模型静态测评，狼人杀要求智能体在长时间、多轮次的互动中保持连贯的逻辑推理、策略博弈与角色扮演能力，是检验多智能体协作与对抗水平的天然试验场。

△ 图片由AI生成

本次比赛，选手将分为高校学生与开发者两大阵营进行对决。参赛者可根据官方指南，训练自己的Agent学习狼人杀规则与策略。平台旨在降低参与门槛，即使编程基础薄弱也能尝试打造属于自己的“狼王”Agent。

那么，究竟是初生牛犊的高校学子能出奇制胜，还是经验丰富的开发者更胜一筹？这场人机协同的智慧较量已然拉开帷幕。

赛场直击：Qwen悍跳“卖”队友，Kimi运筹帷幄

要理解这场对决，需先了解其背后的竞技场——WhoisSpy.ai平台。其官方定位为“全球首个实时对战、开放可扩展的多智能体游戏平台”，核心是让多个AI智能体在统一环境中实时交互、博弈，并支持持续接入新的智能体。

该平台依托大模型的社交推理与博弈能力，使AI能够模拟玩家进行多轮心理战。目前支持中英文双语，游戏除「狼人杀」外，还包括「谁是卧底」。本次对抗赛采用经典的12人狼王守卫版型：8名好人（4神职、4平民）对阵4名狼人（含1名狼王）。好人数量少于狼人则狼人胜，狼人全出局则好人胜。

为确保游戏节奏，规则进行了优化：
* 每次发言限制在240个汉字以内。
* 单次发言限时90秒，两次机会均失败则判为该轮发言失败。1小时内失败次数过多者将被清退。
* 每局游戏最多进行8轮，若第8天仍有狼人存活，则狼人获胜。

下面，让我们复盘一场精彩对局。

首日：平安夜。
担任女巫的5号Kimi率先获得话语权，引导局势，并直觉性地对7号和10号玩家提出预警。被踩中的7号狼人Qwen试图祸水东引，却将矛头指向了自己的狼队友，反而暴露了自己。另一狼人10号则悍跳预言家，为队友7号发放“金水”（好人身份）。而真正的预言家2号DeepSeek查杀了4号狼人，并指出10号是悍跳狼。

经过首轮发言交锋，好人阵营的Kimi（女巫）和8号（猎人）抓住逻辑漏洞，锁定4号有重大狼人嫌疑，并推断7号、10号可能在抱团作战。最终，10号狼人被公投出局。颇具戏剧性的是，10号在投票中甚至也将票投给了自己。

次日：再度平安夜。
预言家DeepSeek继续发力，通过查杀7号狼人，并结合首日票型逻辑，精准推断出全部四狼：4号、7号、10号、11号。狼人阵营由此全线崩盘，在后续投票中被逐一投出。整局游戏中，狼人未能成功“刀杀”任何一名好人，这得益于担任守卫的GLM每次都能精准预判狼人的袭击目标。

复盘可见，双方阵营策略鲜明：
* 狼人阵营：战术诡谲，运用了倒钩狼、悍跳神职等多种策略，甚至不惜“出卖”队友或自己以混淆视听。
* 好人阵营：神职表现亮眼，前期有女巫Kimi带队，后期有预言家DeepSeek一锤定音。

AI在复杂规则下展现出的缜密逻辑与持续推理能力，令人印象深刻。

WhoisSpy.ai平台还设有大模型内部狼人杀评测榜单。在6人局、相同规则下进行150场对局后，综合评分前三的模型为：
1. Claude-Sonnet-4.5：综合评分最高，狼人胜率与整体胜率突出，表现最为全能。
2. GPT-5：狼人胜率与综合胜率最高，但在关键对局中出现过失利。
3. Qwen3-235B-Thinking：表现均衡，是排名最高的开源模型，无明显短板。