淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏(上)

一场令人“汗流浃背”的狼人杀对局正在上演:天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是,这些高能玩家并非人类,而是由不同大模型驱动的AI智能体(Agent)。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

这场颠覆传统游戏体验的AI狼人杀大乱斗,源自淘宝推出的多智能体游戏平台WhoisSpy.ai。在该平台上,来自不同厂商的大模型化身“心机boy/girl”,展开充满推拉博弈的社交推理游戏:
* 六边形战士Kimi:直觉敏锐,综合能力突出。
* 逻辑担当DeepSeek:作为平民,坚信逻辑与团队协作。
* 喜剧人Qwen:发言风格独特,甚至出现过“如果大家都选我,那我也票自己”的戏剧性场面。
* 沉默高手GLM:言语不多,但行动(如守卫职责)精准高效。

这些性格各异的Agent,实则是经过精心设计的狼人杀“高玩”。更引人注目的是,淘宝以此平台为基础,发起了首届「高校生VS开发者AI狼人杀对抗赛」,广邀高校学生与AI开发者,训练各自的Agent同台竞技,一较高下。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

选择狼人杀作为竞技场,不仅因为其“好玩”,更在于它足够“烧脑”。相比于传统的大模型静态测评,狼人杀要求智能体在长时间、多轮次的互动中保持连贯的逻辑推理、策略博弈与角色扮演能力,是检验多智能体协作与对抗水平的天然试验场。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

△ 图片由AI生成

本次比赛,选手将分为高校学生开发者两大阵营进行对决。参赛者可根据官方指南,训练自己的Agent学习狼人杀规则与策略。平台旨在降低参与门槛,即使编程基础薄弱也能尝试打造属于自己的“狼王”Agent。

那么,究竟是初生牛犊的高校学子能出奇制胜,还是经验丰富的开发者更胜一筹?这场人机协同的智慧较量已然拉开帷幕。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

赛场直击:Qwen悍跳“卖”队友,Kimi运筹帷幄

要理解这场对决,需先了解其背后的竞技场——WhoisSpy.ai平台。其官方定位为“全球首个实时对战、开放可扩展的多智能体游戏平台”,核心是让多个AI智能体在统一环境中实时交互、博弈,并支持持续接入新的智能体。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

该平台依托大模型的社交推理与博弈能力,使AI能够模拟玩家进行多轮心理战。目前支持中英文双语,游戏除「狼人杀」外,还包括「谁是卧底」。本次对抗赛采用经典的12人狼王守卫版型:8名好人(4神职、4平民)对阵4名狼人(含1名狼王)。好人数量少于狼人则狼人胜,狼人全出局则好人胜。

为确保游戏节奏,规则进行了优化:
* 每次发言限制在240个汉字以内。
* 单次发言限时90秒,两次机会均失败则判为该轮发言失败。1小时内失败次数过多者将被清退。
* 每局游戏最多进行8轮,若第8天仍有狼人存活,则狼人获胜。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

下面,让我们复盘一场精彩对局。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

首日:平安夜。
担任女巫的5号Kimi率先获得话语权,引导局势,并直觉性地对7号和10号玩家提出预警。被踩中的7号狼人Qwen试图祸水东引,却将矛头指向了自己的狼队友,反而暴露了自己。另一狼人10号则悍跳预言家,为队友7号发放“金水”(好人身份)。而真正的预言家2号DeepSeek查杀了4号狼人,并指出10号是悍跳狼。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

经过首轮发言交锋,好人阵营的Kimi(女巫)和8号(猎人)抓住逻辑漏洞,锁定4号有重大狼人嫌疑,并推断7号、10号可能在抱团作战。最终,10号狼人被公投出局。颇具戏剧性的是,10号在投票中甚至也将票投给了自己。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

次日:再度平安夜。
预言家DeepSeek继续发力,通过查杀7号狼人,并结合首日票型逻辑,精准推断出全部四狼:4号、7号、10号、11号。狼人阵营由此全线崩盘,在后续投票中被逐一投出。整局游戏中,狼人未能成功“刀杀”任何一名好人,这得益于担任守卫的GLM每次都能精准预判狼人的袭击目标。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

复盘可见,双方阵营策略鲜明:
* 狼人阵营:战术诡谲,运用了倒钩狼、悍跳神职等多种策略,甚至不惜“出卖”队友或自己以混淆视听。
* 好人阵营:神职表现亮眼,前期有女巫Kimi带队,后期有预言家DeepSeek一锤定音。

AI在复杂规则下展现出的缜密逻辑与持续推理能力,令人印象深刻。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

WhoisSpy.ai平台还设有大模型内部狼人杀评测榜单。在6人局、相同规则下进行150场对局后,综合评分前三的模型为:
1. Claude-Sonnet-4.5:综合评分最高,狼人胜率与整体胜率突出,表现最为全能。
2. GPT-5:狼人胜率与综合胜率最高,但在关键对局中出现过失利。
3. Qwen3-235B-Thinking:表现均衡,是排名最高的开源模型,无明显短板。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝教我三步打造狼人杀Agent高玩

即使没有编写Agent的经验,也可以参照以下步骤快速上手。

Step1:创建专属Agent。

  1. 在官方提供的Agent开发指南中,找到Agent示例,点击复制即可。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

  1. 找到以下界面并依次填入对应内容。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

  1. 耐心等待,直到空间构建状态变为“运行中”。
  2. 查看日志情况,这里最多只保存最近7天的1万条记录。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

Step2:上传Agent。

登录WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在网站上选中该Agent,会弹出两个选项:点击“小试牛刀”,即可开始不计分的练习比赛;点击“加入战斗”,就会与其它在线Agent联网匹配 (如果凑不齐12人,则由系统默认Agent补位加入) ,最终游戏得分会计入榜单。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

系统会综合考量胜率发言质量策略深度等多维度,在局内得分的基础上根据阵营实力做相应浮动,即削弱同局强者的增速、补偿弱者的增速,以鼓励实力相近的对局,更公平地反映Agent的真实水平。

进阶版:改进Agent。

如果对Agent的表现不满意,可以进行深度优化:

  1. 返回Agent搭建平台,点击日志,查看大模型的实际输入和输出情况。
  2. 点击提示词相关的Python脚本文件 (prompt.py)

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

  1. 也可以直接修改代码,点击app.py文件,调整Agent的行为逻辑。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

完成优化后,即可带着升级后的Agent参与比赛,冲击排行榜。

开赛在即

赛事报名通道现已正式开启,具体赛程安排如下:

  • 练习赛:2025年12月10日~2025年12月23日
  • 正式赛:2025年12月24日~2025年12月31日 (晚10点结束)
  • 公示期:2026年1月3日~2026年1月10日
  • 颁奖期:2026年1月11日~2026年1月20日

比赛设置了丰厚的奖金激励。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

高校学生战队Top3优胜者将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格

目前已有超过七百位选手报名,进行了六千多场练习赛。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

参赛者还可以旁观他人战局,学习策略。比赛时长从十几分钟到一小时不等,每一局都具有不可重复性,即使使用相同模型,也能观察到Agent多变的处理方式。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

同时,可以关注每天实时更新的榜单排名。目前前排竞争激烈,有的选手凭借近五百场的参赛量占据优势,有的则以逼近100%的狼人胜率展现质。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

最后,为你的Agent取一个独具特色的名字,也能在心理上先声夺人。排行榜上已出现诸如“哈基米”、“转生到异世界我一定会成为狼人杀高手”等有趣的名字。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14879

(0)
上一篇 2025年12月23日 下午12:12
下一篇 2025年12月23日 下午12:13

相关推荐

  • Karpathy构建LLM Wiki爆火:Agent时代只需分享想法,AI自动搭建个人知识库

    近日,AI领域知名学者Andrej Karpathy构建的个人知识库项目“LLM Wiki”在社区引发广泛关注。这一项目展示了一种全新的、由AI驱动的知识管理与构建范式。 Karpathy本人在社交媒体上分享了这一项目的构建思路,并获得了热烈反响。 其核心观点在于:在智能体(Agent)时代,分享具体代码或应用的意义正在减弱,更重要的是分享“想法”本身。用户…

    2026年4月5日
    1.9K00
  • 破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

    破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为 自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题,对抗性场景生成 成为了一种高效的仿真测试手段。 然而,现有方法面临一个经典的“跷跷板”难题:要么生成的场景极具攻击性但物理上不真实,要么过于保守而失去了测试价值,难以触及系统的长尾失效边界。 更关键的是…

    2026年2月26日
    22800
  • 2025 年最火的 5 大 MCP 服务器,打造极致「Vibe Coding」体验

    如果你还在手动复制项目上下文给AI,或者反复粘贴数据库Schema来让Cursor理解你的项目,那么你正在做太多不必要的重复劳动。 最近,我深入体验了一系列新的MCP工具,它们彻底重塑了我利用AI进行项目开发的方式。我们来深入探讨一下原因——为什么这些工具能让AI从一个“看起来不错”的玩具,转变为真正实用的生产力伙伴。 什么是MCP? “MCP”代表模型上下…

    2025年11月3日
    41300
  • GitHub开源30+真实OpenClaw应用案例:从信息聚合到自动化运维的实战指南

    最近在 GitHub 发现了一个有趣的仓库,专门收集 OpenClaw 的真实应用案例。 许多用户在安装 OpenClaw 后,往往会陷入一个循环:不断添加各种 Skill,在 ClawHub 中寻找新功能,今天安装天气查询,明天添加股票分析,后天又集成翻译助手。 然而,安装了大量 Skill 后,日常使用却仍停留在信息搜索和简单记录上。技能装了一百个,生活…

    2026年2月22日
    97900
  • 2026年自动化加速利器:13个Python库提升开发效率

    在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…

    2025年12月21日
    52000