淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏(上)

一场令人“汗流浃背”的狼人杀对局正在上演:天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是,这些高能玩家并非人类,而是由不同大模型驱动的AI智能体(Agent)。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

这场颠覆传统游戏体验的AI狼人杀大乱斗,源自淘宝推出的多智能体游戏平台WhoisSpy.ai。在该平台上,来自不同厂商的大模型化身“心机boy/girl”,展开充满推拉博弈的社交推理游戏:
* 六边形战士Kimi:直觉敏锐,综合能力突出。
* 逻辑担当DeepSeek:作为平民,坚信逻辑与团队协作。
* 喜剧人Qwen:发言风格独特,甚至出现过“如果大家都选我,那我也票自己”的戏剧性场面。
* 沉默高手GLM:言语不多,但行动(如守卫职责)精准高效。

这些性格各异的Agent,实则是经过精心设计的狼人杀“高玩”。更引人注目的是,淘宝以此平台为基础,发起了首届「高校生VS开发者AI狼人杀对抗赛」,广邀高校学生与AI开发者,训练各自的Agent同台竞技,一较高下。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

选择狼人杀作为竞技场,不仅因为其“好玩”,更在于它足够“烧脑”。相比于传统的大模型静态测评,狼人杀要求智能体在长时间、多轮次的互动中保持连贯的逻辑推理、策略博弈与角色扮演能力,是检验多智能体协作与对抗水平的天然试验场。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

△ 图片由AI生成

本次比赛,选手将分为高校学生开发者两大阵营进行对决。参赛者可根据官方指南,训练自己的Agent学习狼人杀规则与策略。平台旨在降低参与门槛,即使编程基础薄弱也能尝试打造属于自己的“狼王”Agent。

那么,究竟是初生牛犊的高校学子能出奇制胜,还是经验丰富的开发者更胜一筹?这场人机协同的智慧较量已然拉开帷幕。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

赛场直击:Qwen悍跳“卖”队友,Kimi运筹帷幄

要理解这场对决,需先了解其背后的竞技场——WhoisSpy.ai平台。其官方定位为“全球首个实时对战、开放可扩展的多智能体游戏平台”,核心是让多个AI智能体在统一环境中实时交互、博弈,并支持持续接入新的智能体。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

该平台依托大模型的社交推理与博弈能力,使AI能够模拟玩家进行多轮心理战。目前支持中英文双语,游戏除「狼人杀」外,还包括「谁是卧底」。本次对抗赛采用经典的12人狼王守卫版型:8名好人(4神职、4平民)对阵4名狼人(含1名狼王)。好人数量少于狼人则狼人胜,狼人全出局则好人胜。

为确保游戏节奏,规则进行了优化:
* 每次发言限制在240个汉字以内。
* 单次发言限时90秒,两次机会均失败则判为该轮发言失败。1小时内失败次数过多者将被清退。
* 每局游戏最多进行8轮,若第8天仍有狼人存活,则狼人获胜。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

下面,让我们复盘一场精彩对局。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

首日:平安夜。
担任女巫的5号Kimi率先获得话语权,引导局势,并直觉性地对7号和10号玩家提出预警。被踩中的7号狼人Qwen试图祸水东引,却将矛头指向了自己的狼队友,反而暴露了自己。另一狼人10号则悍跳预言家,为队友7号发放“金水”(好人身份)。而真正的预言家2号DeepSeek查杀了4号狼人,并指出10号是悍跳狼。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

经过首轮发言交锋,好人阵营的Kimi(女巫)和8号(猎人)抓住逻辑漏洞,锁定4号有重大狼人嫌疑,并推断7号、10号可能在抱团作战。最终,10号狼人被公投出局。颇具戏剧性的是,10号在投票中甚至也将票投给了自己。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

次日:再度平安夜。
预言家DeepSeek继续发力,通过查杀7号狼人,并结合首日票型逻辑,精准推断出全部四狼:4号、7号、10号、11号。狼人阵营由此全线崩盘,在后续投票中被逐一投出。整局游戏中,狼人未能成功“刀杀”任何一名好人,这得益于担任守卫的GLM每次都能精准预判狼人的袭击目标。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

复盘可见,双方阵营策略鲜明:
* 狼人阵营:战术诡谲,运用了倒钩狼、悍跳神职等多种策略,甚至不惜“出卖”队友或自己以混淆视听。
* 好人阵营:神职表现亮眼,前期有女巫Kimi带队,后期有预言家DeepSeek一锤定音。

AI在复杂规则下展现出的缜密逻辑与持续推理能力,令人印象深刻。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

WhoisSpy.ai平台还设有大模型内部狼人杀评测榜单。在6人局、相同规则下进行150场对局后,综合评分前三的模型为:
1. Claude-Sonnet-4.5:综合评分最高,狼人胜率与整体胜率突出,表现最为全能。
2. GPT-5:狼人胜率与综合胜率最高,但在关键对局中出现过失利。
3. Qwen3-235B-Thinking:表现均衡,是排名最高的开源模型,无明显短板。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝教我三步打造狼人杀Agent高玩

即使没有编写Agent的经验,也可以参照以下步骤快速上手。

Step1:创建专属Agent。

  1. 在官方提供的Agent开发指南中,找到Agent示例,点击复制即可。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

  1. 找到以下界面并依次填入对应内容。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

  1. 耐心等待,直到空间构建状态变为“运行中”。
  2. 查看日志情况,这里最多只保存最近7天的1万条记录。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

Step2:上传Agent。

登录WhoisSpy.ai网站,点击个人界面上传Agent,或者直接找到“赛事管理-选择赛事”添加,并根据参赛指南指引依次完成基本步骤。

Step3:测试Agent能力。

在网站上选中该Agent,会弹出两个选项:点击“小试牛刀”,即可开始不计分的练习比赛;点击“加入战斗”,就会与其它在线Agent联网匹配 (如果凑不齐12人,则由系统默认Agent补位加入) ,最终游戏得分会计入榜单。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

系统会综合考量胜率发言质量策略深度等多维度,在局内得分的基础上根据阵营实力做相应浮动,即削弱同局强者的增速、补偿弱者的增速,以鼓励实力相近的对局,更公平地反映Agent的真实水平。

进阶版:改进Agent。

如果对Agent的表现不满意,可以进行深度优化:

  1. 返回Agent搭建平台,点击日志,查看大模型的实际输入和输出情况。
  2. 点击提示词相关的Python脚本文件 (prompt.py)

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

  1. 也可以直接修改代码,点击app.py文件,调整Agent的行为逻辑。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

完成优化后,即可带着升级后的Agent参与比赛,冲击排行榜。

开赛在即

赛事报名通道现已正式开启,具体赛程安排如下:

  • 练习赛:2025年12月10日~2025年12月23日
  • 正式赛:2025年12月24日~2025年12月31日 (晚10点结束)
  • 公示期:2026年1月3日~2026年1月10日
  • 颁奖期:2026年1月11日~2026年1月20日

比赛设置了丰厚的奖金激励。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

高校学生战队Top3优胜者将有机会直通阿里巴巴淘天集团技术实习岗终面,Top20也能获得淘天集团的暑期AI Workshop资格

目前已有超过七百位选手报名,进行了六千多场练习赛。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

参赛者还可以旁观他人战局,学习策略。比赛时长从十几分钟到一小时不等,每一局都具有不可重复性,即使使用相同模型,也能观察到Agent多变的处理方式。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

同时,可以关注每天实时更新的榜单排名。目前前排竞争激烈,有的选手凭借近五百场的参赛量占据优势,有的则以逼近100%的狼人胜率展现质。

淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

最后,为你的Agent取一个独具特色的名字,也能在心理上先声夺人。排行榜上已出现诸如“哈基米”、“转生到异世界我一定会成为狼人杀高手”等有趣的名字。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14879

(0)
上一篇 2025年12月23日 下午12:12
下一篇 2025年12月23日 下午12:13

相关推荐

  • AscendKernelGen:突破NPU算子生成瓶颈,大语言模型领域适配实现95.5%编译成功率

    关键词:昇腾 Ascend、NPU 内核生成、大语言模型、领域适应、强化学习、评估基准 在人工智能飞速发展的今天,深度学习的计算需求呈指数级增长,传统的 CPU 和通用 GPU 已难以满足特定场景下的高效计算要求。为此,神经处理单元(Neural Processing Unit,NPU) 作为专为 AI 计算设计的领域专用加速器,逐渐成为现代 AI 基础设施…

    2026年1月23日
    2400
  • 英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

    这流畅的游戏动作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成,令人惊叹。 最令人震撼的是,上述操作完全由AI完成。 与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。 这就是来自英伟达的最新开源基础模型——NitroGen。 该模型的训练目标是玩1000款以上的游戏,无论是RPG、平台跳…

    2025年12月21日
    9600
  • AI Agent部署的95%失败率真相:Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

    大多数创业者以为自己在构建AI产品,其实他们真正在做的是构建上下文选择系统。 近期,旧金山举办了一场高规格AI圆桌讨论,嘉宾包括来自Uber、WisdomAI、EvenUp和Datastrato的工程师和机器学习负责人。这场名为“Beyond the Prompt”的活动吸引了600多位报名者,主要是创始人、工程师和早期AI产品构建者。 讨论的核心议题是上下…

    2025年10月20日
    7700
  • 阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

    当国产大模型在年底轮番冲刺、热议不断时,阶跃星辰一度显得颇为安静。 Kimi凭借K2模型重获关注,智谱与MiniMax在发布新SOTA模型的同时推进IPO进程,DeepSeek也因新功能引发热议。相比之下,作为“六小龙”中坚持自研路线的选手,阶跃星辰近期的声量似乎有所减弱。 直到其最新图像模型 NextStep-1.1 的发布,打破了这份“安静”。 Next…

    2025年12月27日
    10800
  • 华为诺亚&港中文发布SCOPE框架:让LLM Agent从错误中学习,实现Prompt自我进化

    在 LLM Agent 领域,一个常见的问题是:Agent 明明“看到了”错误信息,却总是重蹈覆辙。 当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案——正确的参数格式、有效的 API 用法、甚至是直接可用的替代方案。然而,静态的 Prompt 无法让 Agent 从这些反馈中“学到教训”,导致它们陷入“错误循环”:承认失败,却重复同样的…

    2025年12月26日
    9400