Game-TARS：从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

2025年10月30日下午6:07 • AI产业动态 • 阅读 82

在人工智能与游戏交互的交叉领域，一项突破性进展正在重新定义智能体的能力边界。字节跳动Seed团队最新发布的Game-TARS通用型游戏智能体，不仅实现了在《我的世界》、《神庙逃亡》、《星露谷》等多样化游戏环境中的卓越表现，更通过零样本迁移能力在未见过的3D网页游戏中展现惊人适应性。

这一成就的背后，是团队对智能体交互范式的根本性重构——从传统的函数调用模式转向真正模拟人类物理操作的自然交互方式。

Game-TARS的核心创新在于其构建的统一、可扩展的键盘-鼠标动作空间。传统游戏智能体通常依赖于特定环境定制的动作集：在MCP或代码层面直接调用Search(query)等函数，或在GUI层面执行封装好的系统动作如“双击”、“按下热键”。这些方法虽然在某些场景下高效，却严重缺乏通用性。一旦操作系统或应用环境发生变化，智能体便陷入束手无策的困境。Game-TARS彻底颠覆了这一范式，将智能体的动作指令集与任何特定应用解耦，直接对齐人类用户的物理交互方式。

该智能体专注于最底层的Human Actions（人类动作），包括三个基本操作单元：mouseMove(dx, dy)实现鼠标相对移动，mouseClick(buttons)处理鼠标点击事件，keyPress(xkeys)管理键盘按键及组合键。这种设计理念实现了Human-Native Interaction（人类自然交互），使智能体不再“调用函数打游戏”，而是真正像人类玩家一样通过键盘和鼠标操作游戏界面。

这种底层动作空间的统一性带来了两个关键优势：首先，它允许智能体在不同游戏、操作系统和网页环境中使用完全相同的动作指令集；其次，它为大规模数据收集和跨领域预训练提供了标准化基础。

在技术架构层面，Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个统一的视觉语言模型（VLM）中，避免了传统模块化人工智能需要为每款游戏编写特定代码的繁琐过程。

训练过程分为持续预训练和后训练两个阶段，采用自回归参数化策略。预训练阶段采用ReAct范式，结合稀疏推理（Sparse Thinking）技术——智能体只在关键决策点进行推理和行动交错，模拟人类“三思而后行”的认知模式。具体实现包括：通过离线思维链与在线“边做边说”（Think-Aloud）生成原生推理序列；多模态同步采集屏幕帧、键鼠输入及音频数据；利用视觉锚点因果对齐技术精确匹配动作与执行帧；构建优化的训练轨迹序列。

特别值得关注的是，团队引入了指数衰减权重机制来解决“行为惯性”问题。当智能体连续执行重复动作时，该机制按指数降低这些动作的权重，确保模型更关注高熵的动作转变，从而学习出更稳健、泛化能力更强的策略。

在超过2万小时、约5000亿token的游戏数据上进行大规模预训练后，后训练阶段进一步强化了三大核心能力：指令遵循能力通过随机替换按键绑定迫使模型理解动作语义；稀疏思维能力通过定位关键决策点增强推理效率；长期记忆能力通过双层记忆机制（短期保存图像，长期保留精炼文本）实现信息持久化。

实验验证环节展现了Game-TARS的卓越性能。在《我的世界》测试中，研究团队发现统一动作空间在训练数据少于100亿token时，其成功率并未超越基于GUI动作的专家模型。然而，随着数据规模扩大，统一动作空间的可扩展性优势开始显现。当在大量通用计算机使用数据上进行训练后，Game-TARS在《我的世界》中的表现比之前最先进的专家模型提高了约2倍。

跨领域评估包括FPS游戏Vizdoom、3D模拟器Miniworld和在线网页游戏，结果显示Game-TARS的迷你版本在各种任务上超越了GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet等知名预训练模型。

更重要的是，Game-TARS展示了从“游戏玩家”到“多功能通用计算机用户”的进化潜力。后训练阶段引入的跨领域轨迹数据——包括代码生成、GUI自动化和科研任务——使智能体能够适应更广泛的计算环境。这种扩展性不仅体现在训练过程中，也体现在推理阶段的高效性上。

从产业视角看，Game-TARS代表了智能体发展的一个重要方向：通过底层交互的统一化实现真正的通用人工智能。其技术路径避开了为每个应用定制解决方案的碎片化困境，为构建能够适应不断变化数字环境的智能系统提供了可行框架。未来，随着更多领域数据的融入和模型规模的扩展，这种基于人类自然交互的智能体范式有望在办公自动化、辅助设计、远程操作等场景中发挥更大价值。

Game-TARS的成功不仅在于其技术突破，更在于它重新定义了人机交互的哲学：最好的智能体不是替代人类，而是以最自然的方式增强人类能力。当智能体能够像人类一样使用最基本的输入设备时，人机协作的边界将被无限拓展。

— 图片补充 —