Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

在人工智能与游戏交互的交叉领域,一项突破性进展正在重新定义智能体的能力边界。字节跳动Seed团队最新发布的Game-TARS通用型游戏智能体,不仅实现了在《我的世界》、《神庙逃亡》、《星露谷》等多样化游戏环境中的卓越表现,更通过零样本迁移能力在未见过的3D网页游戏中展现惊人适应性。

这一成就的背后,是团队对智能体交互范式的根本性重构——从传统的函数调用模式转向真正模拟人类物理操作的自然交互方式。

Game-TARS的核心创新在于其构建的统一、可扩展的键盘-鼠标动作空间。传统游戏智能体通常依赖于特定环境定制的动作集:在MCP或代码层面直接调用Search(query)等函数,或在GUI层面执行封装好的系统动作如“双击”、“按下热键”。这些方法虽然在某些场景下高效,却严重缺乏通用性。一旦操作系统或应用环境发生变化,智能体便陷入束手无策的困境。Game-TARS彻底颠覆了这一范式,将智能体的动作指令集与任何特定应用解耦,直接对齐人类用户的物理交互方式。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

该智能体专注于最底层的Human Actions(人类动作),包括三个基本操作单元:mouseMove(dx, dy)实现鼠标相对移动,mouseClick(buttons)处理鼠标点击事件,keyPress(xkeys)管理键盘按键及组合键。这种设计理念实现了Human-Native Interaction(人类自然交互),使智能体不再“调用函数打游戏”,而是真正像人类玩家一样通过键盘和鼠标操作游戏界面。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

这种底层动作空间的统一性带来了两个关键优势:首先,它允许智能体在不同游戏、操作系统和网页环境中使用完全相同的动作指令集;其次,它为大规模数据收集和跨领域预训练提供了标准化基础。

在技术架构层面,Game-TARS将视觉感知、策略推理、动作执行和长期记忆整合到一个统一的视觉语言模型(VLM)中,避免了传统模块化人工智能需要为每款游戏编写特定代码的繁琐过程。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

训练过程分为持续预训练和后训练两个阶段,采用自回归参数化策略。预训练阶段采用ReAct范式,结合稀疏推理(Sparse Thinking)技术——智能体只在关键决策点进行推理和行动交错,模拟人类“三思而后行”的认知模式。具体实现包括:通过离线思维链与在线“边做边说”(Think-Aloud)生成原生推理序列;多模态同步采集屏幕帧、键鼠输入及音频数据;利用视觉锚点因果对齐技术精确匹配动作与执行帧;构建优化的训练轨迹序列。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

特别值得关注的是,团队引入了指数衰减权重机制来解决“行为惯性”问题。当智能体连续执行重复动作时,该机制按指数降低这些动作的权重,确保模型更关注高熵的动作转变,从而学习出更稳健、泛化能力更强的策略。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

在超过2万小时、约5000亿token的游戏数据上进行大规模预训练后,后训练阶段进一步强化了三大核心能力:指令遵循能力通过随机替换按键绑定迫使模型理解动作语义;稀疏思维能力通过定位关键决策点增强推理效率;长期记忆能力通过双层记忆机制(短期保存图像,长期保留精炼文本)实现信息持久化。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

实验验证环节展现了Game-TARS的卓越性能。在《我的世界》测试中,研究团队发现统一动作空间在训练数据少于100亿token时,其成功率并未超越基于GUI动作的专家模型。然而,随着数据规模扩大,统一动作空间的可扩展性优势开始显现。当在大量通用计算机使用数据上进行训练后,Game-TARS在《我的世界》中的表现比之前最先进的专家模型提高了约2倍。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

跨领域评估包括FPS游戏Vizdoom、3D模拟器Miniworld和在线网页游戏,结果显示Game-TARS的迷你版本在各种任务上超越了GPT-5、Gemini-2.5-Pro和Claude-4-Sonnet等知名预训练模型。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

更重要的是,Game-TARS展示了从“游戏玩家”到“多功能通用计算机用户”的进化潜力。后训练阶段引入的跨领域轨迹数据——包括代码生成、GUI自动化和科研任务——使智能体能够适应更广泛的计算环境。这种扩展性不仅体现在训练过程中,也体现在推理阶段的高效性上。

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

从产业视角看,Game-TARS代表了智能体发展的一个重要方向:通过底层交互的统一化实现真正的通用人工智能。其技术路径避开了为每个应用定制解决方案的碎片化困境,为构建能够适应不断变化数字环境的智能系统提供了可行框架。未来,随着更多领域数据的融入和模型规模的扩展,这种基于人类自然交互的智能体范式有望在办公自动化、辅助设计、远程操作等场景中发挥更大价值。

Game-TARS的成功不仅在于其技术突破,更在于它重新定义了人机交互的哲学:最好的智能体不是替代人类,而是以最自然的方式增强人类能力。当智能体能够像人类一样使用最基本的输入设备时,人机协作的边界将被无限拓展。

— 图片补充 —

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式

Game-TARS:从游戏玩家到通用计算机用户的革命性跨越——基于统一键盘鼠标动作空间的智能体范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8719

(0)
上一篇 2025年10月30日 下午6:06
下一篇 2025年10月30日 下午6:10

相关推荐

  • H-1B签证危机:社交媒体审查新政引发科技巨头员工滞留风险

    谷歌、苹果两大科技巨头近期接连向内部员工发出紧急警告:持有H-1B签证的员工应谨慎考虑在此时离境,否则重返美国可能面临长达数月甚至一年的延误。 根据一份独家报道的内部备忘录,两家公司的律师事务所均强烈建议,需要重新办理签证盖章才能返回美国的员工,暂缓国际旅行计划,以避免滞留海外的风险。 延误根源:审查新政与预约积压 此次延误的主要根源,是美国国务院自12月1…

    2025年12月21日
    35800
  • GPT-5.4震撼发布:一个模型整合编程、搜索、操控五大能力,知识工作击败人类83%

    GPT-5.4 发布:五大核心能力集于一身,知识工作表现超越多数人类 长期以来,用户在使用AI工具时,常常需要根据任务类型在不同模型间切换:编写代码、查询资料、操作计算机往往需要调用不同的专用模型。OpenAI最新发布的GPT-5.4旨在终结这种割裂的体验。该模型将编程、推理、计算机操控、网页搜索以及百万级Token上下文处理能力整合进同一个通用模型,且各项…

    2026年3月6日
    73700
  • vLLM批量不变推理技术解析:攻克大模型输出一致性的工程挑战

    在大型语言模型(LLM)的推理部署中,一个长期困扰开发者和研究者的难题是:相同的输入在不同批量大小(batch size)下会产生不一致的输出概率分布。这种看似微小的差异,在需要严格可重现性的生产环境中——如金融风险评估、医疗诊断辅助、法律文本生成或科学计算——可能引发严重后果。它不仅影响模型的调试和测试流程,更会削弱用户对AI系统可靠性的信任。近日,vLL…

    2025年10月23日
    32700
  • NVIDIA ComputeEval:从基准建立到难度升级,全面评估 LLMs 的 CUDA 代码生成能力

    关键词:CUDA 代码生成 、NVIDIA、CUDA 代码数据集 、AI 辅助编程 大语言模型(LLMs)正深刻改变开发者的编码方式——无论是资深工程师还是入门开发者,如今的顶尖模型已能流畅生成 Python 脚本、React 网站代码等。 代码:https://github.com/nvidia/compute-eval 数据:https://huggin…

    2025年12月21日
    45300
  • 具身智能新突破:开普勒发布原生全感知力触数采系统,破解数据采集瓶颈

    编辑|杜伟 本月,具身智能领域迎来重要进展:硅谷独角兽公司 Generalist AI 发布了新一代基础模型 GEN-1。该模型在执行机器人包装手机、折叠纸箱等任务时,平均成功率提升至创纪录的 99%,其中折叠纸箱的速度更是提升至原先的三倍(从 34 秒缩短至 12.1 秒)。 支撑这一突破的,除了模型架构的重新设计,还有一套规模庞大的数据底座——超过 50…

    2026年4月13日
    50300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注