Qwen3.7-Plus发布：多模态智能体终结对话AI，从看懂到干完

2026年6月2日，阿里云悄悄上架了一个新模型。它没有召开盛大的发布会，也没有铺天盖地的营销，但如果你是一个AI开发者或深度用户，很可能已经注意到了那个名字——Qwen3.7-Plus。

这不仅仅是一次常规的版本迭代。在“Plus”这个后缀背后，隐藏着一个关键的战略转向：AI正在从被动的“问答机器”，蜕变为主动的“数字员工”。它能看、能想、能写、能做，甚至能自我验证和迭代。换句话说，AI的“手”和“眼”，终于真正长出来了。

从“语言理解”到“世界理解”：AI长出了眼睛

过去的AI，更像一个博学的盲人。它能与你谈古论今，却对你手机屏幕上的一个App图标、一段视频里的车辆转弯轨迹、一张手绘草图上的逻辑关系，完全无感。大模型的世界，一度被困在文字的囚笼里。

Qwen3.7-Plus发布：多模态智能体终结对话AI，从看懂到干完

Qwen3.7-Plus的发布，宣告了这个囚笼的彻底打破。它的核心定位是“面向多模态智能体的视觉语言模型”。翻译成人话就是：它不仅能读懂你写下的文字，更能理解你看到的图像、视频、屏幕界面，甚至是复杂的使用场景。

你给它一张工厂里模糊的专业机械图，它不再是只能描述“这是一张金属零件的照片”，而是能结合搜索增强，准确剖析出该设备的功能、参数，甚至给出操作建议。你给它一段驾驶视频，它不仅能描述“有一辆车在行驶”，还能理解交通参与者之间的空间关系、事件时序和潜在风险。这种能力，是通往自动驾驶、具身智能等真实物理世界应用的关键门槛。

“看、想、写、做、验”：一个模型的全栈闭环

如果说“看懂世界”是第一步，那么Qwen3.7-Plus最革命性的突破，在于它构建了一条完整的“智能体工作流”：看、想、写、做、验。这五个字，精准地概括了它作为“数字员工”的完整能力闭环。

Qwen3.7-Plus发布：多模态智能体终结对话AI，从看懂到干完

在很多演示中，Qwen3.7-Plus展现出了令人惊叹的“自主性”。比如，它能够模拟人类用户与一个示例的股票应用进行交互，理解整个UI布局和功能逻辑。然后，它自动生成SwiftUI代码，调用实时行情API，自主执行并通过了10项核心功能测试，最终完成了一个桌面端专业软件的高保真复刻。整个过程，它既是产品经理、前端工程师，也是测试工程师。

这不仅仅是写代码。在另一个测试中，Agent连续稳定运行超过11小时，自动完成了从需求文档生成、代码编写、安装部署到多场景测试的完整App开发流程。这标志着AI从“辅助工具”向“自主执行体”迈出了实质性的一步。

Plus的“含金量”：文本与视觉的双重进化

“Plus”从来不是一个简单的后缀。Qwen3.7-Plus的“含金量”，体现在它文本与视觉能力的双重质变上。

文本能力逼近旗舰： 作为3.7系列的最新成员，Qwen3.7-Plus的纯文本能力已经非常接近旗舰模型Qwen3.7-Max的水平。在编程、通用Agent、数学推理等核心评测中，它相比上代Qwen3.6-Plus取得了显著提升。例如，在数学推理Apex评测中，其性能评分是上代模型的近3倍。这意味着，即便不开启视觉能力，它本身就是一个顶级的文本和代码模型。

视觉能力系统性增强： 围绕智能体的实际需求，Qwen3.7-Plus对视觉能力进行了系统性重构。在纯视觉推理BabyVision评测中，其得分从37.4飙升至64.7，甚至超过了Gemini 3.1 Pro。在搜索增强知识问答等评测中，其性能提升最高超过2倍。这些数字的背后，是模型对复杂视觉信息的解构、推理和再创造能力的飞跃。

智能体的“工具箱”：从解华容道到操控云服务器

一个能干的“数字员工”，需要趁手的“工具”。Qwen3.7-Plus的工具使用能力，是其从“理解”走向“执行”的关键。

它集成了CI代码解释器，这意味着它可以解决视觉谜题。给它一张“找不同”的图片，它能通过编程来逻辑分析差异；给它一个华容道的截图，它能在脑海中模拟并找到最优解。它把视觉任务转化为了可计算、可验证的编程问题。

更实际的应用在于，你可以基于它构建一个浏览器智能助手。当用户下达“帮我采购一台最便宜的ECS服务器”这种模糊指令时，Agent能够直接进入云控制台，自主完成实例规格比价、配置选择、安全组设置、订单确认等一系列操作。甚至在遇到库存不足或价格变动时，它能主动反思并调整策略，直到任务完成为止。

这已经不再是简单的“问答”，而是真正的“干活”。

Agentic时代：AI的竞争，从“对话”走向“任务”

Qwen3.7-Plus的发布，是一个明确的信号。AI大模型的竞争，已经进入了“Agentic时代”。

过去，我们比拼的是模型在考试中的分数、生成文章的优美程度。现在，大家开始比拼模型能否在真实世界中，完成一个又一个具体的、复杂的、长程的任务。正如官方博客所言：“未来，大模型之间的差异可能不再只是文本推理、代码能力或上下文长度，而是能否真正理解真实世界中的复杂信息，并在工具和系统中完成可执行任务。”

从千问3.6到3.7，我们看到了“Plus”模型在视觉智能体领域从追赶者到全球前五的蜕变。而Qwen3.7-Plus，更像是阿里为即将到来的“AI员工”时代，交付的一份诚意十足的基础设施。它让我们看到，一个能真正帮你“干活”的AI，已经不再是科幻电影里的想象。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/37166

Qwen3.7-Plus发布：多模态智能体终结对话AI，从看懂到干完

从“语言理解”到“世界理解”：AI长出了眼睛

“看、想、写、做、验”：一个模型的全栈闭环

Plus的“含金量”：文本与视觉的双重进化

智能体的“工具箱”：从解华容道到操控云服务器

Agentic时代：AI的竞争，从“对话”走向“任务”

相关推荐

AI自我进化加速：60%概率2028实现递归自改进，OpenAI重金招聘

Anthropic开源杀手级插件：Claude Cowork插件库已17K星，办公岗位全覆盖

Anthropic秘密递交S-1招股书，估值逼近万亿美元，AI御三家冲刺IPO

MiniMax M3震撼发布：首个集齐Coding、百万上下文、多模态三件套的开源模型

国产模型Speed 3.7 Flash开源：400 TPS速度碾压编程办公，Agent效率革命来了