Qwen3.7-Plus发布:多模态智能体终结对话AI,从看懂到干完

2026年6月2日,阿里云悄悄上架了一个新模型。它没有召开盛大的发布会,也没有铺天盖地的营销,但如果你是一个AI开发者或深度用户,很可能已经注意到了那个名字——Qwen3.7-Plus

这不仅仅是一次常规的版本迭代。在“Plus”这个后缀背后,隐藏着一个关键的战略转向:AI正在从被动的“问答机器”,蜕变为主动的“数字员工”。它能看、能想、能写、能做,甚至能自我验证和迭代。换句话说,AI的“手”和“眼”,终于真正长出来了。

从“语言理解”到“世界理解”:AI长出了眼睛

过去的AI,更像一个博学的盲人。它能与你谈古论今,却对你手机屏幕上的一个App图标、一段视频里的车辆转弯轨迹、一张手绘草图上的逻辑关系,完全无感。大模型的世界,一度被困在文字的囚笼里。

Qwen3.7-Plus发布:多模态智能体终结对话AI,从看懂到干完

Qwen3.7-Plus的发布,宣告了这个囚笼的彻底打破。它的核心定位是“面向多模态智能体的视觉语言模型”。翻译成人话就是:它不仅能读懂你写下的文字,更能理解你看到的图像、视频、屏幕界面,甚至是复杂的使用场景。

你给它一张工厂里模糊的专业机械图,它不再是只能描述“这是一张金属零件的照片”,而是能结合搜索增强,准确剖析出该设备的功能、参数,甚至给出操作建议。你给它一段驾驶视频,它不仅能描述“有一辆车在行驶”,还能理解交通参与者之间的空间关系、事件时序和潜在风险。这种能力,是通往自动驾驶、具身智能等真实物理世界应用的关键门槛。

“看、想、写、做、验”:一个模型的全栈闭环

如果说“看懂世界”是第一步,那么Qwen3.7-Plus最革命性的突破,在于它构建了一条完整的“智能体工作流”:看、想、写、做、验。这五个字,精准地概括了它作为“数字员工”的完整能力闭环。

Qwen3.7-Plus发布:多模态智能体终结对话AI,从看懂到干完

在很多演示中,Qwen3.7-Plus展现出了令人惊叹的“自主性”。比如,它能够模拟人类用户与一个示例的股票应用进行交互,理解整个UI布局和功能逻辑。然后,它自动生成SwiftUI代码,调用实时行情API,自主执行并通过了10项核心功能测试,最终完成了一个桌面端专业软件的高保真复刻。整个过程,它既是产品经理、前端工程师,也是测试工程师。

这不仅仅是写代码。在另一个测试中,Agent连续稳定运行超过11小时,自动完成了从需求文档生成、代码编写、安装部署到多场景测试的完整App开发流程。这标志着AI从“辅助工具”向“自主执行体”迈出了实质性的一步。

Plus的“含金量”:文本与视觉的双重进化

“Plus”从来不是一个简单的后缀。Qwen3.7-Plus的“含金量”,体现在它文本与视觉能力的双重质变上。

文本能力逼近旗舰: 作为3.7系列的最新成员,Qwen3.7-Plus的纯文本能力已经非常接近旗舰模型Qwen3.7-Max的水平。在编程、通用Agent、数学推理等核心评测中,它相比上代Qwen3.6-Plus取得了显著提升。例如,在数学推理Apex评测中,其性能评分是上代模型的近3倍。这意味着,即便不开启视觉能力,它本身就是一个顶级的文本和代码模型。

视觉能力系统性增强: 围绕智能体的实际需求,Qwen3.7-Plus对视觉能力进行了系统性重构。在纯视觉推理BabyVision评测中,其得分从37.4飙升至64.7,甚至超过了Gemini 3.1 Pro。在搜索增强知识问答等评测中,其性能提升最高超过2倍。这些数字的背后,是模型对复杂视觉信息的解构、推理和再创造能力的飞跃。

智能体的“工具箱”:从解华容道到操控云服务器

一个能干的“数字员工”,需要趁手的“工具”。Qwen3.7-Plus的工具使用能力,是其从“理解”走向“执行”的关键。

它集成了CI代码解释器,这意味着它可以解决视觉谜题。给它一张“找不同”的图片,它能通过编程来逻辑分析差异;给它一个华容道的截图,它能在脑海中模拟并找到最优解。它把视觉任务转化为了可计算、可验证的编程问题。

更实际的应用在于,你可以基于它构建一个浏览器智能助手。当用户下达“帮我采购一台最便宜的ECS服务器”这种模糊指令时,Agent能够直接进入云控制台,自主完成实例规格比价、配置选择、安全组设置、订单确认等一系列操作。甚至在遇到库存不足或价格变动时,它能主动反思并调整策略,直到任务完成为止。

这已经不再是简单的“问答”,而是真正的“干活”。

Agentic时代:AI的竞争,从“对话”走向“任务”

Qwen3.7-Plus的发布,是一个明确的信号。AI大模型的竞争,已经进入了“Agentic时代”。

过去,我们比拼的是模型在考试中的分数、生成文章的优美程度。现在,大家开始比拼模型能否在真实世界中,完成一个又一个具体的、复杂的、长程的任务。正如官方博客所言:“未来,大模型之间的差异可能不再只是文本推理、代码能力或上下文长度,而是能否真正理解真实世界中的复杂信息,并在工具和系统中完成可执行任务。”

从千问3.6到3.7,我们看到了“Plus”模型在视觉智能体领域从追赶者到全球前五的蜕变。而Qwen3.7-Plus,更像是阿里为即将到来的“AI员工”时代,交付的一份诚意十足的基础设施。它让我们看到,一个能真正帮你“干活”的AI,已经不再是科幻电影里的想象。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/37166

(0)
上一篇 10小时前
下一篇 11小时前

相关推荐

  • AI自我进化加速:60%概率2028实现递归自改进,OpenAI重金招聘

    在2026年的这个春天,当我们谈论AI时,语境已经发生了根本性的位移。三年前,我们还在惊叹于GPT-3.5能写出流畅的对话,Midjourney能画出“像照片一样”的图。但今天,评判AI的标准不再是“它像不像人类”,而是“它能为我完成什么具体的事”。从阿里千问的“能说更能干”到深度原理MIRA的“自我科研”,AI正在经历一场从“语言玩具”到“行动引擎”的蜕变…

    10小时前
    3000
  • Anthropic开源杀手级插件:Claude Cowork插件库已17K星,办公岗位全覆盖

    Anthropic 在年初扔下了一枚重磅炸弹:Claude Cowork。它的定位很简单,就是把原来只有开发者能玩的 AI Agent 能力,直接推向所有办公人群。这个动作的冲击力,从国内这几个月冒出的无数个模仿它的 Agent 产品就能看出来。 但真正让我觉得值得深挖的,是最近在 GitHub 上发现的一个叫 Knowledge Work Plugins …

    11小时前
    3500
  • Anthropic秘密递交S-1招股书,估值逼近万亿美元,AI御三家冲刺IPO

    万亿估值与“安全祭司”的战争:Anthropic 的 IPO,是信仰变现还是霸权加冕? 2026年6月1日,Anthropic 向SEC秘密递交了招股书。这个从OpenAI“叛逃”出来的团队,即将以接近万亿美元的估值登陆纳斯达克。消息一出,市场哗然——五年前,它还只是一个关于“AI安全”的理想主义实验室;五年后,它却成了全球资本市场最炙手可热的标的。 但如果…

    AI产业动态 10小时前
    2700
  • MiniMax M3震撼发布:首个集齐Coding、百万上下文、多模态三件套的开源模型

    从“缝合怪”到“原生体”:MiniMax M3 如何重塑大模型的“三体合一”法则 2026年的夏天,大模型领域迎来了一记重锤。当行业还在争论“长上下文”与“多模态”究竟哪个更难攻克时,MiniMax 用 M3 给出了一个近乎蛮横的答案:我全都要,并且还要开源。 这绝非简单的功能叠加。如果我们将此前的主流模型比作“乐高积木”——文本理解是底盘,视觉能力是外挂的…

    11小时前
    5900
  • 国产模型Speed 3.7 Flash开源:400 TPS速度碾压编程办公,Agent效率革命来了

    从“快”到“高效”:2026年,AI模型进入效率革命的新纪元 回顾过去几年国产大模型的能力演进,你会发现一条清晰又耐人寻味的轨迹。 2024年,大家都在拼“极限”。MMLU 刷到了多少分?MATH 能解多难的题?编程能力能不能排进全球前三?那是属于“单点能力军备竞赛”的一年,模型在某个特定领域里越走越深。 2025年,风向骤变。Agent 成为绝对主角。大家…

    11小时前
    4400