阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破,被视作国产大模型在该领域的新标杆。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

Qwen3.6-Plus支持高达1M的上下文长度,能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Coding”能力尤为突出,能够根据简单的自然语言提示生成功能完整的代码项目。

此前,模型的预览版本已在OpenRouter平台上线。实测显示,仅需一句描述,模型即可在数秒内生成一个包含动态飘雪效果、可交互缩放的三维雪山场景网页。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

在涵盖智能体编程与真实世界任务的权威评测中,Qwen3.6-Plus的表现已接近全球顶尖的Claude系列模型。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

提前体验的开发者反馈积极。有用户表示,其响应速度和生成体验优于Claude。更有开发者对其进行了压力测试,在多个复合代码仓库中验证了其可靠性。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus
阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

目前,Qwen3.6-Plus已在阿里云百炼平台上线,API服务全面开放。同时,该模型也已集成至悟知、通义千问APP等阿里旗下的AI应用与平台。

Vibe Coding与多模态理解能力实测

相较于上代Qwen3.5,Qwen3.6-Plus在编程、智能体及工具调用能力上实现了全面升级。

在SWE-bench、Terminal-Bench2、NL2Repo等编程任务评测,以及Claw-Eval、QwenClawBench等智能体能力评测中,Qwen3.6-Plus的性能直逼Claude Opus 4.5,部分指标甚至表现更优,超越了参数量更大的其他主流模型。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

此外,凭借其超长上下文支持,模型还对OpenClaw、Qwen Code、Claude Code等一系列智能体框架进行了优化适配。

以下围绕模型的Vibe Coding、多模态理解等核心能力进行实测。

Vibe Coding能力实测

首先测试其在网页开发方面的Vibe Coding能力。目标是仅用一句自然语言指令,生成一个功能完整的“AI资讯日历网站”。

帮我生成一个有科技感的AI日历网站。首页为月历视图,每一天标注对应的AI大事件,用户点击日期后可进入详情页查看完整内容,包括事件标题、一句话简介、时间和来源链接。

模型在约两分钟内生成了完成度很高的网页。页面视觉简洁且富有科技感,日历结构清晰,资讯条目通过色彩区分。交互功能完善,支持月份翻阅,每个日期均可点击查看详情,并附带跳转至原文的链接。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

接下来,测试其生成复杂3D场景的能力。

制作一个3D的雪山场景,雪山中间有一个日式的寺庙,整体风格参考塞尔达旷野之息。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

生成的场景在色彩和光影上接近目标风格。用户可自由拖动以360度旋转视角,使用滚轮缩放,场景中的雪花粒子呈现动态飘落效果。

进一步测试其搭建互动游戏网站的能力。

帮我做一个虚拟宠物养成网页,页面主体是宠物的房间,用户可以随时看到它的状态,宠物有饥饿、心情、体力和成长值,会随时间变化,用户可以在房间里进行喂食、玩耍、洗澡、睡觉等互动,加入简单动画、表情变化、随机事件和任务系统,完成可获得金币购买道具,整体风格可爱~

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

生成的页面包含一个可跟随鼠标移动的宠物角色。页面右侧设有状态面板、互动功能、任务系统与商店,用户可进行喂食、玩耍等操作以影响宠物状态。

最后,测试其生成经典小游戏的能力。

生成一个美食卡通主题的消消乐小游戏网站。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

仅凭一句简单提示,模型便生成了一个包含核心玩法、连锁消除机制、视觉UI和分数系统的完整游戏页面。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

多模态理解能力实测

Qwen3.6-Plus在多模态理解与推理方面同样表现强劲。

测试中,向模型输入一段较长的AI资讯视频,要求其不仅解析核心内容,还需进行逐秒脚本分析,并据此创作一篇适合小红书平台的文案。

请你帮我解析一下这条视频内容,做逐秒脚本拆解,并根据视频内容二创成一篇适合发小红书的爆款笔记文案:

模型成功完成了逐秒脚本拆解,并从视觉、内容、目的等多个维度进行了分析。随后,它输出了结构完整的小红书文案,包含了吸引人的开头、核心内容提炼、关键发现总结以及引发共鸣的结尾。

最后进行一项更具挑战性的测试:要求模型根据一张旅游规划页面的手绘草图,复刻并搭建出一个功能完整的在线网页。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

在几乎没有文字指令的情况下,模型通过多模态理解准确识别了图片中的布局与功能元素,最终生成的网页在视觉效果、内容充实度和布局合理性上均优于原草图。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

更复杂的编程场景照样在行

看到这里,或许有读者会认为上述场景的复杂度有限。

更硬核的编程能力测试随即展开。

事实上,Qwen3.6-Plus 不仅能通过简单指令实现 Vibe Coding、解析并执行多模态内容,还具备基于命令行工具生成页面、进行代码问题分析与重构,乃至自主开发工具的能力。

在命令行页面生成方面,Qwen3.6-Plus 支持通过 Cline 等工具直接调用 API。用户只需输入如“根据开源仓库生成落地页”这样的简洁指令,即可快速获得完整的网页代码,实现高效的前端开发自动化。

我们以 GitHub 上的开源项目 AIRI 为例进行演示。该项目仿照虚拟主播 Neuro-sama 打造,具备实时对话与游戏陪伴功能。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

通过 VS Code 中的 Qwen Code 插件,我让 Qwen3.6-Plus 直接读取该项目的介绍文档,让其自主理解需求、规划页面结构,并一次性输出完整可用的代码。使用的指令是:

根据这个开源项目生成 landing page,输出 HTML+Tailwind CSS。

从模型的思考过程可以清晰观察到它逐步分析需求、创建文件的过程,整个过程可实时监测:

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

任务完成。耗时约 3 分钟,Qwen3.6-Plus 生成了项目官网页面,代码已自动保存至 landing-page.html 文件中:

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

打开该 HTML 文件查看效果:页面逻辑清晰,将临时体验入口、项目开源地址及社区链接均关联展示。导航栏功能完整,能够跳转至项目介绍、核心功能、兼容的模型厂商及部署步骤等板块。

接下来,测试模型的“问题分析与代码重构”能力。

在 Qwen Code 命令行工具中,向 Qwen3.6-Plus 提交了一段存在多处问题的遗留代码,并提问:

我刚接手这个项目,该怎么优化呢?

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

Qwen3.6-Plus 理解了原有代码逻辑,并自动整理出一份详细的优化清单。值得注意的是,在动手修改前,它主动询问:“需要开始实施吗?”这种交互方式体现出良好的可控性。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

确认后,模型开始着手修改代码。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

一个有趣的细节是,模型在思考过程中展现出了拟人化的“碎碎念”,例如提及“先给产品经理画饼,然后去 push 服务器,接着在老板面前装模作样”,显得十分生动。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

说笑归说笑,任务仍在按部就班地进行:修复 Bug、实施优化,整个过程有条不紊。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

优化完成后,模型提供了具体的修改总结,并给出了后续改进建议。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

安装依赖、编写测试脚本等任务均可交由它完成,用户得以从繁琐工作中解放出来。

AI 编程的门槛,正在被实质性地降低

今年以来,AI Agent 和各类编程辅助工具层出不穷。一个明显的趋势是,厂商正越来越重视模型的编程能力,各种 Vibe Coding 产品不断涌现。

然而,许多令人感兴趣的项目背后,往往需要使用者具备一定的提示词技巧和编程基础,才能复现出同等效果。这无形中筑起了一道门槛。

可以说,大众苦 Vibe Coding “上手门槛”久矣。

阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus 图片由AI生成

本次对 Qwen3.6-Plus 的实测,除了验证其在复杂代码治理、跨域长程规划等专业编程任务上的过硬能力外,一个更深的感受是:它确实大幅降低了普通人的编程门槛。

基于自然语言驱动的 Vibe Coding 不再是概念。一句简单的描述,就能将想法转化为可运行的现实。

长期以来,行业往往通过扩大参数规模来提升模型性能,导致模型越大、效果越好,成本也越高。而 Qwen3.6-Plus 以一个相对更轻量的模型,实现了对标甚至超越参数规模数倍模型的效果,这对用户而言无疑是个好消息。

从行业视角看,Qwen3.6-Plus 也可视为阿里 ATH(Alibaba Token Hub)思路在编程模型上一次具有代表性的落地实践——创造高效 Token、输送低成本 Token、实现普惠化应用,这一愿景正在快速照进现实。

最后需要提及的是,Qwen3.6-Plus 是千问 3.6 系列推出的首个模型。该系列后续将开源更多不同尺寸的版本,而性能更强的旗舰款 Qwen3.6-Max 也将在近期发布,值得期待。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/28420

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • PostgreSQL向量检索实战解析:生产级应用还是技术炒作?

    一家电商初创公司的工程团队正面临一个典型的技术选型难题。他们的推荐系统需要实现语义搜索,以匹配用户查询与海量商品描述。团队的核心争议在于:是选择 Qdrant 或 Pinecone 这类专用向量数据库,还是采用 pgvector 扩展,将所有数据保留在 PostgreSQL 中? 这并非个例。随着 AI 驱动的搜索与 RAG(检索增强生成)系统在各行业普及,…

    2025年12月3日
    28300
  • QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5

    作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…

    2025年12月29日
    28200
  • KlingAvatar2.0:时空级联框架与共推理导演系统,让数字人拥有生动灵魂与5分钟长视频生成能力

    还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化。 近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告。这一次,数字人不仅能“表演”,更能“生动表达”——它们将拥有更丰富的情感层次、更精准的多角色互动,对复杂文本指令的深度理解能力,以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平…

    2025年12月24日
    31700
  • Anthropic内部Skills开发秘籍:从实战经验到最佳实践

    Skills 已成为 Claude Code 中使用最广泛的扩展方式之一。它们灵活、易于创建,也方便分发。 但这种灵活性也带来了一个问题:很难判断什么才是最佳实践。什么类型的 Skills 值得开发?写出一个优秀 Skill 的秘诀是什么?又应该在什么时候将它们分享给他人? 在 Anthropic 内部,我们已经在 Claude Code 中广泛使用 Ski…

    2026年3月21日
    22500
  • 哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%

    作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…

    2026年3月15日
    27200