
智东西2月16日报道,刚刚,Qwen3.5正式发布并开源,在多模态理解、复杂推理、编程、Agent智能体等几大能力上领先同级开源模型,多项基准测试成绩媲美甚至超越GPT-5.2、Gemini 3 Pro等闭源第一梯队模型。

Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,其性能超越了万亿参数的Qwen3-Max模型。在部署上,其显存占用降低了60%,推理效率大幅提升,最大吞吐量可提升至19倍。
Qwen3.5上线后,我们测试了一道考验大模型逻辑的“脑筋急转弯”:“我要去洗车,洗车的地方离家就100米,我是开车去呢,还是走着去呢?”这道题曾难倒众多国内外大模型。而Qwen3.5不仅准确识别出题目中的逻辑陷阱,还用幽默轻松的语气给出了正确答案,并附上了“开车慢行,确保安全”的温馨提示。

回顾其思考过程,Qwen3.5遵循着分析需求、识别核心陷阱、制定答案、起草答案、内部比较、最终打磨、思考其他可能、确定答案等一系列步骤,过程中甚至会像真人一样“鼓励自己”,坚定回答。

在价格方面,Qwen3.5-Plus的API定价为每百万Token最低0.8元。在同等性能下,这个价格仅为Gemini-3-pro的1/18。
从Qwen2.5、Qwen3到Qwen3.5,千问系列在过去两年里持续迭代开源,每一代产品、每一个尺寸都在为行业树立新的标杆,“最强开源=千问”几乎成为共识。但这一次,Qwen3.5的意义不止于“又刷新了一次榜单”。
01. 让草图“一键变”网页,千问进化成原生多模态大模型
在解读Qwen3.5背后的技术之前,我们先来看看它在实际应用场景下的表现。我们对模型的多模态理解、推理以及代码生成能力进行了抢先体验。
我们上传了一张礼品购买App的前端页面手绘草图,要求Qwen3.5根据草图生成红白配色的简约风前端页面,并输出可直接使用的HTML代码。

几乎没有思考时间,Qwen3.5首先识别出了草图中的基本框架和文字信息。在“红白配色”的模糊指令下,它自主选择了饱和度较低的红色。生成的代码简洁可用,页面也与草图高度一致。一个值得注意的细节是,我们上传的草图是英文,而Qwen3.5根据上下文问答和提问语言,判断用户应为中文使用者,自动将页面语言调整为了中文。

在复杂场景与OCR能力方面,我们随手拍摄了一张包含多个物体和背景的照片,询问Qwen3.5:“今天的天气怎么样?这张图片中都有什么?”

模型在理解画面的同时,能够准确提取模糊的文字信息。这张图片处于背光环境,阴影中的文字有些模糊不清,但Qwen3.5准确地识别出了图片中的布洛芬颗粒冲剂、保湿霜以及酸奶的品牌,并贴心地附上了功效说明。结合图片中晴朗的窗外天气,Qwen3.5综合判断用户正在家休息养生,并给出了“希望天气好心情也好,早日恢复活力!”的祝福。

最后,我们测试了Qwen3.5的艺术理解能力。我们向模型展示了西班牙画家萨尔瓦多·达利的《记忆的永恒》,看它能否识别出这幅画的风格派别和背景。

Qwen3.5提取出了画作中的标志性元素“融化的时钟”,准确回答出作者是萨尔瓦多·达利,并提供了该画家的生平信息,以及这幅画的画面材质、创作时间、尺寸、收藏地等详细信息。此外,模型还详细介绍了画作的主要元素、象征意义及其艺术地位,显示出对美学和抽象概念的较强理解力。

Qwen3.5还可以与OpenClaw集成,驱动编程任务。通过将OpenClaw作为第三方智能体环境集成,Qwen3.5能够进行网页搜索、信息收集和结构化报告生成——它结合自身的推理与工具调用能力,以及OpenClaw的接口,为用户带来流畅的编码和研究体验。
此外,Qwen3.5能够作为视觉智能体,自主操作手机与电脑完成日常任务。在移动端,该模型已适配更多主流应用,支持自然语言指令驱动操作;在PC端,Qwen3.5能处理跨应用的数据整理、多步骤流程自动化等复杂任务,有效减少重复性人工干预,提升工作效率。
以Qwen3.5为底层模型,Qwen Code支持“vibe coding”,可将自然语言指令转化为代码、实时迭代开发项目,并支持如生成视频等富有创意的任务。
整体体验下来,Qwen3.5在多模态能力方面表现突出。这背后是千问团队对模型底层架构的重构,标志着千问正式从“语言模型”进化为“原生多模态大模型”。
02. 原生全模态,让模型像人一样学习
业界普遍认为,统一多模态是通往通用人工智能的必经之路。但让大模型真正“张开眼睛”,在统一架构下同时提升语言和视觉能力,实现多模态信息的高效融合与协同生成,并非易事。
当前行业中不少看似“多模态”的方案,本质上仍是“拼装”——先训练好语言模型“学说话”,再外挂视觉或音频模块,模块之间依靠适配层勉强对齐。有的产品甚至只是在统一入口背后,通过工程路由将不同任务分发给不同模型。这些方案都未实现真正的多模态融合,且不少视觉理解模型会随着视觉能力的增强,出现语言能力“降智”的问题。
Qwen3.5从一开始就选择了一条鲜有人踏足的路。 从预训练的第一天起,该模型就在海量的文本和视觉混合数据上进行联合学习,就像人类一样,调用多种感官综合接收外界信息。这使得视觉与语言在统一的参数空间内深度融合,模型看到一张图就能自然理解其语义,读到一段文字便能在脑中构建对应画面。没有“中间商赚差价”,没有信息折损,真正具备了像人一样的跨模态直觉理解力。
要让这种原生融合高效运行,就需要一个“人类大脑”般的架构,模型的训练策略也必须随之改变。在这一点上,行业的传统做法是让视觉和语言使用同一套并行策略,导致效率损耗严重。Qwen3.5的做法是让不同模态走各自的最优路径,再在关键节点上高效汇合。这样做的结果是,即使同时输入文本、图像、视频三种数据,训练速度也几乎不受影响,与仅训练纯文本时相当。
同时,Qwen3.5通过定制化的FP8/FP32精度策略,使激活内存占用降低约50%,训练速度提升10%。该策略已在强化学习训练与推理全流程统一应用,有效降低了多模态模型规模化部署的成本与复杂度。在智能体训练上,千问团队还搭建了一套大规模强化学习框架,支持文本、多模态与多轮对话等场景,训练效率提升了3至5倍。
原生多模态融合带来的能力不止于图像理解。Qwen3.5可对图像进行像素级空间定位与代码级精细处理,能理解2小时长视频的时序与逻辑关系,可将手绘草图转为可运行的前端代码,还能作为视觉智能体自主操作设备、跨应用完成复杂任务。
03. 四大核心突破,助力模型“以小胜大”
过去两年,大模型行业普遍遵循“堆参数、拼算力”的路径,模型规模从千亿级攀升至万亿级。虽然性能有所提升,但成本也随之急剧增加。这类模型不仅需要专属集群进行部署,推理过程也消耗大量算力,使得中小企业和终端设备难以负担。技术指标不断刷新,但离普惠、实用的目标却似乎越来越远。
Qwen3.5采取了不同的思路:核心目标不是追求更大,而是追求更聪明,旨在以相对更小的模型规模获得更强的智能水平。这一成果由四项核心技术突破共同支撑:
1. 混合注意力机制
传统大模型在处理长文本时,需要对每个token与全部上下文进行全量注意力计算,导致算力开销随文本长度急剧增加,成为限制长上下文能力的关键瓶颈。Qwen3.5采用的混合注意力机制,能够根据信息的重要性动态分配注意力资源,实现主次分明,在提升计算效率的同时保证了处理精度。
2. 极致稀疏MoE架构
传统稠密模型在每次推理时都需要调动全部参数参与运算,模型规模越大,算力成本越高。Qwen3.5的MoE架构核心在于:无需同时激活所有参数,而是根据输入内容,按需激活与之最相关的“专家”网络。这种架构使得Qwen3.5在拥有3970亿总参数的情况下,每次推理仅需激活170亿参数,相当于仅用不到5%的算力即可调用全部知识储备。
3. 原生多Token预测
千问团队在模型训练阶段就引入了对后续多个位置的联合预测能力,这使得推理速度接近翻倍。在长文本生成、代码补全、多轮对话等高频率场景中,模型的响应速度得以显著提升。
4. 系统级训练稳定性优化
2025年,千问团队一篇关于注意力门控机制的论文获得了NeurIPS 2025最佳论文奖。 
该研究在注意力层的输出端引入了一个“智能开关”,类似于一个水龙头,能够智能调控信息“流量”。这既防止了有效信息被淹没,也避免了无效信息被过度放大,从而提升了模型的输出精度和长上下文泛化能力。类似的深层优化还包括归一化策略和专家路由初始化等,它们各自解决了训练不同环节的稳定性问题,共同确保上述架构创新能够在大规模训练中稳定、高效地实现。
在上述技术的共同作用下,Qwen3.5的新架构实现了显著突破:在总参数不足4000亿的情况下,其性能超越了上一代超万亿参数模型,同时部署显存占用降低了60%,推理效率大幅提升。此外,其API定价仅为Gemini-3-Pro的约1/18。当行业仍在比拼“谁的跑分更高”时,Qwen3.5已将竞争引向一个新的维度:谁的模型更好用、更实用、更多人用得起。
04. 结语:在“好用、实用、用得起”上一马当先
一马当先,不仅意味着速度,更意味着方向的正确与前景的深远。在多模态能力上,Qwen3.5再次验证了原生多模态路径的有效性——从预训练伊始就让模型像人类一样,用统一的认知框架理解图文交织的世界。在效率与性能的平衡上,Qwen3.5将思考重点放在了“如何让大模型更高效”以及“如何才能让大模型好用、实用、用得起”上。
从识别到理解,从单模态到跨模态推理,Qwen3.5推动大模型从对话工具向理解真实世界的基础能力演进。阿里一方面持续推出达到SOTA水平的模型,另一方面通过开源策略使其能够被广泛免费使用,从而为更广泛的创新孕育了土壤。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21691
