最近GPT Image 2走红后,网络上充斥着大量足以乱真的AI生成图像。大模型在视觉领域的探索不断深入,既令人感到兴奋,也让人心生敬畏。在当前的AI图像生成领域,GPT Image 2几乎毫无争议地占据着领先地位。然而,如果说云端闭源且收费的最强模型是GPT Image 2,那么能够部署在本地、免费且开源的模型,或许就是SenseNova U1。
由SenseNova U1生成
SenseNova U1是商汤最新发布的一款开源多模态模型。其Lite系列包含8B和A3B两个参数版本,目前已在Hugging Face和GitHub上开源。从模型参数和选择开源的道路来看,不难发现它与GPT Image 2走的是截然不同的方向。APPSO提前获得了测试资格,我们发现商汤这款新一代原生理解生成统一模型,在开源模型中已达到最佳水平。它带来了大模型行业首创的连续图文生成输出能力,即能用单一模型连贯地输出图片和文字,这一创新非常值得尝试。目前,SenseNova U1开源模型的权重已在Hugging Face和GitHub上开放下载。
GitHub:https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1
带着图片的思考
我们可能遇到过这样的需求:希望AI解释一个复杂概念,同时配上示意图,而且图片必须跟随文字的逻辑,解释到哪一步,图就画到哪一步。常规模型通常采用生成代码的方式来解决,比如Claude使用的流式构图,或是一些Vibe Coding的网页,它们都能包含文字和配图。但是,要完全用一个模型,在回复流中同时生成文字和图像,并且不借助外部工具调用,现有模型基本无法做到。这是因为文字生成和图像生成在模型底层通常是两件独立的事情。SenseNova U1的第一个特点,就是在单一模型上实现连续的图文创作输出。
我们测试了一个场景,让它生成一份简单的绘本故事,讲述一只小熊历经四季的变化。
提示词:请创作一个图文绘本故事,主角是一只棕色的小熊,故事讲述它经历四季变化。生成的连续图文不仅理解到位、具备故事性,而且能很好地保持一致性。同时,图片中的文字渲染全部准确,小熊也在冬天穿上了毛衣和帽子。实测中发现,用SenseNova U1进行创意性工作也非常有趣。在官方测试案例中,上传一张大头贴给模型,然后要求它设计几款不同的发型。可以看到,在生成连续图文的完整过程中,人物的一致性以及结构、细节,SenseNova U1都做到了精准保持。
提示词:帮我设计几款合适的发型,希望好看的同时比较有特色,然后帮我选一款最适合我的
还能直接让它设计一个游戏角色,展示从整体视觉基调、核心交互细节,再到环境叙事和性格刻画的逻辑迭代过程。
更有趣的是,基于时序性的回答,用SenseNova U1创作再合适不过。我们要求它生成一颗牛油果变成室内盆栽的过程,连续图文的形式很好地呈现了完整的生长过程。
提示词:怎么把一颗普通的牛油果种成一棵室内盆栽
一番测试下来,图片从未脱离文字的逻辑,推理的思路走到哪里,图片就跟到哪里。以前的图文结合或许是调用不同模型和对应工具来协作,确保回复内容中的图文说的是同一件事。现在,这项写作从底层直接发生在模型内部,无论是工具还是软件,都不需要参与对齐过程,我们只需看到最终结果。对内容创作者、设计师和营销人员来说,SenseNova U1的出现开始解决一个长期痛点:如何让AI边写边画,并且图文逻辑严丝合缝。
量大管饱的最强开源
确认了它的原生理解生成统一能力后,我们需要评估SenseNova U1能否在复杂信息图生成方面达到开源模型的最佳水平。信息图是将一大段复杂文字或数据压缩成一张一目了然的图。这件事比“画一张漂亮的图”难得多,需要理解内容,识别核心与辅助信息,理清信息间的逻辑关系,并处理文字渲染等难题。闭源的GPT Image 2在这方面已经做得很好,我们测试时起初并未抱太大希望,认为它可能超越GPT Image 2。但SenseNova U1的表现,确实配得上开源SOTA的称号。我们首先用一句话“用一张信息图解释一下DeepSeek V4”,没有任何附加提示词,看看它生成的信息图表现如何。
由SenseNova U1生成
可以看出,SenseNova U1联网搜索到了与DeepSeek V4相关的信息,比如原生多模态、万亿参数以及百万上下文Token。除了简单提示词,还可以直接发送链接给它,SenseNova U1拥有对应的网页抓取工具,能提取网页内容并生成信息图。这些知识科普类的信息图,SenseNova U1基本都能驾驭。更简单的例子,如“一张什么是电子烟的3D拆解科普”,它也能快速生成。
由SenseNova U1生成
如果提示词更详细一些,它也能完全按照提示词内容,将文字准确渲染成可视化程度较高的信息图。
还有最近很火的武汉三鲜豆皮,直接告诉SenseNova U1,生成一张三鲜豆皮完整制作流程的步骤图。
夏天来了,挑选不同的防晒霜,一张信息图就能把SPF和PA值等复杂挑选参数讲清楚。
甚至让它画一张AI大模型从训练到推理的工作原理图,适合完全不懂技术的人看懂;SenseNova U1能用轻松有趣的风格,简单描述AI大模型的工作过程。
在其他场景的应用,如营销、办公、设计参考和商业分析,我们都用不同例子测试了SenseNova U1的表现。一般来说,营销场景对视觉风格的要求最高,最能看出模型是否真正理解“用户想传递什么感受”。一张好的营销图片,放在文章中甚至可能被误认为是微信文章内的广告。就像这张SenseNova U1生成的上海旅行信息图,不仅描绘了地图,还列举了上海的特色。
在办公场景中,美观比准确和高效更重要。我们测试了它对信息处理的能力,将一份五页的会议纪要压缩成一张一屏能看完的总结图,要求逻辑清晰、重点突出,适合直接转发给未参会的同事。
复杂信息之外,SenseNova U1也能提供很好的视觉风格参考。给它一段品牌调性描述,要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图,结果居然也还不错。
在一些数据分析任务上,我们也测试了SenseNova U1的数据可视化能力,用图表方式呈现更合理的信息图。
可以看到,SenseNova U1在信息提炼方面做得不错,它确实读懂了内容,知道什么重要、什么次要。但在视觉表达上还有提升空间,有时文字渲染会出现错误。对于需要快速出图、不想在设计工具上反复调整的场景,它已经完全够用。
下一个多模态模型的样子
实测完SenseNova U1,我们发现它的意义在于,它是第一个将“理解和生成统一”这件事认真做出来的开源模型。而这,或许是整个多模态领域下一步的发展方向。GPT Image 2的刷屏,表明图像生成的“生成质量”这条线已被闭源模型拉得很高。开源模型如果继续在同一维度追赶,可能需要很长时间才能赶上,并且开源的价值也会被压缩到只剩“便宜”。SenseNova U1提供了一条不同的技术路径,对整个开源社区的方向具有重要意义。它除了解决“如何生成更好的图”,也在告诉我们多模态模型的下一步会是什么样子。
SenseNova U1采用了行业首创的NEO-unify原生架构,实现多模态理解生成的高效统一。过去的多模态模型,理解图和生成图是两套系统协作:一套负责看懂输入,一套负责画出输出,中间靠接口传递信息。两套系统各有内部语言,信息传递过程中会有损耗,就像两个人用翻译软件沟通,意思大致到了,但总有些东西没传过去。SenseNova U1则从底层将这两件事合进了同一个表征空间。今年3月的技术博客中,他们重点讲解了NEO-unify这一架构。目前大模型行业的惯例是,多模态AI看图需要靠“视觉编码器(VE)”压缩处理,再交给生成器。在NEO-unify架构中,商汤直接抛弃了这套臃肿的传统范式。结合NEO-unify结构的SenseNova U1,使用的视觉接口近似无损,它直接将图像分块(Patch)吃进去,不经过任何预训练编码器压缩;然后在同一个主干网络中,让文本和视觉的训练端到端统一进行。在理解与生成的各项基准测试中,SenseNova U1的表现达到了同量级开源模型的SOTA水平,甚至在多项指标上能与Nano Banana等闭源模型相媲美。
分别是图像理解、图像生成和视觉推理基准测试结果
它回归了多模态的第一性原理,从底层的像素和文字开始,自己构建内部认知。这也能解释为什么它消耗的token更少,生成效率更高。即使只有8B参数的版本,也能打出超强的极致性价比。本次开源的是SenseNova U1的轻量版本SenseNova U1 Lite,目前有两个版本:8B参数的SenseNova-U1-8B-MoT,可在边缘设备上运行;38B总参数但激活仅3B的SenseNova-U1-A3B-MoT,提供更强能力,同时将推理成本控制得很低。
SenseNova U1已在GitHub和Hugging Face上开源,链接:https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1。两个版本都可以本地部署、微调,并接入自己的数据管道。对于需要将图像生成能力嵌入产品的开发者来说,可以完全控制模型行为,数据也无需外泄。如果你需要一个高效实现理解与生成的模型,作为开源模型中的最强代表,SenseNova U1确实值得尝试。商汤还在GitHub上开源了面向Agent运行时的AIGC技能库SenseNova-Skills。我们可以将SenseNova U1的强大能力直接接入自己的智能体(Agent)工作流中。利用这个工具包,我们可以在OpenClaw、Hermes等Agent平台中一键调用。模型会自动评估提示词,选择合适的版式,经过多轮生成,输出最佳的专业信息图结果。
Skills链接:https://github.com/OpenSenseNova/SenseNova-Skills
回顾整个测试,SenseNova U1交出了一份不错的答卷,它是目前我们能拿到的同量级最强开源模型。对创作者来说,它行业首创的连续图文创作输出能力,打破了过去文字与配图割裂的困境,真正让边思考、边写作、边配图的连贯创作成为现实。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/32737

