商汤SenseNova U1开源模型：本地部署的连续图文生成新霸主

最近GPT Image 2走红后，网络上充斥着大量足以乱真的AI生成图像。大模型在视觉领域的探索不断深入，既令人感到兴奋，也让人心生敬畏。在当前的AI图像生成领域，GPT Image 2几乎毫无争议地占据着领先地位。然而，如果说云端闭源且收费的最强模型是GPT Image 2，那么能够部署在本地、免费且开源的模型，或许就是SenseNova U1。

由SenseNova U1生成
SenseNova U1是商汤最新发布的一款开源多模态模型。其Lite系列包含8B和A3B两个参数版本，目前已在Hugging Face和GitHub上开源。从模型参数和选择开源的道路来看，不难发现它与GPT Image 2走的是截然不同的方向。APPSO提前获得了测试资格，我们发现商汤这款新一代原生理解生成统一模型，在开源模型中已达到最佳水平。它带来了大模型行业首创的连续图文生成输出能力，即能用单一模型连贯地输出图片和文字，这一创新非常值得尝试。目前，SenseNova U1开源模型的权重已在Hugging Face和GitHub上开放下载。
GitHub：https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face：https://huggingface.co/collections/sensenova/SenseNova-U1

带着图片的思考
我们可能遇到过这样的需求：希望AI解释一个复杂概念，同时配上示意图，而且图片必须跟随文字的逻辑，解释到哪一步，图就画到哪一步。常规模型通常采用生成代码的方式来解决，比如Claude使用的流式构图，或是一些Vibe Coding的网页，它们都能包含文字和配图。但是，要完全用一个模型，在回复流中同时生成文字和图像，并且不借助外部工具调用，现有模型基本无法做到。这是因为文字生成和图像生成在模型底层通常是两件独立的事情。SenseNova U1的第一个特点，就是在单一模型上实现连续的图文创作输出。

我们测试了一个场景，让它生成一份简单的绘本故事，讲述一只小熊历经四季的变化。

提示词：请创作一个图文绘本故事，主角是一只棕色的小熊，故事讲述它经历四季变化。生成的连续图文不仅理解到位、具备故事性，而且能很好地保持一致性。同时，图片中的文字渲染全部准确，小熊也在冬天穿上了毛衣和帽子。实测中发现，用SenseNova U1进行创意性工作也非常有趣。在官方测试案例中，上传一张大头贴给模型，然后要求它设计几款不同的发型。可以看到，在生成连续图文的完整过程中，人物的一致性以及结构、细节，SenseNova U1都做到了精准保持。

提示词：帮我设计几款合适的发型，希望好看的同时比较有特色，然后帮我选一款最适合我的
还能直接让它设计一个游戏角色，展示从整体视觉基调、核心交互细节，再到环境叙事和性格刻画的逻辑迭代过程。

更有趣的是，基于时序性的回答，用SenseNova U1创作再合适不过。我们要求它生成一颗牛油果变成室内盆栽的过程，连续图文的形式很好地呈现了完整的生长过程。

提示词：怎么把一颗普通的牛油果种成一棵室内盆栽
一番测试下来，图片从未脱离文字的逻辑，推理的思路走到哪里，图片就跟到哪里。以前的图文结合或许是调用不同模型和对应工具来协作，确保回复内容中的图文说的是同一件事。现在，这项写作从底层直接发生在模型内部，无论是工具还是软件，都不需要参与对齐过程，我们只需看到最终结果。对内容创作者、设计师和营销人员来说，SenseNova U1的出现开始解决一个长期痛点：如何让AI边写边画，并且图文逻辑严丝合缝。

量大管饱的最强开源
确认了它的原生理解生成统一能力后，我们需要评估SenseNova U1能否在复杂信息图生成方面达到开源模型的最佳水平。信息图是将一大段复杂文字或数据压缩成一张一目了然的图。这件事比“画一张漂亮的图”难得多，需要理解内容，识别核心与辅助信息，理清信息间的逻辑关系，并处理文字渲染等难题。闭源的GPT Image 2在这方面已经做得很好，我们测试时起初并未抱太大希望，认为它可能超越GPT Image 2。但SenseNova U1的表现，确实配得上开源SOTA的称号。我们首先用一句话“用一张信息图解释一下DeepSeek V4”，没有任何附加提示词，看看它生成的信息图表现如何。

由SenseNova U1生成
可以看出，SenseNova U1联网搜索到了与DeepSeek V4相关的信息，比如原生多模态、万亿参数以及百万上下文Token。除了简单提示词，还可以直接发送链接给它，SenseNova U1拥有对应的网页抓取工具，能提取网页内容并生成信息图。这些知识科普类的信息图，SenseNova U1基本都能驾驭。更简单的例子，如“一张什么是电子烟的3D拆解科普”，它也能快速生成。

由SenseNova U1生成
如果提示词更详细一些，它也能完全按照提示词内容，将文字准确渲染成可视化程度较高的信息图。

还有最近很火的武汉三鲜豆皮，直接告诉SenseNova U1，生成一张三鲜豆皮完整制作流程的步骤图。

夏天来了，挑选不同的防晒霜，一张信息图就能把SPF和PA值等复杂挑选参数讲清楚。

甚至让它画一张AI大模型从训练到推理的工作原理图，适合完全不懂技术的人看懂；SenseNova U1能用轻松有趣的风格，简单描述AI大模型的工作过程。

在其他场景的应用，如营销、办公、设计参考和商业分析，我们都用不同例子测试了SenseNova U1的表现。一般来说，营销场景对视觉风格的要求最高，最能看出模型是否真正理解“用户想传递什么感受”。一张好的营销图片，放在文章中甚至可能被误认为是微信文章内的广告。就像这张SenseNova U1生成的上海旅行信息图，不仅描绘了地图，还列举了上海的特色。

在办公场景中，美观比准确和高效更重要。我们测试了它对信息处理的能力，将一份五页的会议纪要压缩成一张一屏能看完的总结图，要求逻辑清晰、重点突出，适合直接转发给未参会的同事。

复杂信息之外，SenseNova U1也能提供很好的视觉风格参考。给它一段品牌调性描述，要求生成一张包含配色建议、排版建议、氛围关键词的风格参考图，结果居然也还不错。

在一些数据分析任务上，我们也测试了SenseNova U1的数据可视化能力，用图表方式呈现更合理的信息图。

可以看到，SenseNova U1在信息提炼方面做得不错，它确实读懂了内容，知道什么重要、什么次要。但在视觉表达上还有提升空间，有时文字渲染会出现错误。对于需要快速出图、不想在设计工具上反复调整的场景，它已经完全够用。

下一个多模态模型的样子
实测完SenseNova U1，我们发现它的意义在于，它是第一个将“理解和生成统一”这件事认真做出来的开源模型。而这，或许是整个多模态领域下一步的发展方向。GPT Image 2的刷屏，表明图像生成的“生成质量”这条线已被闭源模型拉得很高。开源模型如果继续在同一维度追赶，可能需要很长时间才能赶上，并且开源的价值也会被压缩到只剩“便宜”。SenseNova U1提供了一条不同的技术路径，对整个开源社区的方向具有重要意义。它除了解决“如何生成更好的图”，也在告诉我们多模态模型的下一步会是什么样子。

SenseNova U1采用了行业首创的NEO-unify原生架构，实现多模态理解生成的高效统一。过去的多模态模型，理解图和生成图是两套系统协作：一套负责看懂输入，一套负责画出输出，中间靠接口传递信息。两套系统各有内部语言，信息传递过程中会有损耗，就像两个人用翻译软件沟通，意思大致到了，但总有些东西没传过去。SenseNova U1则从底层将这两件事合进了同一个表征空间。今年3月的技术博客中，他们重点讲解了NEO-unify这一架构。目前大模型行业的惯例是，多模态AI看图需要靠“视觉编码器（VE）”压缩处理，再交给生成器。在NEO-unify架构中，商汤直接抛弃了这套臃肿的传统范式。结合NEO-unify结构的SenseNova U1，使用的视觉接口近似无损，它直接将图像分块（Patch）吃进去，不经过任何预训练编码器压缩；然后在同一个主干网络中，让文本和视觉的训练端到端统一进行。在理解与生成的各项基准测试中，SenseNova U1的表现达到了同量级开源模型的SOTA水平，甚至在多项指标上能与Nano Banana等闭源模型相媲美。

分别是图像理解、图像生成和视觉推理基准测试结果
它回归了多模态的第一性原理，从底层的像素和文字开始，自己构建内部认知。这也能解释为什么它消耗的token更少，生成效率更高。即使只有8B参数的版本，也能打出超强的极致性价比。本次开源的是SenseNova U1的轻量版本SenseNova U1 Lite，目前有两个版本：8B参数的SenseNova-U1-8B-MoT，可在边缘设备上运行；38B总参数但激活仅3B的SenseNova-U1-A3B-MoT，提供更强能力，同时将推理成本控制得很低。

SenseNova U1已在GitHub和Hugging Face上开源，链接：https://github.com/OpenSenseNova/SenseNova-U1、https://huggingface.co/collections/sensenova/sensenova-u1。两个版本都可以本地部署、微调，并接入自己的数据管道。对于需要将图像生成能力嵌入产品的开发者来说，可以完全控制模型行为，数据也无需外泄。如果你需要一个高效实现理解与生成的模型，作为开源模型中的最强代表，SenseNova U1确实值得尝试。商汤还在GitHub上开源了面向Agent运行时的AIGC技能库SenseNova-Skills。我们可以将SenseNova U1的强大能力直接接入自己的智能体（Agent）工作流中。利用这个工具包，我们可以在OpenClaw、Hermes等Agent平台中一键调用。模型会自动评估提示词，选择合适的版式，经过多轮生成，输出最佳的专业信息图结果。

Skills链接：https://github.com/OpenSenseNova/SenseNova-Skills
回顾整个测试，SenseNova U1交出了一份不错的答卷，它是目前我们能拿到的同量级最强开源模型。对创作者来说，它行业首创的连续图文创作输出能力，打破了过去文字与配图割裂的困境，真正让边思考、边写作、边配图的连贯创作成为现实。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/32737

商汤SenseNova U1开源模型：本地部署的连续图文生成新霸主

相关推荐

字节开源Deer-Flow2登顶GitHub Trending：35.3k星超级智能体框架，开箱即用多智能体协同

Pretext：纯JS文本测量库，3天Star超21.9K，性能提升200倍！

告别手工作坊！AI编码智能体+策略记忆机制，让GPU算子优化实现自动化量产

openJiuwen获国际媒体关注：打造AgentOS，破解AI智能体规模化落地难题

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出