商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

henry 发自凹非寺

量子位 | 公众号 QbitAI

最近刷朋友圈，10条动态里至少有7条是GPT-Image-2生成的图片。

中文海报、复古杂志封面、直播画面、社交截图，甚至连高考试卷都能被它复刻出一张几乎以假乱真的版本。

面对这一现象，大家的反应也出奇地一致——

专业设计师要失业了，而我又觉得自己能行了！

但实际操作后你会发现：免费用户每天只能生成几张，抽卡次数有限。遇到稍微严肃的任务，额度瞬间用完，常常是活还没干完，次数先没了。

针对这一空白，商汤刚刚开源了一个全新架构的理解生成统一模型——SenseNova-U1。虽然小尺寸版本只有8B参数，却能复刻不少GPT-Image-2的拿手绝活。

比如，我们用U1制作一张量子位的招聘海报：文字、版式、配色，挑不出任何毛病。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

再来看太阳系图解：八大行星各自的轨道、属性、图文介绍一应俱全，看起来相当专业。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

画个钢铁侠，模型也能自动从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

再来一张马斯克太空集群的信息图，审美也在线。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

可以说，信息图（InfoGraph）、文字密集排版、图文交错——这些曾被认为是AI生图最难啃的硬骨头，U1已经能与GPT-Image-2同台竞技。

在多项图像理解与生成的指标上，SenseNova-U1也登顶了开源模型的榜首。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

在推理响应速度方面，它也具备显著优势，逼近主流商用闭源模型。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

这是怎么做到的？我们接着往下看。

连续性图文创作，这次是原生的

先说说U1最令人惊喜的能力：连续性图文创作。

所谓连续性图文创作，就是文字和图片在一段输出中自然交叠，而不是文字归文字、图片归图片。

听起来很简单，但实际上难度很大。因为文字需要保留语义，图片需要保留像素细节，这两件事在传统架构中几乎是天敌——保语义就丢像素，保像素就稀释语义。

U1的做法是让两者在同一个表征空间里共享上下文，语义丰富性和像素级视觉保真度第一次同时被兼顾。

简单来说，模型能像人一样，边思考边画草图，文字和图片在一段输出中自然交叠。

比如，我让它生成一个“煎牛排的操作教学”。它可以从食材准备、沥干水分、调味、煎制和翻面……一直讲到最后的装盘。

每一步的关键操作都有配图，牛排的形象从生肉到五分熟一路保持高度一致，不会画着画着变成另一块肉。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

再比如，我想学一些漫画分镜技巧。

它能直接输出图文并茂的教材式段落，从准备阶段、镜头建立，再到引入道具、次要角色，一应俱全，比纯文字解释直观得多。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

这种“始终是同一个主体”的连贯性看似朴素，但对生成模型来说却非常困难。

传统范式需要在多个模型之间来回调用，各画各的，角色形象很容易在第三步就走样。而U1只需单次单模型调用，就能直接输出全套内容。

对一个新模型来说，还有一个值得关注的考验——

高密度信息图。

在模型界面中，你可以直接输入“自己的简历信息”，它就能返回一张手绘风格的海报，信息分布、配色、字体层级都安排得明明白白。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△ 图片由SenseNova U1生成

让它讲“三只小猪盖房子”，我输入只有“7个字”，输出就能直接给你一整组连环画——

三只小猪、三种材料、三栋房子、最后那只大灰狼，一格一格排好，顺序对得上故事。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

炒红烧肉这类做菜教程图，也可以一次直出，图文对应。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

给一句“做杯咖啡的英文流程图”，图也直接出来了。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

在讲究排版、涉及多种元素的插画场景中，U1也能实现比较精细的效果，比如这张划船乐的教学总览图。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

最有意思的是这个：扔给它一张路边常见的“电梯安全”警示牌，让它换个排版做成信息图。

它还能直接完成完美迁移，把版式从警示牌切换成科普卡片。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

前段时间火爆的产品爆炸图，在U1这里也可以做到。一台相机，被它拆得整整齐齐：

镜头组、反光镜、快门、传感器、芯片、电池等，全部被它拆解并悬浮在空中，标注线一根不少。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

这种程度的玩法，以前是超大参数模型的专属。更有趣的是，SenseNova U1 Lite还在行业首创了图文交错的思维链。

这种会推理的能力放到图像编辑上会更有趣。

我扔给它一张刚泡好的玻璃杯热茶，让它“画出一小时后的样子”。它没有简单地直接出图，而是先做了一段推理：

一是给自己定约束：同一只玻璃杯、同一张原木桌面、同一种侧逆光，这样两张图放一起才看得出“是同一杯茶过了一小时”。

二是推导物理过程：刚泡时，叶片高速舒展、气泡从叶脉逸出、蒸汽在杯壁上留下弧形折射；

一小时后，多酚类扩散均匀，茶汤变深红褐，叶子完全沉降呈半透明，杯底与桌面交界处出现冷凝痕迹。光影也从“清晨的清冷”过渡到“午后的慵懒”。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

类似的还有几个测试。

给它一个绿色的香蕉，模型会先推理“叶绿素分解+糖化”，从而保证输出的是一根带着斑点的成熟香蕉。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

可以说，这款新模型不只是在改图，还具备了一定的物理常识。

NEO-unify，一个网络实现“看”和“画”

看到这里，你可能想问：这是怎么做到的？

U1的底层是一套名为NEO-unify的架构。一个模型同时会看、会画，理解和生成在同一个网络里完成，中间没有任何拼接。

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

在过去，多模态模型的标配通常是：视觉编码器（VE）负责看，变分自编码器（VAE）负责画，理解归理解，生成归生成，中间靠适配器拼起来。

NEO-unify把这两个东西都拿掉了——不需要VE，不需要VAE，模型直接吃像素，直接吐像素。

具体来说，这一过程分为三步：

第一步，引入近似无损的视觉接口，把图像的输入和输出统一成同一种表示。

第二步，用Mixture-of-Transformer做主干，理解和生成共享同一套底层。

第三步，文本走自回归，视觉走像素流匹配，两套目标函数在同一个学习框架里跑完。

**

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

△** 图片由SenseNova U1生成

这套技术架构给了NEO-unify独门绝活：连续性图文创作。

传统模型要做这件事，需要外挂工具或后处理拼接。而U1底层是统一的，原生支持图片和文字的交叉排版，所有视觉内容都来自模型自身，不调用外部工具。

模型在思考问题时，可以一边推理一边生成中间示意图，把复杂逻辑可视化。

生成一段教程时，可以在恰当的位置自然地插入说明图。

落地到模型，有两个规格：SenseNova-U1-8B-MoT，8B参数，端侧能跑；SenseNova-U1-3AB-MoT，总参数38B的MoE架构，提供更强的能力，底层都是同一套NEO-unify。

此外，商汤还给U1配了一套自研推理栈：LightLLM跑理解、LightX2V跑生成，两条路解耦各管各的。以H100/H200单节点为例，生成一张2048×2048的图，端到端大约需要9秒。

全网开源，即刻可用

值得一提的是，商汤这次在README里也直接写明了模型的局限：

上下文最长32K、人物在复杂场景里的细节有时不够稳、长文字渲染偶尔会出现拼写或排版错误、连续性图文创作目前还是beta版本。

不过，这些不足之处均标注了“持续改进中”。换言之，U1此次推出的并非终点，而是一个起点。

为方便用户使用，商汤同步开源了一套 SenseNova-Skills 技能包，将U1打造成Agent中可直接调用的工具。

其中，sn-infographic内置87种版式与66种风格，能够自行评分并择优输出；接入OpenClaw后，只需输入一句 /skill sn-infographic “提示词”，即可生成图片。

Skills不仅限于infographic，整套体系覆盖图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索等多个领域。

目前，SenseNova-U1 的两个模型已全面开源。用户可从Hugging Face和GitHub下载，仓库地址为 https://github.com/OpenSenseNova/SenseNova-U1。

若想直接体验而无需手动部署，可立即访问SenseNova U1 Lite Skill：https://github.com/OpenSenseNova/SenseNova-Skills。

此外，办公小浣熊也即将集成U1功能。

点赞、转发、收藏

欢迎在评论区留下你的见解！

— 完 —

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/32464

商汤开源8B模型复刻GPT-Image-2绝活：图文生成连续一致，高密度信息图直接出

henry 发自 凹非寺

**

**

**

**

连续性图文创作，这次是原生的

**

△ 图片由SenseNova U1生成

**

**

**

**

**

**

NEO-unify，一个网络实现“看”和“画”

**

全网开源，即刻可用

相关推荐

vphone-cli：在Mac上运行真实iOS系统，开发者调试神器

NotebookLM开源替代方案全解析：三大GitHub明星项目打造本地化AI笔记助手

GitHub本周爆火：从Linux运行Windows应用到AI绘图管理，10个必看开源项目盘点

《生化危机》女主联手程序员打造AI记忆宫殿，本地开源拿下历史最高分96.6%

用鸿蒙打造儿童教育新体验：《声趣国旗通》背后的技术实践

henry 发自凹非寺