henry 发自 凹非寺
量子位 | 公众号 QbitAI
最近刷朋友圈,10条动态里至少有7条是GPT-Image-2生成的图片。
中文海报、复古杂志封面、直播画面、社交截图,甚至连高考试卷都能被它复刻出一张几乎以假乱真的版本。
面对这一现象,大家的反应也出奇地一致——
专业设计师要失业了,而我又觉得自己能行了!
但实际操作后你会发现:免费用户每天只能生成几张,抽卡次数有限。遇到稍微严肃的任务,额度瞬间用完,常常是活还没干完,次数先没了。
针对这一空白,商汤刚刚开源了一个全新架构的理解生成统一模型——SenseNova-U1。虽然小尺寸版本只有8B参数,却能复刻不少GPT-Image-2的拿手绝活。
比如,我们用U1制作一张量子位的招聘海报:文字、版式、配色,挑不出任何毛病。
**

△** 图片由SenseNova U1生成
再来看太阳系图解:八大行星各自的轨道、属性、图文介绍一应俱全,看起来相当专业。
**

△** 图片由SenseNova U1生成
画个钢铁侠,模型也能自动从轮廓、铺色、细节、质感、氛围等多个阶段拆解完整的绘画流程。
**

**
再来一张马斯克太空集群的信息图,审美也在线。
**

△** 图片由SenseNova U1生成
可以说,信息图(InfoGraph)、文字密集排版、图文交错——这些曾被认为是AI生图最难啃的硬骨头,U1已经能与GPT-Image-2同台竞技。
在多项图像理解与生成的指标上,SenseNova-U1也登顶了开源模型的榜首。

在推理响应速度方面,它也具备显著优势,逼近主流商用闭源模型。


这是怎么做到的?我们接着往下看。
连续性图文创作,这次是原生的
先说说U1最令人惊喜的能力:连续性图文创作。
所谓连续性图文创作,就是文字和图片在一段输出中自然交叠,而不是文字归文字、图片归图片。
听起来很简单,但实际上难度很大。因为文字需要保留语义,图片需要保留像素细节,这两件事在传统架构中几乎是天敌——保语义就丢像素,保像素就稀释语义。
U1的做法是让两者在同一个表征空间里共享上下文,语义丰富性和像素级视觉保真度第一次同时被兼顾。
简单来说,模型能像人一样,边思考边画草图,文字和图片在一段输出中自然交叠。
比如,我让它生成一个“煎牛排的操作教学”。它可以从食材准备、沥干水分、调味、煎制和翻面……一直讲到最后的装盘。
每一步的关键操作都有配图,牛排的形象从生肉到五分熟一路保持高度一致,不会画着画着变成另一块肉。

再比如,我想学一些漫画分镜技巧。
它能直接输出图文并茂的教材式段落,从准备阶段、镜头建立,再到引入道具、次要角色,一应俱全,比纯文字解释直观得多。
**

**
这种“始终是同一个主体”的连贯性看似朴素,但对生成模型来说却非常困难。
传统范式需要在多个模型之间来回调用,各画各的,角色形象很容易在第三步就走样。而U1只需单次单模型调用,就能直接输出全套内容。
对一个新模型来说,还有一个值得关注的考验——
高密度信息图。
在模型界面中,你可以直接输入“自己的简历信息”,它就能返回一张手绘风格的海报,信息分布、配色、字体层级都安排得明明白白。

△ 图片由SenseNova U1生成
让它讲“三只小猪盖房子”,我输入只有“7个字”,输出就能直接给你一整组连环画——
三只小猪、三种材料、三栋房子、最后那只大灰狼,一格一格排好,顺序对得上故事。
**

△** 图片由SenseNova U1生成
炒红烧肉这类做菜教程图,也可以一次直出,图文对应。
**

△** 图片由SenseNova U1生成
给一句“做杯咖啡的英文流程图”,图也直接出来了。
**

△** 图片由SenseNova U1生成
在讲究排版、涉及多种元素的插画场景中,U1也能实现比较精细的效果,比如这张划船乐的教学总览图。
**

△** 图片由SenseNova U1生成
最有意思的是这个:扔给它一张路边常见的“电梯安全”警示牌,让它换个排版做成信息图。
它还能直接完成完美迁移,把版式从警示牌切换成科普卡片。

**

△** 图片由SenseNova U1生成
前段时间火爆的产品爆炸图,在U1这里也可以做到。一台相机,被它拆得整整齐齐:
镜头组、反光镜、快门、传感器、芯片、电池等,全部被它拆解并悬浮在空中,标注线一根不少。
**

△** 图片由SenseNova U1生成
这种程度的玩法,以前是超大参数模型的专属。更有趣的是,SenseNova U1 Lite还在行业首创了图文交错的思维链。
这种会推理的能力放到图像编辑上会更有趣。
我扔给它一张刚泡好的玻璃杯热茶,让它“画出一小时后的样子”。它没有简单地直接出图,而是先做了一段推理:
一是给自己定约束:同一只玻璃杯、同一张原木桌面、同一种侧逆光,这样两张图放一起才看得出“是同一杯茶过了一小时”。
二是推导物理过程:刚泡时,叶片高速舒展、气泡从叶脉逸出、蒸汽在杯壁上留下弧形折射;
一小时后,多酚类扩散均匀,茶汤变深红褐,叶子完全沉降呈半透明,杯底与桌面交界处出现冷凝痕迹。光影也从“清晨的清冷”过渡到“午后的慵懒”。

类似的还有几个测试。
给它一个绿色的香蕉,模型会先推理“叶绿素分解+糖化”,从而保证输出的是一根带着斑点的成熟香蕉。

可以说,这款新模型不只是在改图,还具备了一定的物理常识。
NEO-unify,一个网络实现“看”和“画”
看到这里,你可能想问:这是怎么做到的?
U1的底层是一套名为NEO-unify的架构。一个模型同时会看、会画,理解和生成在同一个网络里完成,中间没有任何拼接。

在过去,多模态模型的标配通常是:视觉编码器(VE)负责看,变分自编码器(VAE)负责画,理解归理解,生成归生成,中间靠适配器拼起来。
NEO-unify把这两个东西都拿掉了——不需要VE,不需要VAE,模型直接吃像素,直接吐像素。
具体来说,这一过程分为三步:
第一步,引入近似无损的视觉接口,把图像的输入和输出统一成同一种表示。
第二步,用Mixture-of-Transformer做主干,理解和生成共享同一套底层。
第三步,文本走自回归,视觉走像素流匹配,两套目标函数在同一个学习框架里跑完。
**

△** 图片由SenseNova U1生成
这套技术架构给了NEO-unify独门绝活:连续性图文创作。
传统模型要做这件事,需要外挂工具或后处理拼接。而U1底层是统一的,原生支持图片和文字的交叉排版,所有视觉内容都来自模型自身,不调用外部工具。
模型在思考问题时,可以一边推理一边生成中间示意图,把复杂逻辑可视化。
生成一段教程时,可以在恰当的位置自然地插入说明图。
落地到模型,有两个规格:SenseNova-U1-8B-MoT,8B参数,端侧能跑;SenseNova-U1-3AB-MoT,总参数38B的MoE架构,提供更强的能力,底层都是同一套NEO-unify。
此外,商汤还给U1配了一套自研推理栈:LightLLM跑理解、LightX2V跑生成,两条路解耦各管各的。以H100/H200单节点为例,生成一张2048×2048的图,端到端大约需要9秒。
全网开源,即刻可用
值得一提的是,商汤这次在README里也直接写明了模型的局限:
上下文最长32K、人物在复杂场景里的细节有时不够稳、长文字渲染偶尔会出现拼写或排版错误、连续性图文创作目前还是beta版本。
不过,这些不足之处均标注了“持续改进中”。换言之,U1此次推出的并非终点,而是一个起点。
为方便用户使用,商汤同步开源了一套 SenseNova-Skills 技能包,将U1打造成Agent中可直接调用的工具。
其中,sn-infographic内置87种版式与66种风格,能够自行评分并择优输出;接入OpenClaw后,只需输入一句 /skill sn-infographic “提示词”,即可生成图片。
Skills不仅限于infographic,整套体系覆盖图像生成、PPT制作、Excel数据分析、深度研究、跨平台搜索等多个领域。
目前,SenseNova-U1 的两个模型已全面开源。用户可从Hugging Face和GitHub下载,仓库地址为 https://github.com/OpenSenseNova/SenseNova-U1。
若想直接体验而无需手动部署,可立即访问SenseNova U1 Lite Skill:https://github.com/OpenSenseNova/SenseNova-Skills。
此外,办公小浣熊也即将集成U1功能。
点赞、转发、收藏
欢迎在评论区留下你的见解!
— 完 —
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32464

