国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

每当用户刚熟悉一种新玩法,总会有新花样紧跟其后。

最近,OpenAI 推出的 GPT Image 2 在全网引发热潮。它不仅擅长生成美观的图片,更让“信息图生成”这一功能火了起来:知识卡片、数据图解、攻略长图、科普海报……只需一句话,就能产出一张排版精致、信息清晰、质感出众的图片。这股风潮的传播速度,丝毫不亚于当年吉卜力风格的刷屏现象。

不过,对于国内用户而言,想要体验 GPT Image 2 仍存在一定门槛。那么,有没有一个更低门槛、更贴合国内用户需求的选择呢?

巧的是,还真有。

就在近日,我们发现了一款国产开源模型,精准地契合了这一需求——来自商汤科技的日日新 SenseNova U1 系列,这是一款原生理解生成统一模型。

那些超大参数模型能实现的功能,它都能胜任。过去需要耗费大量脑力和时间的内容处理,现在只需清晰描述需求,它就能自动完成信息整理、版式设计和视觉呈现,直接输出一张“看起来很专业”的成品图。

更重要的是,它完全开源,且使用次数不受限制。

效果如下:

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

SenseNova U1 并非仅仅具备“画图”能力。它采用了 NEO-unify 理解生成统一的全新架构,真正实现了语言与视觉信息的协同。因此,仅凭 8B 的小参数规模,它就能达到许多商业闭源模型同样的效果,效率极高。

由于能将视觉信息直接纳入思考链路,它在行业内首创了连续性图文创作输出的模式。

此外,值得一提的是,商汤此次开源的是 SenseNova U1 的轻量版系列——SenseNova U1 Lite,包含 SenseNova-U1-8B-MoT 和 SenseNova-U1-A3B-MoT 两个版本。

  • GitHub:https://github.com/OpenSenseNova/SenseNova-U1
  • Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1

尽管模型体积小巧,但在多个测评维度上,其性能表现均处于领先地位。

在图像理解与生成基准测试中,SenseNova-U1-8B-MoT 的表现相当亮眼。虽然它只是 8B 级别的模型,但在通用理解、空间理解等多个测试中都取得了领先成绩,甚至超越了 Qwen3VL-30B-A3B、Gemma4-26B-A4B 等更大规模的模型。简而言之,SenseNova-U1-8B-MoT 并非依靠堆砌参数取胜,而是在较小的体量下,实现了更高效的多模态理解能力。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

在图像生成基准测试方面,SenseNova U1 Lite 在信息图生成(Infographics)的其中一项指标上获得了 39.8 的高分,领先于 Qwen-Image 等模型。这表明,在处理高难度、高密度信息并将其转化为图表时,SenseNova U1 具备行业领先的逻辑重组能力。

在文字渲染(Text Rendering)这一维度下,SenseNova U1 Lite 的成绩几乎全面领先。AI 生成图片时最怕文字出现崩坏,这一测试结果充分证明了 SenseNova U1 Lite 在视觉化文字上的精准度。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

视觉推理是 AI 最容易“翻车”的领域,因为它要求模型不仅要看懂图像,还要进行复杂的逻辑推理。SenseNova U1(VBVR (UMM) 得分)拿到了 60.5 的高分,超过了对比模型(如 Nano-Banana 的 49.6)。这意味着,在处理复杂的视觉关系推理时,它比同类模型表现得更加“聪明”。

在 WISE 维度上,它取得了 69.0 的优异成绩,领先于 Qwen-Image(63.0)以及其他一众模型。这表明,在执行基于人类意图的视觉修改时,它对“指令”的解析与“像素”的操控结合得更加紧密。

GEdit-Bench 得分为 7.47,在同量级的开源模型中处于顶尖位置,甚至优于一些参数规模更大的闭源替代方案。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

实测后发现,这才是你急需的提效利器

光看榜单当然不过瘾。

SenseNova U1 Lite 在业内首次实现了连续性的图文创作输出。

传统模型的工作方式是:先用文字把问题想清楚,再调用外部工具生成图片——这是两个步骤、两套系统,中间还需要“中间商”负责对接。SenseNova U1 Lite 打破的正是这道壁垒。它能在同一套推理过程中,让图像和文字同步生成。示意图、流程图、草图,在它推理的同时就已经出现,而不是等推理结束后再配上去。

让我们看看几个实际效果。

让它生成一幅小白兔和大灰狼的故事连环画。

从结果可以看出,SenseNova U1 Lite 可以一边推进故事情节,一边同步生成对应场景的插图。图片和文本源自同一套思维过程,逻辑连贯、风格统一。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

想学习电影运镜,也可以向 SenseNova U1 Lite 提问。它会将文字解释和视觉图同步提供给你,并且保持人物角色的高度一致性。这比单纯的文字教程更容易理解,也比纯图示更有逻辑性。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

这种带图思考的能力,正是 SenseNova U1 的原生图文理解生成能力。它能将图像与文本从底层进行融合,实现高效、连贯的思考和图文交错输出。不仅效率高,也更接近人类的理解与表达模式。

我们还用 SenseNova U1 Lite 尝试了复杂高密度信息图(infographic)的生成。

信息图要解决的是一个真实的表达困境:一篇论文、一份研报、一个操作流程、一个知识点,原始形态往往密度过高、结构不清,大多数人看到就想关掉。而一张好的信息图,能把同样的内容重新组织,让读者在几秒钟内抓住核心。

首先,我们让模型生成了一张适合可爱女生的短发造型信息图,SenseNova U1 Lite 的完成度依然在线。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

在接下来的案例中,SenseNova U1 Lite 生成的占星术与塔罗牌占卜图片风格华丽,充满了神秘主义元素。如果你对星座感兴趣,不妨也试着做一份属于自己的星座图。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

读不下去的论文,交给它。

最近,谷歌 DeepMind 发布了一篇颇受关注的论文《Image Generators are Generalist Vision Learners》,内容密度高,需要反复阅读才能理清脉络。我们把摘要丢给 SenseNova U1 Lite,让它生成一份图解。它不只是把文字重新排了一遍,而是真正提取出了论文的核心主张、方法逻辑和关键结论,用更直观的视觉结构把这些内容呈现出来,让一篇需要沉下心来读的学术文章,变得可以快速上手。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

论文地址:https://arxiv.org/abs/2604.20329v1

接着,我们又换了一个完全不同的题材:让模型生成一张“武侠江湖禁忌”信息图。

这类内容看似轻松,其实很考验模型的结构化表达能力。因为它既要有江湖味,又要让读者一眼看懂规则。

SenseNova U1 Lite 的完成效果依然很有意思。它把江湖禁忌拆成了几个清晰板块:比如勿偷学武功,勿背后放冷箭暗器等。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

金庸江湖生存指南:

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

接下来,我们又让模型生成了一张“柠檬的万能指南”信息图。SenseNova U1 Lite 的处理方式比较聪明。它把柠檬的用途拆成了几个清晰模块:烹饪、家居清洁、心身疗愈。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

生成詹姆斯·乔治·弗雷泽名著《金枝》(The Golden Bough)信息图:

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

刺绣入门指南:

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

城市明信片:

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

从上述测试结果来看,面对信息密度极高的场景,SenseNova U1 Lite 处理起来显得非常得心应手。

高效统一架构,让小模型跑出大模型效果

看完这些实际表现,一个关键问题自然浮现:它究竟是如何做到的?

过去,多模态 AI 几乎被一种固定范式所主导:视觉编码器负责感知与理解,将图像压缩成特征向量后喂给语言模型;变分自编码器则负责生成图像,将语言模型的意图解码为像素。两套系统各司其职,看似分工明确,却在理解与生成之间埋下了一道天然断层。

问题出在“压缩”这个动作上。视觉编码器把图像转为特征向量,本质上是一次有损的信息筛选,它预先决定了哪些视觉细节值得保留、哪些可以舍弃。而这个决定,早在模型真正开始思考之前就已经完成。生成侧同样如此:解码器只能从语言模型的理解结果中重建图像,而非从原始像素出发。两端都在使用二手信息工作,断层由此产生。

这种路线并非没有价值。恰恰相反,它是过去几年多模态模型快速发展的重要基础。但其缺陷也很明显:每经过一个模块,信息就多一次转换;每多一次转换,就可能带来一次损耗。尤其对于图像这种信息密度极高的模态,一旦被过度压缩,细节、空间关系、局部结构都可能被弱化。到了生成阶段,模型再想把这些信息完整还原出来,难度就会显著增加。

这也是为什么许多多模态模型会出现一种割裂感:它可能能说清楚图里有什么,却不一定能准确画出复杂结构;它可能能生成一张好看的图片,却不一定真正理解文字中的逻辑关系;它也可能能完成单张图生成,但一旦要求连续输出多张风格一致、逻辑连贯的图文内容,就容易出现前后不一致、细节漂移、版式混乱等问题。

SenseNova U1 Lite 的答案,是一套名为 NEO-Unify 的原生多模态架构,专门解决理解与生成之间的断层。

其核心思路,是将这些原本分离的环节尽可能收拢到一个统一架构中。它不再把视觉和语言视为两个需要互相翻译的系统,而是让图像信息和文本信息在同一个内部空间中共同参与计算。这样一来,模型在处理图文任务时,无需在“看图系统”“语言系统”“生成系统”之间来回传递,而是可以在同一套模型内部完成感知、理解、推理和表达。

这样做带来的第一个好处,是信息路径更短。

传统架构中,模型完成一次复杂图文任务,可能需要经历“看图→理解→规划→生成→修正”等多个阶段,且每个阶段之间都存在对齐成本。SenseNova U1 Lite 的统一架构则更像是把这些环节压缩进同一个大脑里,让模型可以一边理解内容,一边组织画面,一边保持语义和视觉的一致性。少了中间转译,模型就能把更多计算资源用于真正的理解和生成,而不是消耗在模块之间的衔接上。

第二个好处,是效率更高。

通过架构上的统一,减少不必要的信息损耗和流程开销,让较小规模的模型也能释放出更高的有效能力。

这也是 SenseNova-U1-8B-MoT 值得单独审视的原因。8B 级别的模型规模并不算大,但在图像生成、图像编辑、复杂信息图、视觉推理等任务中,它能够接近甚至追上部分大型商业模型。背后的关键,并非简单的“小参数逆袭大模型”,而是统一架构让计算利用率更高,模型无需花费太多能力去弥补模块割裂带来的损耗。

这可以通过一些实验结果来佐证:

如下图所示,SenseNova-U1-8B-MoT 位于相当靠左的位置,延迟大约只有 15 秒/2K 图,是所有对比模型中生成速度最突出的一个。同时,它的平均得分接近 67 分,已经进入主流商业模型所在的中高分区间。

这意味着,SenseNova-U1-8B-MoT 的优势主要体现在效率上:它没有依赖更长的生成时间去换取性能,而是在低延迟条件下保持了较高的生成质量。相比一些得分更高但耗时达到 30 秒、70 秒甚至更久的商业模型,它更接近实际生产中需要的状态:快速出图、质量可用、响应稳定。

换句话说,如果只看最高分,GPT-Image-2.0、Nano Banana Pro 等模型仍然处在第一梯队;但如果把速度也纳入考量,SenseNova-U1-8B-MoT 的位置就变得非常突出。它用更短的时间完成了接近主流商业模型的生成效果,体现出很强的单位时间产出能力。

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

国产8B开源模型碾压30B?商汤SenseNova U1图文生成实测惊艳

Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

结语

在 AI 领域,“开源”两个字正在被严重稀释。有的开源只是权重开放,却不开放代码;还有的干脆设了各种商用限制,开源不过是蹭热度的说法。

商汤此次选择将两个参数模型全面开源,代码托管于 GitHub,模型权重在 Hugging Face 平台同步提供下载,完整技术报告也将在近期公布。

在当前多模态大模型格局下,开源一个在架构层面有实质创新、且跑通了“理解-生成-统一”路线的模型,意味着这套方法可以被学术界反复审视、被开发者社区持续打磨,同时也为产业伙伴提供了直接可用的基础设施。

尤其是它的小身材、大能量、高效率,能帮助开发者即便在资源受限的环境下,也能享受高效率的能力,发挥越级的实力。

当整个行业都在追赶 GPT Image 2 的生图质量时,商汤押注的是统一本身。而随着全面开源的放出,这条路径,现在属于所有人。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32535

(0)
上一篇 18小时前
下一篇 2小时前

相关推荐

  • AI Hedge Fund:12位投资大师Agent军团开源,人人可用量化投资

    AI 对冲基金:开源 12 位投资大师智能体军团,量化投资触手可及 一个汇集了 12 位世界级投资大师智慧的开源项目,正在 GitHub 上引发关注。该项目名为 AI Hedge Fund,旨在将传奇投资人的哲学编码为智能体(Agent),为用户提供股票分析与交易策略参考。 该系统不仅能让这些“大师级”智能体实时分析市场,还内置了回测模块。用户可以先使用历史…

    2026年4月13日
    79100
  • MiroThinker:开源重型研究型AI Agent,让小龙虾帮你完成深度调研

    在处理需要深度搜索、多方对比与交叉验证才能得出体系化结论的复杂任务时,我会使用 MiroThinker。 这是一个开源的重型研究型 AI Agent。与常规的问答式聊天机器人不同,MiroThinker 能够进行持续的长链推理、主动浏览网页、在不确定环境中进行探索,最终生成一份扎实的研究报告。 它已成为我高频使用的 AI 工具之一。此前,我已在飞书中配置了名…

    2026年3月19日
    39200
  • 三大开源神器:小红书数据采集、智能PPT生成、代码驱动视频制作

    小红书采集神器 Spider_XHS 是一个在 GitHub 上已获得超过 3000 Star 的小红书数据采集与运营工具。它不仅仅是一个爬虫,更提供了一套完整的小红书全域运营解决方案。 该项目支持多维度数据抓取,可将结果保存为 Excel 表格或直接下载多媒体文件。 采集用户所有笔记至本地 该工具能够自动下载用户的所有笔记,并按统一格式保存到本地文件夹。每…

    2025年11月30日
    68000
  • GitHub宝藏库推荐:大模型应用、CEO生存指南、AI Agent实战与无代码开发全攻略

    01 大模型 APP 合集 这个开源项目汇集了大量现成的开源大模型应用 Demo 和脚手架,已在 GitHub 上获得超过 8 万 Star。 无论您希望构建一个能够解读 PDF 的机器人,还是创建一个能够自动联网查询资料、撰写报告的复杂 Agent 团队,这里几乎都能找到可直接参考的代码。 其优点在于,它不仅支持 OpenAI 的模型,还为 Anthrop…

    2026年1月2日
    52900
  • 商汤开源8B模型复刻GPT-Image-2绝活:图文生成连续一致,高密度信息图直接出

    henry 发自 凹非寺 量子位 | 公众号 QbitAI 最近刷朋友圈,10条动态里至少有7条是GPT-Image-2生成的图片。 中文海报、复古杂志封面、直播画面、社交截图,甚至连高考试卷都能被它复刻出一张几乎以假乱真的版本。 面对这一现象,大家的反应也出奇地一致—— 专业设计师要失业了,而我又觉得自己能行了! 但实际操作后你会发现:免费用户每天只能生成…

    19小时前
    10500