15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

不到15人团队,打造全球第三的图像模型

一支规模不足15人的团队,成功将图像模型推向了全球前三的位置。

5月6日凌晨,Luma AI正式对外开放了其 Uni-1.1 API

几乎在同一时间,第三方评测机构Arena.ai发布了最新的图像生成模型排行榜,榜单格局发生了剧烈变化:

Luma凭借其UNI-1.1与UNI-1.1-Max模型,直接跻身全球前三,仅次于 OpenAI(gpt-image-2)Google(nano-banana-2)

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

△ Arena.ai 图像生成排行榜

包括Microsoft AI、Reve、xAI在内的众多参与者,均被其甩在身后。

这一排名的含金量不言而喻。Arena.ai采用基于用户盲测投票的ELO评分系统,没有任何官方公关或自报数据。每一张图片,都是由真实用户在不知道模型来源的前提下,对两份生成结果做出二选一投票。

这直接说明,在真实应用场景中,图像模型Uni-1.1的审美与输出质量,已成为 OpenAI和Google之外的最优解

伴随API与排行榜一同发布的,还有两项硬性指标值得关注:

  • 价格腰斩:2K分辨率单图最低仅需 $0.0404(约合人民币0.2755元),相比Nano Banana级别的模型,价格直接减半;
  • 落地速度惊人:阿迪达斯、马自达以及阳狮集团等广告巨头,已经率先签约使用。

更值得关注的是,一个原本预算 1500万美元、周期一年 的广告活动,通过Luma Agents仅用了 40小时、花费不到2万美元,不仅扩展出了多国本地化版本,还顺利通过了甲方的内部审核。

这早已超越了“图画得好不好看”的层面。

推理与生成,合二为一的模型

许多人初次接触Uni-1时,会误以为它只是一个普通的图像模型。

但Luma此次发布的核心卖点,并不在于像素质量本身,而是它首次将 推理(reasoning)生成(generation) 整合到了同一个模型之中。

传统图像模型的工作流程是:用户输入提示词 → 模型直接生成图像 → 不满意 → 修改提示词重新生成。

在这个过程中,模型 理解了什么 和模型 画了什么 是两件独立的事情。企业使用这类AI工具进行品牌投放时,最大的痛点在于不可控:同一个角色在下一张图中就变了样、品牌颜色每次都会偏移、跨市场的素材风格各自为政。

而Uni的架构彻底改变了这一现状。

它采用了decoder-only自回归Transformer架构,文本token与图像token共享同一个序列。

这意味着,模型并非先进行翻译再进行绘制,而是同时进行跨模态推理;构图、空间、品牌一致性等约束条件,在像素生成之前,就已经在结构层面得到了求解。

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

在API层面,这一设计体现为两个核心端点:

  • Reasoning端点:负责解析指令、规划构图、锁定品牌/角色/产品约束;
  • Generation端点:在推理结果的基础上,完成像素渲染。

这套设计的产业意义在于,它将创意的可控性,从提示词工程这种充满不确定性的“玄学”,转变为一组能够写入生产流程的API契约。

谁在使用:广告巨头、运动品牌、素材平台

Luma并未将Uni-1.1仅仅定位为开发者玩具,而是直接公布了其企业客户名单。

1. 广告与营销领域

Publicis Groupe(阳狮集团,全球领先的广告与传播集团)Serviceplan(欧洲最大的自主经营广告代理集团)

他们已将Luma Agents(基于Uni-1.1)部署到从策略、创意开发到生产的全流程中。

一个被多次引用的标杆案例是,某品牌原计划耗资 1500万美元、周期一年 的广告活动,通过Luma Agents仅用40小时、花费不到2万美元(约合人民币13.6万元),就扩展为多国本地化版本,并顺利通过了甲方的内部质量审核。

Adidas、Mazda

这些品牌已将Uni-1.1接入其内容生产流水线,用于跨市场视觉素材的批量生成和一致性维护。

2. 素材与开发者生态

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt 等创作者平台与AI工作流公司,均已基于Uni-1.1 API发布了集成方案。

Luma创始人兼CEO Amit Jain将这件事概括为:

用语言思考,用像素想象与渲染,这就是像素中的智能(intelligence in pixels)。

三个最先被产业验证的应用方向

从已落地的客户案例反向推导,Uni-1.1 API在以下三个方向上,已经展现出清晰的ROI模型:

1. 广告本地化

一支在纽约拍摄的广告主视觉,需要在东京、利雅得、巴黎、上海各发布一个版本。

传统流程需要重新拍摄、重新P图、重新进行合规审查,单条预算从几万到几十万美元不等。

Uni-1.1单次API调用 支持最多9张参考图 联合输入,将品牌主形象、文字、产品、地域元素作为模型层级的硬约束传入,多语言渲染(包括中文、阿拉伯文等非拉丁字符)一次到位。

Publicis案例中40小时与一年的巨大差距,正是从这里产生的。

2. 电商与产品可视化

电商场景的痛点是量大、SKU繁杂,同时还要保证产品本身的一致性。

开发者可以将产品照片、面料样本、场景参考一并输入API,单图成本最低 $0.0404,实现按页面、按用户、按地域实时生成产品图,而非一次拍摄后反复套用模板。

Luma官方将这种用法称为reference-grounded brand workflows at scale,即参考图作为模型级约束,将视觉身份锁定在所有渠道中。

3. 角色与IP一致性

游戏美宣、漫画、影视前期、虚拟代言——这些场景要求同一个角色穿越不同场景、姿态、光线,但身份信息必须保持高度稳定。

Uni-1.1的多参考图机制加上句子级编辑(按句修改图像,默认保留其他元素),使这件事可以转化为确定性的流水线,而非反复抽卡碰运气。

能力速览:3个例子,看懂边界

单图直出一整张「2036年新闻网站」

提示词:Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

(生成一个来自2036年的新闻网站页面,其中包含相关的新闻,以及专门为Agent设计的广告模块。这些Agent已经进化出各自独特的“人格”。整个网站内容以及所有广告都必须使用英文呈现。)

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

一张图就能测出一个模型的“真实成色”——

Uni-1.1单次推理生成了一整页可读的新闻网站:

包括报头、栏目导航、突发新闻条、头条主图、多栏正文、署名/时间戳、面向AI受众的横幅广告位、页脚链接,十几类版式元素同框,每一类的英文文本都是真实可读的。

这并非图像模型常见的“远看OK、但近看全是乱码”的情况。

如此复杂的版面与长文本任务,在传统流程中需要由文本编辑、OCR一致性、版面结构等多个模块联合完成,而Uni-1.1将它们整合在了一次推理中。

多参考图+品牌logo+真人融合

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

两只猫 + 一位真人 + Luma logo,4张参考图融合成一个有逻辑的会议场景。

GPT Image 1.5将参考图当作贴图直接嵌入PPT区域,而Uni-1则在语义层面完成了融合,这正是品牌广告中产品+代言人+场景+logo组合最常见的需求。

多轮编辑:三连改不丢主体

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

去掉前面那只熊 → 加一个黑色布帘 → 改成黑白照片,三轮指令叠加,主体一致性和空间关系 在每一轮都没有被破坏。

这是 按句编辑 在生产环境中最有价值的能力,产品经理可以像编辑文档一样迭代视觉内容。

价格策略:将图像生成的边际成本压至新低

Luma为API用户提供了两档清晰的计费方案:

Build计划(按实际使用量计费)

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

Scale计划(预留吞吐能力,最低8个单元起订)

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

Luma官方宣称,其定价与延迟均低于同类竞品的一半。这一说法已得到第三方评测榜单及早期接入客户的成本对比数据验证。

SDK全面支持Python、JavaScript、TypeScript、Go及CLI等主流语言,开发者只需从 platform.lumalabs.ai 获取API密钥即可快速接入。

团队规模不足15人,却跻身全球前三:DDIM之父与CVPR最佳论文得主领衔

Uni-1的核心研究团队仅有不到15人,由两位华人学者共同领导:

  • 宋佳铭(Jiaming Song):清华大学本科、斯坦福大学博士。其代表作DDIM(Denoising Diffusion Implicit Models)是扩散模型采样加速领域的奠基性工作之一,被Stable Diffusion、DALL·E等主流系统广泛采用。
  • 沈博魁(William Shen):斯坦福大学本科及博士。其代表作曾荣获CVPR 2018最佳论文奖和RSS 2022最佳学生论文奖。

一位深耕“生成”技术,另一位精于“理解”能力。

这种优势互补的组合,恰好映射了Uni-1.1“脑手合一” 的架构设计理念——让模型在下笔绘图前,先学会像人类一样思考构图与品牌逻辑。

15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

在Google、OpenAI主导的图像生成赛道中,一支不足15人的团队,不仅将API定价压低至竞争对手的一半,更在Arena.ai排行榜上成功实现对众多行业巨头的“越级反超”。这无疑是本次发布中另一个值得关注的产业信号。

API发布前后,Luma团队在X平台上发表了三条简短评论:

Luma首席科学家宋佳铭表示:

我们实际使用的算力规模可能会让你感到惊讶。我为我们的团队感到自豪。
(更详细的报告将很快发布。)

Uni-1研究负责人沈博魁(William Shen)表示:

UNI-1的首发,使我们成为除OpenAI与Gemini App之外排名最高的实验室。对于一个第一代统一图像模型而言,这个起点相当不错。顺便提一句,在此次榜单更新中,GPT Image 2的ELO评分比之前下降了110分,具体原因尚不清楚。

Luma模型产品负责人Barkley Dai表示:

Luma目前位列Arena.ai第三名。它拥有GPT-Image 2级别的智能,Midjourney级别的审美,而价格仅为Nano Banana的零头。

这三条评论的共同潜台词是:Uni-1.1是Luma统一智能路线的首款产品。

而它正是以第一代产品的身份,直接冲至Arena.ai第三名,并将价格压低至同类竞品的一半。

未来规划:从静态图像迈向“看、说、推理、想象”的连续流

根据Luma的路线图,Uni-1.1只是“统一智能”路线的第一个落地形态。

下一步,他们将把这一统一框架从静态图像扩展到视频、语音以及交互式世界模拟——

目标是构建一个能够在连续流中实现“看、说、推理、想象”的多模态系统

Luma CEO Amit Jain对此总结道:

统一智能的真正价值,并非生成更美观的图片,而是当模型同时具备理解与生成能力后,AI才首次真正拥有了端到端完成创意工作的能力。

API入口:lumalabs.ai/api
官方公告:lumalabs.ai/news/uni-1-1-api
接入文档:platform.lumalabs.ai
SDK:Python/JavaScript/TypeScript/Go/CLI


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33468

(0)
上一篇 2026年5月6日 上午11:46
下一篇 2026年5月6日 下午10:48

相关推荐

  • ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用

    ChatGPT默认模型大升级:GPT-5.5 Instant幻觉减少52.5%,免费用户可用 ChatGPT的默认模型今天迎来了一次重大升级。 新版本GPT-5.5 Instant,融合了5.5的核心智力与闪电般的响应速度。 免费用户同样可以畅享这一升级。 最关键的四大亮点: 幻觉率降低了52.5%。 引入“记忆来源”功能,清晰展示过往对话如何影响当前回复。…

    2026年5月6日
    44700
  • 揭秘大语言模型逻辑能力进化:2026年1月最新评测榜单深度解析

    #1 参赛选手 本次更新模型(按发布时间顺序),共6个: 本月出榜: ERNIE 5.0 Preview(后继正式版)kimi-k2-0905-preview / Kimi-K2-Thinking(后继K2.5)Qwen3-30B-A3B-2507(不再跟踪)Doubao-Seed-1.8(后继1228版)Claude Haiku 4.5(不再跟踪)Qwen…

    2026年1月31日
    1.7K00
  • 资本与劳动力的世纪大脱钩:从英伟达到沃尔玛,AGI时代的渐进革命

    当英伟达以4万亿美元市值创造历史纪录时,其背后隐藏着一个更为深刻的宏观经济现象:劳动与资本的大脱钩。这家仅凭3.6万名员工就支撑起相当于15亿印度人一年GDP市值的公司,正在重新定义现代企业的生产力范式。这种脱钩并非科技行业的专属现象,从沃尔玛十年营收增长2000亿美元却员工零增长,到亚马逊最新2000亿美元营收增长仅需新增3.6万名员工,一场静默的革命正在…

    2025年11月18日
    39900
  • 突破AI人像生成瓶颈:复旦大学与阶跃星辰联合推出WithAnyone,实现身份一致性与场景多样性的完美平衡

    在人工智能图像生成领域,个性化人像合成一直是技术攻关的难点。传统方法往往陷入“复制粘贴”的困境——生成结果高度依赖输入图像的表情、角度和姿态,缺乏自然的变化与多样性。近日,复旦大学与阶跃星辰的研究团队联合发布全新AI合照生成模型WithAnyone,通过创新的数据策略与训练框架,成功打破了这一技术瓶颈,实现了身份一致性(ID Consistency)与身份可…

    2025年11月16日
    47500
  • 阿里Qwen 3.5震撼开源:架构革新登顶全球最强,原生多模态重塑AI格局

    2026年2月16日,除夕佳节之际,阿里巴巴正式发布全新一代开源大模型千问Qwen 3.5。其Plus版本一经亮相便登顶全球最强开源模型,性能直接媲美闭源第一梯队的Gemini 3 Pro,并在多项权威基准测试中实现超越。 这场新春时节的“技术突袭”,不仅标志着阿里在大模型领域完成了从纯文本到原生多模态的代际跃迁,更以极致的效率与性价比,重构了全球开源大模型…

    2026年2月25日
    1.3K00