图像生成 - 鲸林向海

15人团队打造全球第三图像模型：Luma Uni-1.1 API发布，成本腰斩，广告巨头已签约

不到15人团队，打造全球第三的图像模型一支规模不足15人的团队，成功将图像模型推向了全球前三的位置。 5月6日凌晨，Luma AI正式对外开放了其 Uni-1.1 API。几乎在同一时间，第三方评测机构Arena.ai发布了最新的图像生成模型排行榜，榜单格局发生了剧烈变化： Luma凭借其UNI-1.1与UNI-1.1-Max模型，直接跻身全球前三，仅次…

6天前

273000

大模型评测

统治AI图像生成近10年的黄金标准FID首次被拉下场当教练，全华阵容提出FD-loss实现直接优化

统治AI图像生成近10年的黄金标准FID首次被拉下场当教练，全华阵容提出FD-loss实现直接优化统治AI图像生成领域近十年的黄金标准，首次被拉下神坛，扮演起“教练”的角色。这里说的是FID（Frechet Inception Distance）。这个自2017年起沿用至今的指标，一直无法直接应用于日常模型训练。如今，这一困境已被打破—— 来自USC…

2026年5月4日

146000

大模型工程

复旦团队提出MacTok：64个Token实现图像生成SOTA，CVPR 2026 Highlight

在视觉生成领域，提升扩散模型或自回归模型的推理效率，关键在于将图像压缩为更少量的 token。当前主流的图像分词器分为离散（如 VQ-VAE、VQ-GAN）与连续（如 KL-VAE）两派。离散分词器虽然应用广泛，但其不可求导的量化过程需要进行梯度近似，容易引入量化误差。相比之下，连续分词器摒弃了硬性的离散码本，保留了连续平滑的潜在空间，原生支持梯度优化并能容…

2026年4月24日

261000

大模型工程

GPT Image 2惊艳全网！OpenAI核心团队仅13人，四个月实现架构重构，揭秘图像生成新突破

GPT Image 2 惊艳全网：架构重构与核心团队揭秘 GPT Image 2 的出色效果引发广泛关注。研究负责人陈博远透露，其底层架构已实现彻底重构。对于是否采用扩散模型或自回归技术，他并未直接回应，而是将模型描述为“通用模型”或“图像领域的 GPT”。陈博远在社交媒体上表示，从去年 12 月底的 GPT Image 1.5 算起，仅用四个月便实现了…

2026年4月23日

411000

AI产业动态

OpenAI发布ChatGPT Images 2.0：多语言支持、思考能力与精准控制

OpenAI 发布 ChatGPT Images 2.0：多语言支持、思考能力与精准控制（第 1/2 部分）编辑：Panda、Youli 北京时间凌晨 3 点，直播准时开始，OpenAI 正式发布了 ChatGPT Images 2.0。据介绍，「ChatGPT Images 2.0 是下一步进化：一个最先进的模型，能够处理复杂的视觉任务，并生成精确、可…

2026年4月22日

701000

AI产品库

ChatGPT Images 2.0正式发布：一句话生成以假乱真的截图和海报

比 Nano Banana 更超神的 GPT-Image-2，刚刚正式发布！请注意，这不是截图，这不是截图：输入提示词“生成一张和 GPT 的对话截图”，你就能得到：再看一眼这样的 TikTok 短视频截图：这谁还能分得清是真是假？关键是没给参考图，提示词也非常简短：生成一张 TikTok 的妆教视频截图。官方给出的产品正式名称是 ChatGPT…

2026年4月22日

404000

AI产业动态

OpenAI GPT Image 2震撼发布：AI生图以假乱真，有图为证时代终结？

一段看似真实的网络片段在流传：埃隆·马斯克在抖音直播带货老干妈，直播间人气爆棚；他与热门游戏《GTA 6》联动，现身虚拟都市；甚至与他“心爱”的奥特曼同框。然而，这一切都是假的。没有直播，没有弹幕，游戏截图也非真实。这些足以乱真的图像，全部由 OpenAI 最新发布的图像生成模型 GPT Image 2 创建。AI 图像生成技术似乎已经跨越了一个关键门槛，…

2026年4月19日

913000

AI产品库

Luma发布Uni-1图像生成模型：统一理解与生成，中文文字渲染能力突出

上周，谷歌推出了 Nano Banana 2 模型，以其快速且经济的特性在社交平台上引发了广泛关注。与此同时，海外 AI 初创公司 Luma 发布了一款全新的图像生成模型 Uni-1。 Uni-1 是 Luma 首个将“理解”与“生成”功能统一在同一架构下的模型，旨在使 AI 不仅能够生成图像，还能更好地理解指令。例如，它可以生成极具视觉冲击力的时尚杂志…

2026年3月6日

780000

AI产业动态

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画

ArcFlow：非线性流技术实现40倍推理加速，2步生成媲美原画在图像生成领域，扩散模型通常需要数十步的迭代去噪才能生成高质量图像，这带来了高昂的计算成本，阻碍了实时应用。为了加速推理，常见的知识蒸馏方法试图将生成过程压缩到几步之内，但它们通常假设从噪声到图像的路径是一条直线，而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

2026年2月15日

382000

AI产业动态

像素级革命：何恺明团队pMF实现单步无潜空间图像生成，FID达2.22刷新效率边界

何恺明团队新论文，再次「大道至简」。此次研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病，并提出了一种用于单步、无潜空间（Latent-free）的图像生成新框架。论文标题：One-step Latent-free Image Generation with Pixel Mean Flows arXiv 地址：https://arxiv…

2026年2月3日

349000