图像生成

  • 15人团队打造全球第三图像模型:Luma Uni-1.1 API发布,成本腰斩,广告巨头已签约

    不到15人团队,打造全球第三的图像模型 一支规模不足15人的团队,成功将图像模型推向了全球前三的位置。 5月6日凌晨,Luma AI正式对外开放了其 Uni-1.1 API。 几乎在同一时间,第三方评测机构Arena.ai发布了最新的图像生成模型排行榜,榜单格局发生了剧烈变化: Luma凭借其UNI-1.1与UNI-1.1-Max模型,直接跻身全球前三,仅次…

    6天前
    27300
  • 统治AI图像生成近10年的黄金标准FID首次被拉下场当教练,全华阵容提出FD-loss实现直接优化

    统治AI图像生成近10年的黄金标准FID首次被拉下场当教练,全华阵容提出FD-loss实现直接优化 统治AI图像生成领域近十年的黄金标准,首次被拉下神坛,扮演起“教练”的角色。 这里说的是FID(Frechet Inception Distance)。 这个自2017年起沿用至今的指标,一直无法直接应用于日常模型训练。 如今,这一困境已被打破—— 来自USC…

    2026年5月4日
    14600
  • 复旦团队提出MacTok:64个Token实现图像生成SOTA,CVPR 2026 Highlight

    在视觉生成领域,提升扩散模型或自回归模型的推理效率,关键在于将图像压缩为更少量的 token。当前主流的图像分词器分为离散(如 VQ-VAE、VQ-GAN)与连续(如 KL-VAE)两派。离散分词器虽然应用广泛,但其不可求导的量化过程需要进行梯度近似,容易引入量化误差。相比之下,连续分词器摒弃了硬性的离散码本,保留了连续平滑的潜在空间,原生支持梯度优化并能容…

    2026年4月24日
    26100
  • GPT Image 2惊艳全网!OpenAI核心团队仅13人,四个月实现架构重构,揭秘图像生成新突破

    GPT Image 2 惊艳全网:架构重构与核心团队揭秘 GPT Image 2 的出色效果引发广泛关注。研究负责人陈博远透露,其底层架构已实现彻底重构。 对于是否采用扩散模型或自回归技术,他并未直接回应,而是将模型描述为“通用模型”或“图像领域的 GPT”。 陈博远在社交媒体上表示,从去年 12 月底的 GPT Image 1.5 算起,仅用四个月便实现了…

    2026年4月23日
    41100
  • OpenAI发布ChatGPT Images 2.0:多语言支持、思考能力与精准控制

    OpenAI 发布 ChatGPT Images 2.0:多语言支持、思考能力与精准控制(第 1/2 部分) 编辑:Panda、Youli 北京时间凌晨 3 点,直播准时开始,OpenAI 正式发布了 ChatGPT Images 2.0。 据介绍,「ChatGPT Images 2.0 是下一步进化:一个最先进的模型,能够处理复杂的视觉任务,并生成精确、可…

    2026年4月22日
    70100
  • ChatGPT Images 2.0正式发布:一句话生成以假乱真的截图和海报

    比 Nano Banana 更超神的 GPT-Image-2,刚刚正式发布! 请注意,这不是截图,这不是截图: 输入提示词“生成一张和 GPT 的对话截图”,你就能得到: 再看一眼这样的 TikTok 短视频截图: 这谁还能分得清是真是假?关键是 没给参考图,提示词也非常简短:生成一张 TikTok 的妆教视频截图。 官方给出的产品正式名称是 ChatGPT…

    2026年4月22日
    40400
  • OpenAI GPT Image 2震撼发布:AI生图以假乱真,有图为证时代终结?

    一段看似真实的网络片段在流传:埃隆·马斯克在抖音直播带货老干妈,直播间人气爆棚;他与热门游戏《GTA 6》联动,现身虚拟都市;甚至与他“心爱”的奥特曼同框。 然而,这一切都是假的。没有直播,没有弹幕,游戏截图也非真实。这些足以乱真的图像,全部由 OpenAI 最新发布的图像生成模型 GPT Image 2 创建。AI 图像生成技术似乎已经跨越了一个关键门槛,…

    2026年4月19日
    91300
  • Luma发布Uni-1图像生成模型:统一理解与生成,中文文字渲染能力突出

    上周,谷歌推出了 Nano Banana 2 模型,以其快速且经济的特性在社交平台上引发了广泛关注。 与此同时,海外 AI 初创公司 Luma 发布了一款全新的图像生成模型 Uni-1。 Uni-1 是 Luma 首个将“理解”与“生成”功能统一在同一架构下的模型,旨在使 AI 不仅能够生成图像,还能更好地理解指令。 例如,它可以生成极具视觉冲击力的时尚杂志…

    2026年3月6日
    78000
  • ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画

    ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画 在图像生成领域,扩散模型通常需要数十步的迭代去噪才能生成高质量图像,这带来了高昂的计算成本,阻碍了实时应用。为了加速推理,常见的知识蒸馏方法试图将生成过程压缩到几步之内,但它们通常假设从噪声到图像的路径是一条直线,而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

    2026年2月15日
    38200
  • 像素级革命:何恺明团队pMF实现单步无潜空间图像生成,FID达2.22刷新效率边界

    何恺明团队新论文,再次「大道至简」。 此次研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病,并提出了一种用于单步、无潜空间(Latent-free)的图像生成新框架。 论文标题:One-step Latent-free Image Generation with Pixel Mean Flows arXiv 地址:https://arxiv…

    2026年2月3日
    34900