0.39B参数端侧模型DreamLite:一个模型搞定文生图与图像编辑,iPhone 17 Pro仅需3秒

近日,字节跳动智能创作团队(Intelligent Creation Lab)发布了一项全新成果——DreamLite。这是一个主干网络参数仅为0.39B的轻量级统一扩散模型,能够在单一网络内同时执行文生图(Text-to-Image)与图像编辑(Text-guided Image Editing)两项任务。据公开资料显示,这是目前已知首个具备此能力的端侧模型

在 iPhone 17 Pro 上,DreamLite 仅需约3秒即可完成一张1024×1024像素图像的生成或编辑,整个处理流程完全在设备端进行,无需依赖云端算力。在 GenEval、DPG、ImgEdit 等主流评测基准中,DreamLite 全面领先于现有的端侧模型,其表现甚至与参数量大10至30倍的服务端模型相当。

目前,DreamLite 的论文与推理代码已开源。

  • 论文链接:https://arxiv.org/abs/2603.28713
  • 项目主页:https://carlofkl.github.io/dreamlite/
  • GitHub 链接:https://github.com/ByteVisionLab/DreamLite
  • 在线 Demo:https://huggingface.co/spaces/carlofkl/DreamLite

当扩散模型想“搬进手机”:两大痛点亟待解决

在使用 FLUX、HunyuanImage、Qwen-Image 这类大模型进行创作或修图时,用户已逐渐习惯了“提词即生图、一句话改图”的流畅体验。然而,当这些能力真正需要进入手机、走向离线场景时,却面临两大现实挑战。

痛点一:生成与编辑,需装载两个模型

现有方案中,文生图和图像编辑通常依赖两个独立的pipeline:一个负责“从零生成”,一个负责“看图改图”。对于内存紧张、存储空间有限的移动设备而言,同时搭载两套数十亿参数的模型几乎难以承受。

痛点二:质量与速度,难以兼顾

当大模型被压缩到端侧可用的体量后,生成质量往往出现断崖式下降;而如果追求画质和指令跟随能力,推理延迟又会退回到“按下按钮等待十几秒”的状态,彻底丧失实时交互的意义。

更关键的是,在真实产品场景中,用户需要在同一套应用里无缝切换“生成一张图片”和“修改这张图片”。两个模型意味着双份的显存占用、双份的下载流量、双份的维护成本——在端侧,这种代价尤为奢侈。

DreamLite:一个模型,两种能力

DreamLite 的核心思路非常直接:将“生成”和“编辑”统一压进一个轻量级网络中,而非分别训练两个模型。围绕这一思路,团队做出了三项关键设计。

1. In-Context 空间拼接:用“占位符”统一两类任务

DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一种空间维度的 in-context 条件注入机制。具体来说,模型的输入始终是一对左右拼接的潜变量。对于文生图,输入的右侧参考图为全黑占位图,相当于“没有视觉条件”;对于编辑,输入的参考图为待编辑的原图。

在此基础上,团队还在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),作为一种零参数的任务路由信号。这样一来,同一个 U-Net 就能根据输入自动分辨当前是“文生图”还是“编辑”,无需新增任何分支、适配器或额外模块,天然适配紧凑主干。

2. Task-Progressive Joint Pretraining(渐进式联合预训练)

直接联合训练生成和编辑任务会导致小模型的训练不稳定。团队提出了分阶段的渐进式策略:

  • 阶段一|T2I 预训练:利用大规模图文数据,以及经典文生图范式,训练模型的生成能力;
  • 阶段二|编辑预训练:激活 in-context 条件,让模型在保留原图结构的前提下,学会“指令编辑”;
  • 阶段三|统一联合预训练:在同一 in-context 范式下继续联合优化生成与编辑。

这种分阶段策略,使一个0.39B的小模型也能稳定习得“生成+编辑”双重能力。

3. RLHF 对齐 + DMD2 步数蒸馏

预训练之后,DreamLite 还经历了两轮“打磨”:

  • 高质量 SFT + RLHF 对齐:在精选高质量数据上监督微调,再通过强化学习做偏好对齐。生成任务以 HPSv3 作为 reward model,编辑任务以 EditReward 作为 reward model,并采用 ReFL 完成扩散模型的偏好优化。这一步显著提升了美学质量和指令跟随能力。
  • DMD2 步数蒸馏:通过 Distribution Matching Distillation 2,将采样步数从数十步压缩到仅4步。

两者叠加,使 DreamLite 真正具备了“端侧实时”的现实可行性。最后通过量化和部署,实现在手机端生成/编辑。

实验结果:跻身轻量化模型第一梯队

1. 指标:同级压制,越级对标

在文生图侧,DreamLite 在 GenEval 拿到0.72、DPG 拿到85.8;在图像编辑侧,在 ImgEdit 拿到4.11、GEdit 拿到6.88。在一众基线的对比中,DreamLite 作为端侧模型,不仅领先于 SnapGen、SANA 等轻量级单任务模型,与参数量高出其10至30倍的服务端统一模型(如 FLUX、OmniGen2)相比,也展现出了极具竞争力的表现。

2. 手机实机演示:全程离线、无需联网

在 iPhone 17 Pro 的实机演示中,DreamLite 可稳定支持以下典型工作流:

  • 人像生成 + 风格迁移:先生成人像写真,再一键转换为油画风格;
  • 风景生成 + 背景替换:先生成自然风景,再完成冬夏的季节切换;
  • 商品场景 + 增删替换:生成日常桌面场景,灵活替换物体。

完整流程全程端侧运行、无需联网、用户数据不出设备,对隐私敏感场景尤其友好。

意义与展望

DreamLite 为端侧生成式 AI 的落地提供了一条相当工程化、也相当有说服力的路径:

  • 一个模型替代两个:统一生成与编辑,直接砍掉端侧“双模型部署”的内存、存储与调度开销;
  • 4步出图、秒级可用:DMD2 步数蒸馏让实时交互成为可能,真正贴合 App 级别的产品体验;
  • 完全端侧、零数据外传:所有计算在设备本地完成,既降低云端推理成本,又从根本上规避了用户数据上传带来的隐私风险;
  • 硬件门槛大幅降低:0.39B 主干意味着在更广泛的中低端设备上,也有机会享受到扩散模型级别的创作能力。

DreamLite 的意义,不只是“在手机上又能跑一个扩散模型”。它更像是在回答一个更根本的问题:当扩散模型进入生产级的移动端时代,“生成”和“编辑”能否作为同一个能力、由同一个小模型来承担?

随着端侧算力的持续提升、模型组件的持续轻量化,像 DreamLite 这样的轻量统一模型,很可能成为 AI 创作工具走向大规模、人人可用的关键一步——把生成式 AI 从“云端算力密集型服务”,变成“口袋里随时可用的画板”。

本文内容版权归属原作者。

如需转载,请通过本公众号联系获取授权。

投稿或寻求报道,请联系邮箱:liyazhou@jiqizhixin.com


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34438

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐

  • 告别手动造数据:5款高效生成逼真测试数据的开发者利器

    几乎每位开发者都经历过因缺少数据而测试受阻的时刻。无论是测试一个API、一个表单还是一个数据看板,如果没有足够真实的数据输入,测试结果往往缺乏参考价值。手动编造假邮箱、手机号或地址,对付几行数据尚可,一旦需要成百上千条记录,就会变成一项耗时且枯燥的苦差事。 为了进行有效的测试,我们需要结构化且逼真的应用数据。无论是验证分页逻辑的稳健性,还是观察API在面对混…

    2025年12月5日
    38100
  • 构建本体驱动GraphRAG:从数据填埋场到零噪声知识图谱的蜕变之路

    构建一个自我演进的知识图谱,它不仅能存储数据,更能理解、校验并持续演化。 gemini 在初次构建 GraphRAG 系统时,我遵循了多数教程的路径:将文档输入大语言模型(LLM),抽取实体,将生成的 JSON 导入 Neo4j,然后宣告完成。在演示环境中,一切运行完美。直到我将它应用于真实的医疗记录。 问题随之暴露。LLM 在一份报告中抽取了“John D…

    2025年12月15日
    42900
  • 深度研究智能体:从信息搜索到自主科研的演进之路

    近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的“一次检索 + 一次生成”范式,难以支撑多步推理与长期研究流程,由此催生了深度研究(Deep Research, DR)这一新方向。 然而,随着相关工作的快速涌现,DR的概念也在迅速膨胀并趋于碎片化:不同工作在系统实现…

    2026年1月1日
    44900
  • AI结对编程实战:Claude与Codex协同开发,效率提升10倍的魔法组合

    上周,我无意间组建了一支特别的开发团队。这支“团队”由我、Claude Code 和 Codex 组成,我们分坐在屏幕两侧,像两位彼此挑剔但又不得不合作的工程师。 说实话,效果堪称神奇。如果你想在不崩溃的情况下将开发速度提升一个数量级,这套组合可能是目前最接近真人结对编程体验的 AI 方案。 下面我将展示它的实际工作流程——不夸大,全是实战经验。 步骤 1:…

    2025年11月1日
    40100
  • GAN之父Ian Goodfellow携NLP先驱Chris Manning重磅发声:符号化表示与游戏数据,构建多模态世界模型的最佳路径

    沉寂许久的 Ian Goodfellow,终于再次现身。 这位提出生成对抗网络(GAN)的研究者,曾一手开启 AI 生成技术的早期浪潮。但在最近几年由大模型主导的新一轮生成式 AI 竞赛中,Goodfellow 的公开声音却并不多见。 直到最近,他与 NLP 先驱 Chris Manning 等人共同发表了一篇文章,探讨了构建多模态世界模型的新路径。 文章的…

    2026年3月8日
    27900