โมเดล DreamLite ขนาด 0.39B พารามิเตอร์สำหรับอุปกรณ์ปลายทาง: โมเดลเดียวที่จัดการทั้งการสร้างภาพจากข้อความและการแก้ไขภาพ บน iPhone 17 Pro ใช้เวลาเพียง 3 วินาที

8 hours ago • วิศวกรรมโมเดลขนาดใหญ่ • 16 views

เมื่อเร็วๆ นี้ ทีม Intelligent Creation Lab ของ ByteDance ได้เปิดตัวผลงานใหม่ล่าสุด——DreamLite ซึ่งเป็นโมเดล Diffusion แบบรวมน้ำหนักเบาที่มีพารามิเตอร์เครือข่ายหลักเพียง 0.39B สามารถทำงานทั้ง Text-to-Image และ Text-guided Image Editing ได้ภายในเครือข่ายเดียว ตามข้อมูลสาธารณะ นี่คือโมเดลฝั่งอุปกรณ์ตัวแรกที่ทราบว่ามีความสามารถนี้

บน iPhone 17 Pro DreamLite ใช้เวลาเพียงประมาณ 3 วินาทีในการสร้างหรือแก้ไขภาพขนาด 1024×1024 พิกเซล โดยกระบวนการทั้งหมดทำงานบนอุปกรณ์โดยไม่ต้องพึ่งพาพลังประมวลผลจากคลาวด์ ในการทดสอบมาตรฐานหลัก เช่น GenEval, DPG, ImgEdit DreamLite มีประสิทธิภาพเหนือกว่าโมเดลฝั่งอุปกรณ์ที่มีอยู่ในปัจจุบัน และผลลัพธ์เทียบเท่ากับโมเดลฝั่งเซิร์ฟเวอร์ที่มีพารามิเตอร์มากกว่า 10 ถึง 30 เท่า

ปัจจุบัน เอกสารวิจัยและโค้ดสำหรับการอนุมานของ DreamLite ได้เปิดเป็นโอเพนซอร์สแล้ว

ลิงก์เอกสาร: https://arxiv.org/abs/2603.28713
หน้าโครงการ: https://carlofkl.github.io/dreamlite/
ลิงก์ GitHub: https://github.com/ByteVisionLab/DreamLite
Demo ออนไลน์: https://huggingface.co/spaces/carlofkl/DreamLite

เมื่อโมเดล Diffusion ต้องการ “ย้ายเข้าสู่มือถือ”: สองปัญหาหลักที่ต้องแก้ไข

เมื่อใช้โมเดลขนาดใหญ่ เช่น FLUX, HunyuanImage, Qwen-Image ในการสร้างหรือแก้ไขภาพ ผู้ใช้เริ่มคุ้นเคยกับประสบการณ์ที่ราบรื่นในการ “พิมพ์คำสั่งแล้วได้ภาพ พูดคำเดียวแล้วแก้ภาพ” อย่างไรก็ตาม เมื่อความสามารถเหล่านี้ต้องถูกนำมาใช้ในโทรศัพท์มือถือและทำงานแบบออฟไลน์ ก็ต้องเผชิญกับความท้าทายสองประการ

ปัญหาแรก: การสร้างและการแก้ไขต้องใช้สองโมเดล

ในแนวทางปัจจุบัน การสร้างภาพจากข้อความและการแก้ไขภาพมักอาศัยสอง pipeline ที่แยกจากกัน: หนึ่งสำหรับ “สร้างจากศูนย์” และอีกหนึ่งสำหรับ “ดูภาพแล้วแก้ไข” สำหรับอุปกรณ์พกพาที่มีหน่วยความจำจำกัดและพื้นที่จัดเก็บจำกัด การติดตั้งโมเดลที่มีพารามิเตอร์หลายพันล้านสองชุดพร้อมกันนั้นแทบจะเป็นไปไม่ได้

ปัญหาที่สอง: คุณภาพและความเร็ว ยากที่จะสมดุล

เมื่อโมเดลขนาดใหญ่ถูกบีบอัดให้มีขนาดที่ใช้งานได้บนฝั่งอุปกรณ์ คุณภาพการสร้างมักจะลดลงอย่างรวดเร็ว ในขณะที่หากเน้นคุณภาพของภาพและความสามารถในการทำตามคำสั่ง ความหน่วงในการอนุมานจะกลับไปสู่สถานะ “กดปุ่มแล้วรอสิบกว่าวินาที” ทำให้สูญเสียความหมายของการโต้ตอบแบบเรียลไทม์

ที่สำคัญกว่านั้น ในสถานการณ์ผลิตภัณฑ์จริง ผู้ใช้จำเป็นต้องสลับระหว่าง “สร้างภาพ” และ “แก้ไขภาพนี้” อย่างราบรื่นภายในแอปพลิเคชันเดียวกัน การใช้สองโมเดลหมายถึงการใช้หน่วยความจำสองเท่า ปริมาณการดาวน์โหลดสองเท่า และต้นทุนการบำรุงรักษาสองเท่า——บนฝั่งอุปกรณ์ ค่าใช้จ่ายนี้ฟุ่มเฟือยเป็นพิเศษ

DreamLite: หนึ่งโมเดล สองความสามารถ

แนวคิดหลักของ DreamLite นั้นตรงไปตรงมามาก: บีบอัด “การสร้าง” และ “การแก้ไข” ให้อยู่ในเครือข่ายน้ำหนักเบาเพียงเครือข่ายเดียว แทนที่จะฝึกสองโมเดลแยกกัน ทีมงานได้ออกแบบองค์ประกอบสำคัญสามประการตามแนวคิดนี้

1. การต่อเชื่อมเชิงพื้นที่แบบ In-Context: ใช้ “ตัวยึดตำแหน่ง” เพื่อรวมสองประเภทงาน

DreamLite แทรกกลไกการฉีดเงื่อนไขแบบ in-context ในมิติพื้นที่บนแกนหลัก U-Net ของ SDXL ที่ถูกตัดแต่ง โดยเฉพาะอย่างยิ่ง อินพุตของโมเดลจะเป็นคู่ของตัวแปรแฝงที่ต่อกันด้านซ้ายและขวาเสมอ สำหรับการสร้างภาพจากข้อความ ภาพอ้างอิงด้านขวาที่ป้อนจะเป็นภาพดำล้วนที่ใช้เป็นตัวยึดตำแหน่ง ซึ่งเทียบเท่ากับ “ไม่มีเงื่อนไขทางภาพ” สำหรับการแก้ไข ภาพอ้างอิงที่ป้อนจะเป็นภาพต้นฉบับที่ต้องการแก้ไข

在此基础上，团队还在文本 prompt 前插入显式任务 token（[Generate] 或 [Edit]），作为一种零参数的任务路由信号。这样一来，同一个 U-Net 就能根据输入自动分辨当前是“文生图”还是“编辑”，无需新增任何分支、适配器或额外模块，天然适配紧凑主干。

2. Task-Progressive Joint Pretraining（渐进式联合预训练）

直接联合训练生成和编辑任务会导致小模型的训练不稳定。团队提出了分阶段的渐进式策略：

阶段一｜T2I 预训练：利用大规模图文数据，以及经典文生图范式，训练模型的生成能力；
阶段二｜编辑预训练：激活 in-context 条件，让模型在保留原图结构的前提下，学会“指令编辑”；
阶段三｜统一联合预训练：在同一 in-context 范式下继续联合优化生成与编辑。

这种分阶段策略，使一个0.39B的小模型也能稳定习得“生成+编辑”双重能力。

3. RLHF 对齐 + DMD2 步数蒸馏

预训练之后，DreamLite 还经历了两轮“打磨”：

高质量 SFT + RLHF 对齐：在精选高质量数据上监督微调，再通过强化学习做偏好对齐。生成任务以 HPSv3 作为 reward model，编辑任务以 EditReward 作为 reward model，并采用 ReFL 完成扩散模型的偏好优化。这一步显著提升了美学质量和指令跟随能力。
DMD2 步数蒸馏：通过 Distribution Matching Distillation 2，将采样步数从数十步压缩到仅4步。

两者叠加，使 DreamLite 真正具备了“端侧实时”的现实可行性。最后通过量化和部署，实现在手机端生成/编辑。

实验结果：跻身轻量化模型第一梯队

1. 指标：同级压制，越级对标

在文生图侧，DreamLite 在 GenEval 拿到0.72、DPG 拿到85.8；在图像编辑侧，在 ImgEdit 拿到4.11、GEdit 拿到6.88。在一众基线的对比中，DreamLite 作为端侧模型，不仅领先于 SnapGen、SANA 等轻量级单任务模型，与参数量高出其10至30倍的服务端统一模型（如 FLUX、OmniGen2）相比，也展现出了极具竞争力的表现。

2. 手机实机演示：全程离线、无需联网

在 iPhone 17 Pro 的实机演示中，DreamLite 可稳定支持以下典型工作流：

人像生成 + 风格迁移：先生成人像写真，再一键转换为油画风格；
风景生成 + 背景替换：先生成自然风景，再完成冬夏的季节切换；
商品场景 + 增删替换：生成日常桌面场景，灵活替换物体。

完整流程全程端侧运行、无需联网、用户数据不出设备，对隐私敏感场景尤其友好。

意义与展望

DreamLite 为端侧生成式 AI 的落地提供了一条相当工程化、也相当有说服力的路径：

一个模型替代两个：统一生成与编辑，直接砍掉端侧“双模型部署”的内存、存储与调度开销；
4步出图、秒级可用：DMD2 步数蒸馏让实时交互成为可能，真正贴合 App 级别的产品体验；
完全端侧、零数据外传：所有计算在设备本地完成，既降低云端推理成本，又从根本上规避了用户数据上传带来的隐私风险；
硬件门槛大幅降低：0.39B 主干意味着在更广泛的中低端设备上，也有机会享受到扩散模型级别的创作能力。

DreamLite 的意义，不只是“在手机上又能跑一个扩散模型”。它更像是在回答一个更根本的问题：当扩散模型进入生产级的移动端时代，“生成”和“编辑”能否作为同一个能力、由同一个小模型来承担？

随着端侧算力的持续提升、模型组件的持续轻量化，像 DreamLite 这样的轻量统一模型，很可能成为 AI 创作工具走向大规模、人人可用的关键一步——把生成式 AI 从“云端算力密集型服务”，变成“口袋里随时可用的画板”。

本文内容版权归属原作者。

如需转载，请通过本公众号联系获取授权。

投稿或寻求报道，请联系邮箱：liyazhou@jiqizhixin.com

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34439

Like (0)

0 0

ตำนานสร้างเศรษฐีของ OpenAI ถูกเปิดเผย: พนักงานเฉลี่ยคนละ 33 ล้านดอลลาร์ Ilya ถือหุ้นมูลค่า 7 พันล้าน Brockman 30 พันล้าน

Previous 8 hours ago

ยุคฟิสิกส์ AI กับ “CUDA”: การจำลองกลายเป็นหัวใจสำคัญของข้อมูลและการประเมินผลหุ่นยนต์ได้อย่างไร?

Next 8 hours ago

วิศวกรรมโมเดลขนาดใหญ่

DeepSeek Engram ความลับของความทรงจำถูกเปิดเผย: ความทรงจำภายนอกคือ “ภาระเทียม” การปรับโครงสร้างคือกุญแจสู่ประสิทธิภาพ

คำสำคัญ: DeepSeek Engram, LLM, ความจำภายนอก, การทำให้เป็นปกติ, เส้นทางเรซิดวล ในการสร้างสรรค์สถาปัตยกรรม LLM, DeepSeek Engram ยึดถือ “การแยกการให้เหตุผลและความรู้” เป็น…

2026年4月13日
122000
วิศวกรรมโมเดลขนาดใหญ่

北航เปิดตัว Code2Bench: การประเมินแบบไดนามิกสองส่วนต่อขยาย สิ้นสุดภาพลวงตาคะแนนสูงของโมเดลรหัสขนาดใหญ่

ในการแข่งขันเพื่อวัดความสามารถในการสร้างโค้ดของโมเดลภาษาขนาดใหญ่ (LLM) ปัญหาที่รุนแรงขึ้นเรื่อยๆ กำลังปรากฏให้เห็น: เมื่อโมเดลต่างทำคะแนนได้เกือบเต็มในเกณฑ์มาตรฐานคลาสสิกอย่าง Huma…

2026年2月21日
314000
วิศวกรรมโมเดลขนาดใหญ่

คู่มือปฏิบัติการ Agentic RAG: การวิเคราะห์หกโหมดและการประยุกต์ใช้ระดับการผลิต

อธิบาย 6 รูปแบบ Agentic RAG ด้วยการแลกเปลี่ยนในการผลิตจริง การสาธิต RAG ส่วนใหญ่ทำงานได้ดีในสภาพแวดล้อมในอุดมคติ แต่เมื่อต้องเผชิญกับผู้ใช้จริง ปัญหาก็ตามมา: ค้นหาข้อมูลบริบทที่ไม่…

2026年3月1日
297000
วิศวกรรมโมเดลขนาดใหญ่

Streamo: ทำให้โมเดลวิดีโอขนาดใหญ่เรียนรู้ “เมื่อใดควรพูด” ปฏิสัมพันธ์สตรีมมิ่งเรียลไทม์ไม่สะดุดอีกต่อไป

ในขณะที่โมเดลวิดีโอขนาดใหญ่ทำคะแนนสูงขึ้นเรื่อยๆ บนเกณฑ์มาตรฐานออฟไลน์อย่าง MVBench และ VideoMME การประยุกต์ใช้ในสถานการณ์การโต้ตอบจริงกลับเผชิญกับความท้าทายหลักสองประการ: จะจัดการ…

2026年3月19日
214000
วิศวกรรมโมเดลขนาดใหญ่

Karpathy สร้าง LLM Wiki โด่งดัง: ในยุค Agent แค่แชร์ไอเดีย AI ก็สร้างคลังความรู้ส่วนตัวได้อัตโนมัติ

เมื่อเร็วๆ นี้ โครงการ “LLM Wiki” ซึ่งเป็นคลังความรู้ส่วนบุคคลที่สร้างขึ้นโดย Andrej Karpathy นักวิชาการชื่อดังในสาขาปัญญาประดิษฐ์ ได้ดึงดูดความสนใจอย่างกว้างขวางในชุมช…

2026年4月5日
273000