ทีมน้อยกว่า 15 คน สร้างโมเดลภาพอันดับสามของโลก
ทีมที่มีขนาดไม่ถึง 15 คน สามารถผลักดันโมเดลภาพให้ขึ้นสู่อันดับสามของโลกได้สำเร็จ
ในช่วงเช้าของวันที่ 6 พฤษภาคม Luma AI ได้เปิดให้บริการ Uni-1.1 API อย่างเป็นทางการ
เกือบจะในเวลาเดียวกัน หน่วยงานประเมินบุคคลที่สาม Arena.ai ได้เผยแพร่การจัดอันดับโมเดลสร้างภาพล่าสุด ซึ่งอันดับมีการเปลี่ยนแปลงอย่างรุนแรง:
Luma ด้วยโมเดล UNI-1.1 และ UNI-1.1-Max สามารถก้าวขึ้นสู่อันดับสามของโลกได้โดยตรง รองจาก OpenAI (gpt-image-2) และ Google (nano-banana-2) เท่านั้น

△ การจัดอันดับการสร้างภาพของ Arena.ai
ผู้เข้าร่วมมากมาย รวมถึง Microsoft AI, Reve, xAI ต่างถูกทิ้งไว้ข้างหลัง
คุณค่าของการจัดอันดับนี้ชัดเจนในตัวเอง Arena.ai ใช้ระบบคะแนน ELO ที่อิงจากการโหวตแบบ blind test โดยผู้ใช้ ไม่มีการประชาสัมพันธ์อย่างเป็นทางการหรือการรายงานข้อมูลด้วยตนเอง ทุกภาพถูกโหวตโดยผู้ใช้จริงโดยไม่ทราบที่มาของโมเดล โดยเลือกหนึ่งในสองผลลัพธ์ที่สร้างขึ้น
สิ่งนี้บ่งชี้โดยตรงว่า ในสถานการณ์การใช้งานจริง ความสวยงามและคุณภาพผลลัพธ์ของโมเดลภาพ Uni-1.1 ได้กลายเป็น ทางออกที่ดีที่สุดรองจาก OpenAI และ Google
พร้อมกับการเปิดตัว API และการจัดอันดับ ยังมีตัวชี้วัดที่แข็งแกร่งอีกสองประการที่น่าสนใจ:
- ราคาลดลงครึ่งหนึ่ง: ภาพเดี่ยวความละเอียด 2K เริ่มต้นเพียง $0.0404 (ประมาณ 0.2755 หยวน) ซึ่งลดลงครึ่งหนึ่งเมื่อเทียบกับโมเดลระดับ Nano Banana
- ความเร็วในการนำไปใช้ที่น่าทึ่ง: ยักษ์ใหญ่ด้านโฆษณาอย่าง Adidas, Mazda และ Publicis Groupe ได้เซ็นสัญญาใช้งานเป็นรายแรกแล้ว
ที่น่าสนใจยิ่งกว่าคือ แคมเปญโฆษณาที่เดิมมีงบประมาณ 15 ล้านดอลลาร์ ระยะเวลาหนึ่งปี ผ่าน Luma Agents ใช้เวลาเพียง 40 ชั่วโมง ใช้เงินไม่ถึง 2 หมื่นดอลลาร์ ไม่เพียงแต่ขยายเป็นเวอร์ชันท้องถิ่นหลายประเทศ แต่ยังผ่านการตรวจสอบภายในของลูกค้าได้อย่างราบรื่น
สิ่งนี้ก้าวข้ามระดับของ “ภาพวาดสวยหรือไม่สวย” ไปแล้ว
โมเดลที่รวมการอนุมานและการสร้างเข้าด้วยกัน
หลายคนเมื่อพบกับ Uni-1 ครั้งแรก อาจเข้าใจผิดว่ามันเป็นเพียงโมเดลภาพธรรมดา
แต่จุดขายหลักของการเปิดตัวครั้งนี้ของ Luma ไม่ได้อยู่ที่คุณภาพของพิกเซล แต่เป็นการที่มันรวม การอนุมาน (reasoning) และ การสร้าง (generation) ไว้ในโมเดลเดียวกันเป็นครั้งแรก
ขั้นตอนการทำงานของโมเดลภาพแบบดั้งเดิมคือ: ผู้ใช้ป้อน prompt → โมเดลสร้างภาพโดยตรง → ไม่พอใจ → แก้ไข prompt แล้วสร้างใหม่
ในกระบวนการนี้ สิ่งที่โมเดล เข้าใจ และสิ่งที่โมเดล วาด เป็นสองสิ่งที่แยกจากกัน เมื่อองค์กรใช้เครื่องมือ AI เหล่านี้เพื่อการสร้างแบรนด์ จุดปวดที่ใหญ่ที่สุดคือการควบคุมไม่ได้: ตัวละครเดียวกันเปลี่ยนไปในภาพถัดไป สีของแบรนด์คลาดเคลื่อนทุกครั้ง และสไตล์ของสื่อในแต่ละตลาดไม่เป็นเอกภาพ
แต่สถาปัตยกรรมของ Uni ได้เปลี่ยนแปลงสถานการณ์นี้อย่างสิ้นเชิง
มันใช้สถาปัตยกรรม Transformer แบบ decoder-only autoregressive โดย token ข้อความและ token ภาพใช้ลำดับเดียวกัน
ซึ่งหมายความว่า โมเดลไม่ได้ทำการแปลก่อนแล้วจึงวาด แต่ทำการอนุมานข้ามโมดัลไปพร้อมกัน เงื่อนไขบังคับ เช่น องค์ประกอบ พื้นที่ และความสอดคล้องของแบรนด์ จะถูกแก้ไขในระดับโครงสร้างก่อนที่จะสร้างพิกเซล

ในระดับ API การออกแบบนี้สะท้อนให้เห็นเป็นจุดสิ้นสุดหลักสองจุด:
- จุดสิ้นสุด Reasoning: รับผิดชอบในการวิเคราะห์คำสั่ง วางแผนองค์ประกอบ และล็อกข้อจำกัดของแบรนด์/ตัวละคร/ผลิตภัณฑ์
- จุดสิ้นสุด Generation: ดำเนินการเรนเดอร์พิกเซลบนพื้นฐานของผลลัพธ์การอนุมาน
ความสำคัญทางอุตสาหกรรมของการออกแบบนี้คือ มันเปลี่ยนการควบคุมความคิดสร้างสรรค์จาก “ศาสตร์แห่งความไม่แน่นอน” อย่างวิศวกรรม prompt ให้เป็นสัญญา API ที่สามารถเขียนลงในกระบวนการผลิตได้
ใครกำลังใช้งาน: ยักษ์ใหญ่โฆษณา, แบรนด์กีฬา, แพลตฟอร์มสื่อ
Luma ไม่ได้วางตำแหน่ง Uni-1.1 เป็นเพียงของเล่นสำหรับนักพัฒนา แต่ได้เปิดเผยรายชื่อลูกค้าองค์กรโดยตรง
1. สาขาโฆษณาและการตลาด
Publicis Groupe (กลุ่มบริษัทโฆษณาและสื่อสารชั้นนำของโลก) และ Serviceplan (กลุ่มเอเจนซี่โฆษณาอิสระที่ใหญ่ที่สุดในยุโรป):
พวกเขาได้ปรับใช้ Luma Agents (ซึ่งใช้ Uni-1.1) ในกระบวนการทั้งหมดตั้งแต่กลยุทธ์ การพัฒนาความคิดสร้างสรรค์ ไปจนถึงการผลิต
กรณีศึกษาที่ถูกอ้างถึงบ่อยครั้งคือ แคมเปญโฆษณาของแบรนด์หนึ่งที่เดิมมีแผนใช้เงิน 15 ล้านดอลลาร์ ระยะเวลาหนึ่งปี ผ่าน Luma Agents ใช้เวลาเพียง 40 ชั่วโมง ใช้เงินไม่ถึง 2 หมื่นดอลลาร์ (ประมาณ 136,000 หยวน) ก็ขยายเป็นเวอร์ชันท้องถิ่นหลายประเทศ และผ่านการตรวจสอบคุณภาพภายในของลูกค้าได้อย่างราบรื่น
Adidas, Mazda:
แบรนด์เหล่านี้ได้เชื่อมต่อ Uni-1.1 เข้ากับสายการผลิตเนื้อหาของตน เพื่อการสร้างสื่อภาพในปริมาณมากข้ามตลาดและการรักษาความสอดคล้อง
2. ระบบนิเวศสื่อและนักพัฒนา
Envato, Comfy, Runware, Flora, Krea, Magnific, Fal, LovArt และแพลตฟอร์มครีเอเตอร์และบริษัทเวิร์กโฟลว์ AI อื่นๆ ได้เผยแพร่โซลูชันแบบบูรณาการบนพื้นฐานของ Uni-1.1 API
ผู้ก่อตั้งและ CEO ของ Luma, Amit Jain สรุปเรื่องนี้ว่า:
คิดด้วยภาษา จินตนาการและเรนเดอร์ด้วยพิกเซล นี่คือความฉลาดในพิกเซล (intelligence in pixels)
สามทิศทางการประยุกต์ใช้ที่ได้รับการยืนยันจากอุตสาหกรรมเป็นรายแรก
จากการอนุมานย้อนหลังจากกรณีลูกค้าที่นำไปใช้แล้ว Uni-1.1 API ได้แสดงโมเดล ROI ที่ชัดเจนในสามทิศทางต่อไปนี้:
1. การปรับใช้โฆษณาในท้องถิ่น
ภาพหลักของโฆษณาที่ถ่ายทำในนิวยอร์ก จำเป็นต้องเผยแพร่ในโตเกียว ริยาด ปารีส และเซี่ยงไฮ้ คนละเวอร์ชัน
กระบวนการดั้งเดิมต้องถ่ายทำใหม่ ตกแต่งภาพใหม่ และตรวจสอบการปฏิบัติตามข้อกำหนดใหม่ งบประมาณต่อชิ้นมีตั้งแต่หลายหมื่นถึงหลายแสนดอลลาร์
การเรียก API Uni-1.1 ครั้งเดียว รองรับภาพอ้างอิงสูงสุด 9 ภาพ ป้อนร่วมกัน โดยส่งผ่านภาพหลักของแบรนด์ ข้อความ ผลิตภัณฑ์ และองค์ประกอบภูมิภาคเป็นข้อจำกัดแข็งในระดับโมเดล การเรนเดอร์หลายภาษา (รวมถึงอักขระที่ไม่ใช่ละติน เช่น จีนและอาหรับ) เสร็จในครั้งเดียว
ช่องว่างมหาศาลระหว่าง 40 ชั่วโมงกับหนึ่งปีในกรณีของ Publicis เกิดขึ้นจากจุดนี้
2. การแสดงสินค้าอีคอมเมิร์ซและการมองเห็นผลิตภัณฑ์
จุดปวดของสถานการณ์อีคอมเมิร์ซคือปริมาณมาก SKU หลากหลาย พร้อมกับต้องรักษาความสอดคล้องของผลิตภัณฑ์เอง
นักพัฒนาสามารถป้อนภาพผลิตภัณฑ์ ตัวอย่างผ้า และภาพอ้างอิงฉากเข้าสู่ API พร้อมกัน โดยต้นทุนต่อภาพต่ำสุด $0.0404 ทำให้สามารถสร้างภาพผลิตภัณฑ์แบบเรียลไทม์ตามหน้าเว็บ ตามผู้ใช้ หรือตามภูมิภาค แทนที่จะถ่ายครั้งเดียวแล้วใช้เทมเพลตซ้ำ
Luma เรียกการใช้งานนี้ว่า reference-grounded brand workflows at scale ซึ่งหมายถึงการใช้ภาพอ้างอิงเป็นข้อจำกัดระดับโมเดลเพื่อล็อกเอกลักษณ์ทางภาพในทุกช่องทาง
3. ความสอดคล้องของตัวละครและ IP
งานโปรโมทเกม การ์ตูน งานก่อนการผลิตภาพยนตร์ และพรีเซ็นเตอร์เสมือนจริง — สถานการณ์เหล่านี้ต้องการให้ตัวละครเดียวกันผ่านฉาก ท่าทาง และแสงที่แตกต่างกัน แต่ข้อมูลประจำตัวต้องคงที่สูง
กลไกภาพอ้างอิงหลายภาพของ Uni-1.1 รวมกับการแก้ไขระดับประโยค (แก้ไขภาพตามประโยค โดยคงองค์ประกอบอื่นไว้เป็นค่าเริ่มต้น) ทำให้สิ่งนี้สามารถเปลี่ยนเป็นสายการผลิตที่แน่นอน แทนที่จะเป็นการสุ่มซ้ำแล้วซ้ำเล่า
ภาพรวมความสามารถ: 3 ตัวอย่าง เพื่อดูขอบเขต
สร้าง ‘เว็บไซต์ข่าวปี 2036’ ทั้งหน้าในภาพเดียว
Prompt: Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

ภาพเดียวสามารถทดสอบ “คุณภาพที่แท้จริง” ของโมเดลได้ —
Uni-1.1 อนุมานครั้งเดียวสร้างเว็บไซต์ข่าวที่อ่านได้ทั้งหน้า:
รวมถึงหัวหนังสือพิมพ์ แถบนำทาง แถบข่าวด่วน ภาพหลักหัวข้อข่าว เนื้อหาหลายคอลัมน์ ลายเซ็น/ประทับเวลา ตำแหน่งโฆษณาแบนเนอร์ที่ออกแบบสำหรับผู้ชม AI และลิงก์ท้ายหน้า องค์ประกอบเลย์เอาต์มากกว่าสิบประเภทอยู่ในเฟรมเดียวกัน และข้อความภาษาอังกฤษทุกประเภทอ่านได้จริง
นี่ไม่ใช่กรณีที่พบบ่อยในโมเดลภาพที่ “ดูดีแต่พอใกล้ดูเป็นรหัสล้วน”
งานเลย์เอาต์ที่ซับซ้อนและข้อความยาวเช่นนี้ ในกระบวนการดั้งเดิมต้องใช้โมดูลหลายตัว เช่น การแก้ไขข้อความ ความสอดคล้องของ OCR และโครงสร้างเลย์เอาต์ร่วมกัน แต่ Uni-1.1 รวมพวกมันไว้ในการอนุมานครั้งเดียว
ภาพอ้างอิงหลายภาพ + โลโก้แบรนด์ + การผสานคนจริง

แมวสองตัว + คนจริงหนึ่งคน + โลโก้ Luma ภาพอ้างอิง 4 ภาพผสานเป็นฉากประชุมที่มีตรรกะ
GPT Image 1.5 ฝังภาพอ้างอิงเป็นสติกเกอร์ลงในพื้นที่ PPT โดยตรง ในขณะที่ Uni-1 ผสานในระดับความหมาย ซึ่งเป็นความต้องการที่พบบ่อยที่สุดในโฆษณาแบรนด์ที่รวมผลิตภัณฑ์ + พรีเซ็นเตอร์ + ฉาก + โลโก้
การแก้ไขหลายรอบ: แก้สามครั้งไม่สูญเสียวัตถุหลัก

เอาหมีตัวหน้าออก → เพิ่มม่านดำ → เปลี่ยนเป็นภาพขาวดำ คำสั่งสามรอบซ้อนกัน ความสอดคล้องของวัตถุหลักและความสัมพันธ์เชิงพื้นที่ ไม่ถูกทำลายในแต่ละรอบ
นี่คือความสามารถที่มีค่าที่สุดของ การแก้ไขตามประโยค ในสภาพแวดล้อมการผลิต ผู้จัดการผลิตภัณฑ์สามารถทำซ้ำเนื้อหาภาพได้เหมือนกับการแก้ไขเอกสาร
กลยุทธ์ราคา: ลดต้นทุนส่วนเพิ่มของการสร้างภาพให้ต่ำเป็นประวัติการณ์
Luma เสนอแผนการคิดค่าบริการที่ชัดเจนสองระดับสำหรับผู้ใช้ API:
แผน Build (คิดค่าบริการตามการใช้งานจริง)

แผน Scale (สำรองความสามารถในการรับส่งข้อมูล ขั้นต่ำ 8 หน่วย)

Luma ประกาศอย่างเป็นทางการว่าราคาและความหน่วงของตน ต่ำกว่าครึ่งหนึ่งของคู่แข่งที่คล้ายคลึงกัน ข้อกล่าวอ้างนี้ได้รับการยืนยันจากข้อมูลการเปรียบเทียบต้นทุนของการจัดอันดับบุคคลที่สามและลูกค้าที่เชื่อมต่อในช่วงแรก
SDK รองรับภาษาโปรแกรมหลักอย่าง Python, JavaScript, TypeScript, Go และ CLI อย่างเต็มรูปแบบ นักพัฒนาเพียงรับคีย์ API จาก platform.lumalabs.ai ก็สามารถเชื่อมต่อได้อย่างรวดเร็ว
ทีมขนาดไม่ถึง 15 คน แต่ก้าวสู่อันดับสามของโลก: นำโดยบิดาแห่ง DDIM และผู้ชนะรางวัล CVPR Best Paper
ทีมวิจัยหลักของ Uni-1 มีเพียงไม่ถึง 15 คน นำโดยนักวิชาการเชื้อสายจีนสองคน:
- Jiaming Song: ปริญญาตรีจาก Tsinghua University, ปริญญาเอกจาก Stanford University ผลงานตัวแทนของเขา DDIM (Denoising Diffusion Implicit Models) เป็นหนึ่งในงานพื้นฐานที่เร่งการสุ่มตัวอย่างโมเดลการแพร่ และถูกใช้อย่างแพร่หลายในระบบหลักอย่าง Stable Diffusion และ DALL·E
- William Shen: ปริญญาตรีและปริญญาเอกจาก Stanford University ผลงานตัวแทนของเขาได้รับรางวัล CVPR 2018 Best Paper Award และ RSS 2022 Best Student Paper Award
คนหนึ่งเชี่ยวชาญด้านเทคโนโลยี “การสร้าง” อีกคนเชี่ยวชาญด้านความสามารถ “ความเข้าใจ”
การผสมผสานที่เสริมกันนี้ สะท้อนแนวคิดการออกแบบสถาปัตยกรรม “สมองและมือเป็นหนึ่งเดียว” ของ Uni-1.1 อย่างแม่นยำ — ให้โมเดลเรียนรู้ที่จะคิดเกี่ยวกับองค์ประกอบและตรรกะของแบรนด์เหมือนมนุษย์ ก่อนที่จะลงมือวาดภาพ

ในเส้นทางการสร้างภาพที่นำโดย Google และ OpenAI ทีมที่มีไม่ถึง 15 คน ไม่เพียงแต่ลดราคา API ลงเหลือครึ่งหนึ่งของคู่แข่ง แต่ยังประสบความสำเร็จในการ “แซงหน้าข้ามระดับ” ยักษ์ใหญ่ในอุตสาหกรรมหลายรายในการจัดอันดับ Arena.ai นี่คือสัญญาณทางอุตสาหกรรมอีกประการที่ควรค่าแก่การสังเกตในการเปิดตัวครั้งนี้
ก่อนและหลังการเปิดตัว API ทีม Luma ได้โพสต์ความคิดเห็นสั้น ๆ สามรายการบนแพลตฟอร์ม X:
หัวหน้านักวิทยาศาสตร์ของ Luma, Jiaming Song กล่าวว่า:
ขนาดพลังการคำนวณที่เราใช้จริงอาจทำให้คุณประหลาดใจ ฉันภูมิใจในทีมของเรา
(รายงานรายละเอียดเพิ่มเติมจะเผยแพร่เร็ว ๆ นี้)
หัวหน้าการวิจัย Uni-1, William Shen กล่าวว่า:
การเปิดตัวครั้งแรกของ UNI-1 ทำให้เราเป็นห้องปฏิบัติการที่มีอันดับสูงสุดรองจาก OpenAI และ Gemini App สำหรับโมเดลภาพแบบครบวงจรรุ่นแรก นี่เป็นจุดเริ่มต้นที่ดีทีเดียว อย่างไรก็ตาม ในการอัปเดตอันดับครั้งนี้ คะแนน ELO ของ GPT Image 2 ลดลง 110 คะแนนเมื่อเทียบกับก่อนหน้านี้ สาเหตุที่แน่ชัดยังไม่ทราบ
หัวหน้าผลิตภัณฑ์โมเดลของ Luma, Barkley Dai กล่าวว่า:
Luma ปัจจุบันอยู่อันดับสามใน Arena.ai มีความฉลาดระดับ GPT-Image 2 มีความสวยงามระดับ Midjourney ในขณะที่ราคาเป็นเพียงเศษเสี้ยวของ Nano Banana
นัยแฝงร่วมของความคิดเห็นทั้งสามนี้คือ: Uni-1.1 เป็นผลิตภัณฑ์แรกของเส้นทางความฉลาดแบบครบวงจรของ Luma
และมันในฐานะผลิตภัณฑ์รุ่นแรก ได้พุ่งตรงสู่อันดับสามของ Arena.ai และลดราคาลงเหลือครึ่งหนึ่งของคู่แข่งที่คล้ายคลึงกัน
แผนในอนาคต: จากภาพนิ่งสู่กระแสต่อเนื่องของ “ดู พูด อนุมาน จินตนาการ”
ตามแผนงานของ Luma Uni-1.1 เป็นเพียงรูปแบบการนำไปใช้ครั้งแรกของเส้นทาง “ความฉลาดแบบครบวงจร”
ขั้นตอนต่อไป พวกเขาจะขยายกรอบงานแบบครบวงจรนี้จากภาพนิ่งไปสู่ วิดีโอ เสียง และการจำลองโลกแบบโต้ตอบ —
เป้าหมายคือการสร้างระบบมัลติโมดัลที่สามารถบรรลุ “ดู พูด อนุมาน จินตนาการ” ในกระแสต่อเนื่อง
CEO ของ Luma, Amit Jain สรุปเรื่องนี้ว่า:
คุณค่าที่แท้จริงของความฉลาดแบบครบวงจร ไม่ใช่การสร้างภาพที่สวยงามมากขึ้น แต่เมื่อโมเดลมีความสามารถทั้งความเข้าใจและการสร้างพร้อมกัน AI จึงจะมีความสามารถในการทำงานสร้างสรรค์แบบ end-to-end ได้อย่างแท้จริงเป็นครั้งแรก
ทางเข้า API: lumalabs.ai/api
ประกาศอย่างเป็นทางการ: lumalabs.ai/news/uni-1-1-api
เอกสารการเชื่อมต่อ: platform.lumalabs.ai
SDK: Python/JavaScript/TypeScript/Go/CLI
บทความนี้ได้รับอนุญาตให้ตีพิมพ์จาก QuantumBit มุมมองเป็นของผู้เขียนต้นฉบับเท่านั้น
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33469
