เมื่อสัปดาห์ที่แล้ว กูเกิลเปิดตัวโมเดล Nano Banana 2 ซึ่งได้รับความสนใจอย่างกว้างขวางบนแพลตฟอร์มโซเชียลมีเดีย เนื่องจากมีความเร็วและประหยัดต้นทุน
ในเวลาเดียวกัน บริษัทสตาร์ทอัพ AI จากต่างประเทศอย่าง Luma ได้เปิดตัวโมเดลสร้างภาพใหม่ล่าสุดชื่อ Uni-1

Uni-1 เป็นโมเดลแรกของ Luma ที่รวมความสามารถ “การเข้าใจ” และ “การสร้างสรรค์” ไว้ในสถาปัตยกรรมเดียวกัน โดยมีเป้าหมายทำให้ AI ไม่เพียงแต่สร้างภาพได้ แต่ยังเข้าใจคำสั่งได้ดีขึ้น
ตัวอย่างเช่น มันสามารถสร้างภาพแฟชั่นแมกกาซีนที่โดดเด่นและมีพลังทางสายตาได้:

Prompt: ภาพบุคคลมองจากด้านหลัง สวมเสื้อคลุมสีขาวพลิ้วไหวและหมวกปีกกว้างสีดำ ยืนอยู่กลางทุ่งหญ้าสีแดงสดสูงตระหง่าน เนินเขาลูกคลื่นทอดยาวไปจนถึงขอบฟ้า ท้องฟ้าสีน้ำเงินเข้มไร้เมฆ ความคมชัดของสีที่เข้มข้นระหว่างทุ่งหญ้าสีแดง ผ้าสีขาว และท้องฟ้าสีน้ำเงิน ถ่ายด้วยฟิล์มฟอร์แมตกลาง สุนทรียภาพการถ่ายภาพอินฟราเรด รู้สึกเหมือนงานบรรณาธิการแฟชั่นระดับสูง เงาที่คมชัด แนวตั้ง
หรือสร้างภาพที่แสดงการเปลี่ยนแปลงของต้นซากุระต้นเดียวกันตลอดทั้งสี่ฤดูกาล:

Prompt: สี่ฤดูกาลของต้นซากุระต้นเดียวแสดงพร้อมกันในภาพเดียว แบ่งเป็นสี่แถบแนวตั้งจากซ้ายไปขวา: ฤดูใบไม้ผลิที่มีดอกซากุระสีชมพูและฝนตก ฤดูร้อนที่มีพุ่มไม้สีเขียวเต็มต้นและผีเสื้อ ฤดูใบไม้ร่วงที่มีใบไม้สีแดงและทองร่วงหล่น ฤดูหนาวที่มีกิ่งก้านเปล่าและหิมะสดใหม่ ต้นเดียวกัน มุมเดียวกัน การเปลี่ยนผ่านระหว่างฤดูกาลที่ไร้รอยต่อ
โมเดลนี้ใช้สถาปัตยกรรม Transformer แบบ Autoregressive แบบ Decoder-only ได้รับคะแนนนำในแบบทดสอบมาตรฐานการสร้างแบบใช้เหตุผล RISEBench และแสดงความสามารถแข่งขันที่แข็งแกร่งในงานด้านความเข้าใจ เช่น การตรวจจับแบบหนาแน่นด้วยคำศัพท์เปิด ODinW-13
ต่อไปนี้คือการเปรียบเทียบประสิทธิภาพของ Uni-1 กับ GPT Image 1.5 และ Google Nano Banana Pro ภายใต้คำสั่งเดียวกัน ผ่านงานหลายกลุ่ม
การเรนเดอร์ข้อความภาษาจีน: การ์ดอวยพรปีใหม่ปีม้า

Prompt: สร้างการ์ดอวยพรปีใหม่ปีม้าที่มีข้อความภาษาจีนเช่น “新春快乐” (สุขสันต์ปีใหม่), “马年大吉・万事如意” (ปีม้ามงคล・สมปรารถนาทุกประการ), “马年 二〇二六” (ปีม้า 2026)
การเรนเดอร์ข้อความภาษาจีนเป็นความท้าทายสำหรับโมเดลสร้างภาพเสมอ เนื่องจากเกี่ยวข้องกับการควบคุมที่แม่นยำในระดับตัวอักษรและการเข้าใจความหมายของการจัดวาง Uni-1 สร้างการ์ดอวยพรที่มีข้อความสมบูรณ์ การจัดวางที่สมเหตุสมผล และความสม่ำเสมอของสไตล์ภาพที่ดีกว่าโมเดลเปรียบเทียบ GPT Image 1.5 มีปัญหาการจัดเรียงข้อความที่สับสน ในขณะที่ Nano Banana Pro มีข้อบกพร่องในการเรนเดอร์เส้นขีดของตัวอักษรอย่างชัดเจน
การเข้าใจและสร้างอินโฟกราฟิก
การแยกโปสเตอร์เป็นอินโฟกราฟิก

Prompt: แยกโปสเตอร์รณรงค์ “THE BEES NEED YOU” เป็นอินโฟกราฟิกที่พร้อมใช้สำหรับการผลิต สร้างภาพสมบูรณ์โดยตรง โดยไม่มีกรอบตัวยึดใดๆ อธิบายข้อความทั้งหมดที่มองเห็นในอินโฟกราฟิกอย่างชัดเจน
งานนี้ทดสอบทั้งความสามารถในการเข้าใจภาพ (แยกข้อความและข้อมูลการจัดวางจากโปสเตอร์ได้อย่างแม่นยำ) และความสามารถในการสร้างสรรค์ (จัดระเบียบใหม่เป็นอินโฟกราฟิกที่ชัดเจน) Uni-1 คืนค่าข้อความได้อย่างถูกต้องและรักษาโครงสร้างลำดับชั้นที่เหมาะสม ในขณะที่ GPT Image 1.5 สับสนลำดับชั้นของข้อความ ทำให้บางส่วนอ่านยาก ส่วน Nano Banana Pro ไม่สามารถนำเสนอเนื้อหาอินโฟกราฟิกได้ครบถ้วน
อินโฟกราฟิกที่มีข้อความหนาแน่น

Prompt: สร้างอินโฟกราฟิกที่มีข้อความหนาแน่นเกี่ยวกับ {Clepsydra (นาฬิกาน้ำ) กับการบอกเวลาโบราณ} ประกอบด้วยบล็อกความรู้หลายส่วนและภาพประกอบละเอียด
งานนี้ต้องการให้โมเดลประมวลผลข้อความจำนวนมาก แผนภูมิ และองค์ประกอบภาพประกอบพร้อมกันในภาพเดียว Uni-1 มีประสิทธิภาพดีกว่าโมเดลอื่นในด้านการวางแผนโครงร่าง ความชัดเจนของข้อความ และการประสานงานระหว่างภาพและข้อความ อินโฟกราฟิกที่สร้างขึ้นรักษาลำดับชั้นภาพและความต่อเนื่องทางตรรกะระหว่างบล็อกความรู้ต่างๆ
อินโฟกราฟิกแบบเรียงต่อกัน (Tiled Infographic)

Prompt: สร้างอินโฟกราฟิกแบบเรียงต่อกันของ “วัฏจักรชีวิตจากเมล็ดสู่พืช” (Seed-to-Plant Life Cycle)
Uni-1 นำเสนอขั้นตอนของวัฏจักรชีวิตที่สมบูรณ์ได้อย่างแม่นยำ ภาพประกอบและข้อความกำกับในแต่ละขั้นตอนชัดเจนและอ่านได้ สิ่งที่น่าสังเกตคือ เมื่อประมวลผลขั้นตอนการเปลี่ยนผ่านจาก “Young Plant” ไปสู่ “Mature Plant” Uni-1 นำเสนอความสัมพันธ์การเปลี่ยนแปลงรูปร่างของพืชได้อย่างถูกต้อง แสดงให้เห็นถึงความเข้าใจในความรู้ทั่วไปทางชีววิทยา
การสร้างโดยใช้ภาพอ้างอิงเป็นแนวทาง
การสังเคราะห์ฉากด้วยภาพอ้างอิงหลายภาพ

Prompt: จากภาพอ้างอิง 4 ภาพ (รูปลักษณ์ของแมวสองตัว, รูปถ่ายบุคคลจริงหนึ่งรูป, โลโก้ของ Luma AI) สังเคราะห์ฉากการประชุมอภิปราย — แมวตัวหนึ่งกำลังนำเสนอสไลด์เกี่ยวกับ Luma AI อีกตัวหนึ่งกำลังนั่งฟัง พร้อมทั้งผสานรูปถ่ายบุคคลจริงและโลโก้แบรนด์เข้าไปด้วย
งานนี้ต้องการให้โมเดลเข้าใจอัตลักษณ์เชิงความหมายของภาพอ้างอิงหลายภาพพร้อมกัน และจัดระเบียบพวกมันอย่างสมเหตุสมผลในฉากใหม่ Uni-1 รักษาลักษณะเฉพาะอัตลักษณ์ของวัตถุอ้างอิงแต่ละอย่างได้อย่างแม่นยำ และสร้างองค์ประกอบฉากที่สมเหตุสมผล ในทางตรงกันข้าม GPT Image 1.5 แทรกภาพต้นฉบับจากภาพอ้างอิงลงในพื้นที่สไลด์โดยตรง ขาดการผสานในระดับความหมาย ส่วน Nano Banana Pro ไม่สามารถใช้ข้อมูลอ้างอิงทั้งหมดได้อย่างมีประสิทธิภาพ
การสังเคราะห์ฉากด้วยภาพอ้างอิง 5 ภาพ

Prompt: ผสานภาพอ้างอิง 5 ภาพ — สัตว์ 3 ตัว, โลโก้หนึ่งอัน และหมวกครุยวิทยฐานะ — เข้าด้วยกันเป็นฉากที่ต่อเนื่องกัน
เมื่อประมวลผลแหล่งอ้างอิงที่แตกต่างกัน 5 แหล่ง Uni-1 รักษาลักษณะเฉพาะอัตลักษณ์ของสัตว์แต่ละตัวได้อย่างแม่นยำ (ลวดลายและสีขน, พันธุ์, โครงร่างหัว) ในขณะเดียวกันก็ผสานองค์ประกอบบรรยากาศทางวิชาการและโลโก้แบรนด์เข้ากับภาพเดียวกันอย่างเป็นองค์รวม แสดงให้เห็นถึงความสามารถในการควบคุมข้อมูลอ้างอิงจากหลายแหล่งได้อย่างแม่นยำ
การอ้างอิงตัวละครการ์ตูน

Prompt: ผสานภาพออกแบบตัวละครและแผนผังสีเพื่อสร้างตัวละครการ์ตูน พร้อมทั้งผสานโลโก้แบรนด์เข้ากับตัวละครอย่างเป็นธรรมชาติ
Uni-1 ใช้แผนผังสีกับตัวละครการ์ตูน 2D ได้อย่างแม่นยำ รักษาความสมบูรณ์ของการออกแบบตัวละครและโลโก้ ในขณะที่ GPT Image 1.5 ไม่สามารถแยกแยะสไตล์ 2D และ 3D ได้ สร้างตุ๊กตาหุ่น 3D ที่เหมือนจริงเกินไป ส่วน Nano Banana Pro ไม่สามารถจับความตั้งใจของภาพออกแบบตัวละครได้อย่างแม่นยำ
แบบร่าง + วัสดุ → การเรนเดอร์ผลิตภัณฑ์

Prompt: รวมแบบร่างออกแบบแจ็กเก็ตกับตัวอย่างวัสดุผ้าเพื่อสร้างภาพแนวคิดผลิตภัณฑ์แบบเหมือนจริง
Uni-1 แปลงพื้นผิวของวัสดุผ้า — ลายริ้วของผ้าลินิน (corduroy), ความเงาและความพลิ้วของผ้าระดับสูง — ไปยังโครงร่างของแบบร่างได้อย่างแม่นยำ สร้างภาพเรนเดอร์ผลิตภัณฑ์ที่สามารถนำไปใช้เชิงพาณิชย์ได้ งานประเภทนี้มีคุณค่าต่อการใช้งานโดยตรงในด้านการออกแบบแฟชั่นและการออกแบบอุตสาหกรรม
การแก้ไขและแปลงโดยใช้แบบร่างเป็นแนวทาง
การแก้ไขภาพถ่ายโดยใช้แบบร่างเป็นแนวทาง

Prompt: แปลงภาพร่างมือให้เป็นภาพแก้ไขแบบเหมือนจริง — เพิ่มผีเสื้อสีสันสดใสข้างรูปถ่ายแมว โดยใช้แบบร่างเป็นอ้างอิง
การแปลงแบบร่างเป็นการ์ตูน

คำอธิบายงาน: แปลงแบบร่างสตอรี่บอร์ดหลายช่องที่วาดภาพแมวยืนอยู่บนชั้นหนังสือ ให้เป็นภาพประกอบการ์ตูนละเอียด
ประสิทธิภาพของโมเดล: Uni-1 รักษาโครงสร้างช่องสตอรี่บอร์ด การเคลื่อนไหวของตัวละคร และตำแหน่งบอลลูนบทพูดจากแบบร่างได้ครบถ้วน และแปลงเป็นภาพการ์ตูนระดับมืออาชีพ โมเดลแสดงความเข้าใจเชิงความหมายในรายละเอียดอย่างลึกซึ้ง ความโค้งของหูแมว ตำแหน่งที่วางที่เขี่ยบุหรี่ การจัดเรียงหนังสือบนชั้นหนังสือ รวมถึงข้อความ “911” ที่แสดงบนหน้าจอโทรศัพท์มือถือ ถูกเก็บรักษาและนำเสนออย่างละเอียดได้อย่างแม่นยำ
การถ่ายโอนสไตล์และความสม่ำเสมอของตัวละคร
การถ่ายโอนทรงผมไปยังภาพวาดชื่อดัง
คำอธิบายงาน: ถ่ายโอนทรงผมสีบลอนด์ทองแบบไล่ระดับของหญิงสาวยุคใหม่ไปยังภาพวาด “โมนาลิซ่า” พร้อมทั้งรักษาสไตล์ภาพวาดสีน้ำมันยุคเรอเนสซองส์ของภาพต้นฉบับ (เช่น เทคนิค sfumato)
ประสิทธิภาพของโมเดล: งานนี้ต้องการให้โมเดลแยก “องค์ประกอบที่ต้องการถ่ายโอน” (รูปร่างและสีของทรงผม) และ “องค์ประกอบที่ต้องการรักษา” (สไตล์ภาพ, พื้นหลัง, เครื่องแต่งกาย, สีหน้า) ได้อย่างแม่นยำ Uni-1 แสดงความสามารถในการควบคุมที่ดีในที่นี้ บรรลุความสมดุลระหว่างความสม่ำเสมอของสไตล์และความแม่นยำในการถ่ายโอน
การถ่ายโอนท่าทางตัวละคร
คำอธิบายงาน: ถ่ายโอนท่าทางของบุคคลจริงไปยังตัวละครในจินตนาการ พร้อมทั้งรักษาลักษณะเฉพาะอัตลักษณ์ของตัวละครเป้าหมายและการตั้งค่าสภาพแวดล้อม
ประสิทธิภาพของโมเดล: ท่าทางกึ่งนั่งยองของชายคนหนึ่งในลิฟต์จากภาพอ้างอิง ถูกถ่ายโอนไปยังตัวละครหนูที่รับบทเป็นมนุษย์สวมชุดอวกาศ โดยฉากก็ถูกสร้างใหม่ให้เป็นพื้นหลังสไตล์อุตสาหกรรม Uni-1 คืนค่ามุมข้อต่อและการกระจายน้ำหนักศูนย์กลางของท่าทางอ้างอิงได้อย่างแม่นยำ พร้อมทั้งรักษาลักษณะเฉพาะอัตลักษณ์ของตัวละครเป้าหมายได้ครบถ้วน เช่น เสื้อคลุมลายเกล็ด รายละเอียดชุดอวกาศ หูฟัง และการออกแบบกระเป๋า สะท้อนถึงความเข้าใจสองด้านของโมเดลในด้านพลวัตของร่างกายมนุษย์และความหมายของการออกแบบตัวละคร
การสร้างสตอรี่บอร์ด: ชีวิตที่หน้าเปียโน

คำอธิบายงาน: สร้างสตอรี่บอร์ด 6 เฟรม บรรยายช่วงชีวิตของตัวละครเดียวกันที่หน้าเปียโน ตั้งแต่เด็กจนถึงวัยชรา
ประสิทธิภาพของโมเดล: ใน 6 เฟรม ลักษณะเฉพาะอัตลักษณ์หลักของตัวละคร (เช่น โครงสร้างใบหน้า, สีผิว) เปลี่ยนแปลงอย่างราบรื่นตามอายุที่เพิ่มขึ้น ในขณะที่เปียโน มุมมองภาพ และสไตล์โดยรวมยังคงที่ ตั้งแต่เฟรมแรกที่เป็นเด็กชาย ไปจนถึงเฟรมสุดท้ายที่เป็นภาพถ่ายครอบครัวใหญ่ เรื่องราวมีความต่อเนื่องและตรรกะเวลาชัดเจน ความสามารถในการรักษาความสม่ำเสมอของตัวละครข้ามเฟรมในระยะยาวและการให้เหตุผลเกี่ยวกับเวลานี้ เป็นหนึ่งในความท้าทายหลักที่โมเดลสร้างภาพในปัจจุบันกำลังเผชิญ
การแก้ไขแบบโต้ตอบหลายรอบ
การแก้ไขหลายรอบ
คำอธิบายงาน: แก้ไขรูปถ่ายตุ๊กตาหมีเท็ดดี้ต่อเนื่องสามรอบ: 1) เอาเท็ดดี้แบร์ที่อยู่ด้านหน้าอ
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24585
