สองวันนี้ เพื่อนๆ ใน朋友圈คงเห็น GPT-Image-2 เต็มหน้าจอกันใช่ไหม?
การเรนเดอร์ข้อความแม่นยำ แผนภาพข้อมูลความหนาแน่นสูง เค้าโครงซับซ้อนและ UI สวยงามลงตัว สมจริงสุดๆ
แม้แต่ภาพหน้าจอโซเชียลมีเดีย ข้อสอบเข้ามหาวิทยาลัยก็สามารถทำซ้ำได้ใกล้เคียง 1:1 สิ่งนี้พลิกโฉมโมเดลสร้างภาพจากข้อความในอดีตอย่างสิ้นเชิง แก้ปัญหาจุดอ่อนที่ยาวนานอย่างข้อความและแผนภาพข้อมูลได้อย่างสมบูรณ์
ปฏิกิริยาแรกของทุกคนหลังจากดูเกือบจะเป็น: นักออกแบบตกงานจริงๆ แล้ว…
และเมื่อกี้ 兔展智能 ก็ปล่อยการ์ดเด็ด: UniWorld-V2.5 ซึ่ง “สร้างซ้ำ” เคสที่น่าทึ่งบางเคสของ GPT-Image-2 ได้โดยตรง
ไม่พูดมาก มาดูผลลัพธ์กันเลย
พร้อมพรอมต์เดียวกัน มาดูเปรียบเทียบผลลัพธ์ที่สร้าง:
พรอมต์: สร้างภาพพิมพ์หินจ้วนซู (篆书碑刻拓片) เนื้อหาคือ “พัฒนาโดยทีมงานที่นำโดยหัวหน้านักวิทยาศาสตร์ของ兔展智能 หยวน ลี่ (袁粒)”

△ สร้างโดย GPT-Image-2

△ สร้างโดย Nano-Banana-2

△ สร้างโดย UniWorld-V2.5
อาจกล่าวได้ว่า ในสถานการณ์ที่เคยถูกมองว่าเป็น “เพดานการสร้างภาพด้วย AI” เช่น InfoGraph ข้อความหนาแน่น ข้อความและภาพสลับกัน ความสมบูรณ์ของ UniWorld-V2.5 เทียบเท่า GPT-Image-2 และ เหนือกว่าอย่างชัดเจน เมื่อเทียบกับโมเดลสร้างภาพจากข้อความหลักอื่นๆ ทั้งในและต่างประเทศ
ที่สำคัญกว่านั้น พรอมต์ที่ต้องป้อนสำหรับ UniWorld-V2.5 สั้นมาก ไม่จำเป็นต้องให้พรอมต์ที่ซับซ้อนและละเอียดเหมือนเมื่อก่อน
คุณแค่พูดประโยคเดียว ก็สามารถสร้างแผนภาพข้อมูลภาพที่หลากหลายและซับซ้อนได้ เบื้องหลังคือระบบสร้างภาพที่สมบูรณ์แบบที่คอยสนับสนุน
ต่อไป เรามาร่วมเป็นสักขีพยานในปาฏิหาริย์ของสถานการณ์อื่นๆ กัน
ข้อสอบคณิตศาสตร์เข้ามหาวิทยาลัย: การทดสอบภาษาจีนที่ยากที่สุด มันผ่านแล้ว
ก่อนหน้านี้ สถานการณ์ที่ทำให้ AI สร้างภาพน่าหงุดหงิดที่สุดคือ:
การจัดวางโครงสร้าง + ภาษาจีนความหนาแน่นสูง + สูตรคณิตศาสตร์ที่ซับซ้อนหลากหลาย + กราฟเส้น + ภาพสามมิติ ปรากฏพร้อมกันในภาพเดียว
โมเดลสร้างภาพจากข้อความเกือบทั้งหมดทำงานได้ไม่เสถียรในสถานการณ์นี้ หรือแม้แต่ไม่รู้จะเริ่มต้นอย่างไร
UniWorld-V2.5 บอกว่า: นี่แค่พื้นฐาน
มาทดสอบระดับนรกกันเลย พรอมต์:
สร้างข้อสอบคณิตศาสตร์สายวิทยาศาสตร์เข้ามหาวิทยาลัยปี 2025

△ ข้อสอบคณิตศาสตร์สายวิทยาศาสตร์เข้ามหาวิทยาลัยปี 2025 (สร้างโดย UniWorld-V2.5)
ภาพเดียวประกอบด้วย: ข้อเลือกตอบ ข้อเติมคำ ข้อแสดงวิธีทำ กราฟฟังก์ชัน พิสูจน์เรขาคณิต…
เต็มหน้ากระดาษ แนวทางถูกต้อง ตัวอักษรชัดเจน แม้แต่เส้นตอบและเลขหน้าก็ไม่ขาด
นี่ไม่ใช่ปัญหาว่า “เหมือนหรือไม่” แต่เป็นปัญหาว่า “สามารถเอาไปสอบนักเรียนได้โดยตรงหรือไม่”
ในทำนองเดียวกัน สถานการณ์ “สร้างเรซูเม่” ที่ต้องการการจัดวางภาษาจีนสูง ก็ได้ผลดีเช่นกัน:

△ เรซูเม่ภาษาจีนของอีลอน มัสก์ (สร้างโดย UniWorld-V2.5)
ความสามารถในการสร้างข้อความหนาแน่นแบบนี้ โมเดลหลักก่อนหน้านี้แทบไม่สามารถทำได้
ในด้านข้อความภาษาจีนหนาแน่นและเค้าโครงซับซ้อน นี่คือการโจมตีแบบลดระดับที่ไม่เคยมีมาก่อน
เค้าโครง GUI: การสร้างอินเทอร์เฟซแอปที่สมจริง ก็ผ่านแล้ว
อยากให้ AI สร้างอินเทอร์เฟซแอปโซเชียลมีเดียที่สมจริง?
อินเทอร์เฟซที่สร้างโดยโมเดลดั้งเดิมมักมีเค้าโครงที่ผิดเพี้ยน หรือข้อความที่ไร้สาระ
ให้การบ้าน UniWorld-V2.5 ให้มันสร้างอินเทอร์เฟซและเค้าโครงโซเชียลมีเดียที่สมบูรณ์และเหมือนจริงด้วยประโยคเดียว
1. ถ่ายทอดสดขายของบน Douyin
ผู้ถ่ายทอดสด ป๊อปอัปสินค้า ราคา ข้อความวิ่งแบบเรียลไทม์ เอฟเฟกต์การให้รางวัล รายละเอียดสมจริงจน “น่าขนลุก”

△ อีลอน มัสก์ ถ่ายทอดสดขายเหมาไถ (สร้างโดย UniWorld-V2.5)

△ เอฟเฟกต์การสร้างอินเทอร์เฟซถ่ายทอดสดขายของ (สร้างโดย UniWorld-V2.5)
2. รีวิวร้านบน Xiaohongshu
รูปคาเฟ่ ชื่อร้าน ดัชนีแนะนำ คอมเมนต์ ไลค์ แถบนำทาง ครบถ้วน โทนถูกต้อง

△ อินเทอร์เฟซรีวิวคาเฟ่เซี่ยงไฮ้บน Xiaohongshu (สร้างโดย UniWorld-V2.5)
3. ฮอตเสิร์ช Weibo
ข่าวเด่น ค่าความนิยม แท็ก ปุ่ม ฯลฯ สามารถสร้างได้โดยตรง หลอกตาได้เลย

△ อินเทอร์เฟซฮอตเสิร์ช Weibo (สร้างโดย UniWorld-V2.5)
4. หน้าวิดีโอ YouTube
ข้อมูลผู้สร้าง ยอดดู รายการแนะนำ ส่วนคอมเมนต์ รายละเอียด UI แม่นยำจนแยกไม่ออกว่าจริงหรือปลอม

△ หน้าวิดีโอ YouTube (สร้างโดย UniWorld-V2.5)
นี่ไม่ใช่แค่ “สร้างภาพ” แต่เป็น “ภาพหน้าจอไซเบอร์“
ดูเหมือนว่า UniWorld-V2.5 ไม่ได้เข้าใจแค่พิกเซล แต่เข้าใจ ตรรกะของผลิตภัณฑ์และสถานการณ์ผู้ใช้เอง
แผนภาพข้อมูล InfoGraph: ห้องสอบปลายทางของการสร้างภาพด้วย AI น่าประหลาดใจ
แผนภาพข้อมูลที่ซับซ้อนและหนาแน่นสูงเป็น “เขตห้ามเข้า” ของการสร้างภาพด้วย AI ที่ได้รับการยอมรับ
มันต้องการให้โมเดลเข้าใจข้อมูล กราฟ การจัดวางข้อความ และความสัมพันธ์เชิงตรรกะไปพร้อมกัน ยิ่งความหนาแน่นของข้อมูลสูง ความยากก็ยิ่งมากขึ้น
ให้ UniWorld-V2.5 ลองโชว์ฝีมือ งานที่มันส่งมาคือ:
แผนภาพระบบกายวิภาคด้านหน้าของมนุษย์:

แผนภาพข้อมูลภาพรวมระบบสุริยะ:

แผนภาพข้อมูลกายวิภาคใบไม้สีเขียว:

การแสดงรายละเอียดกล้ามเนื้อ โครงกระดูก อวัยวะภายใน ฯลฯ แบบเห็นภาพ ผสมภาษาจีน-อังกฤษชัดเจน กราฟข้อมูลเข้มงวด
มันไม่ได้แค่ “วาด” ภาพที่ดูเหมือน แต่ เข้าใจและสร้างระบบข้อมูลที่สมบูรณ์
ความสามารถนี้คือคูเมืองทางเทคนิคที่แท้จริงของโมเดล ซึ่งเป็นสัญลักษณ์ของการก้าวกระโดดจาก “เครื่องมือสร้างภาพ” ไปสู่ “ระบบสร้างภาพที่คิดและเข้าใจการออกแบบ”
โปสเตอร์และการออกแบบ: ตรวจสอบความสมบูรณ์ระดับเชิงพาณิชย์
ให้มันลองวาดโปสเตอร์โปรโมทสินค้า Air Jordan 1
พื้นผิวรองเท้า ข้อความภาษาจีน ลำดับชั้นเลย์เอาต์ เอกลักษณ์แบรนด์… ดูความสมบูรณ์ระดับเชิงพาณิชย์นี้:

△ โปสเตอร์โปรโมทสินค้า Air Jordan 1 (สร้างโดย UniWorld-V2.5)
มาโปสเตอร์โปรโมท iPhone กัน
ฟอนต์ การจัดวาง สไตล์ รูปภาพสไตล์ถ่ายภาพมืออาชีพ ความสวยงามและพื้นผิวเต็มที่:

△ โปสเตอร์โปรโมท iPhone (สร้างโดย UniWorld-V2.5)
การบุกทะลวงของ AI ภาพสัญชาติจีน: “แซงหน้า” ต่อหน้า OpenAI และ Google
การเกิดขึ้นของ UniWorld-V2.5 ไม่ใช่เรื่องบังเอิญ เบื้องหลังมี “ผู้นำ” ในพื้นที่ลึกของ AI ภาพ:
兔展智能
บริษัท 兔展智能 เทคโนโลยี เซินเจิ้น จำกัด ก่อตั้งโดย ตง เส้าหลิง (董少灵) ในหอพัก มหาวิทยาลัยปักกิ่ง ในปี 2014 โดยคิดค้นเครื่องมือ H5 ที่เก่าแก่ที่สุด
ต่อมาในปี 2022 ได้ร่วมก่อตั้งครั้งที่สองกับ หยวน ลี่ (袁粒) ผู้นำด้าน AI ภาพรุ่นใหม่จากมหาวิทยาลัยปักกิ่ง
สำนักงานใหญ่ตั้งอยู่ที่เซินเจิ้น ให้บริการผู้ใช้องค์กรกว่า 41 ล้านราย
จนถึงปัจจุบัน 兔展智能 ได้รับการลงทุนจากองค์กรชั้นนำ เช่น Shenzhen Capital Group, Tencent, Longgang Financial Control, Jiadao Capital, China Venture Capital, Qingdao AI Fund, China Merchants Venture Capital เป็นต้น และระดมทุนรอบ F
นอกจากนี้ยังเป็นวิสาหกิจเทคโนโลยีขั้นสูงแห่งชาติ วิสาหกิจ “ยักษ์เล็ก” เฉพาะทางและใหม่ระดับชาติ ยูนิคอร์นที่มีศักยภาพมากที่สุดในเขตอ่าวกวางตุ้ง-ฮ่องกง-มาเก๊า และเป็น “ฐานฝึกอบรมบุคลากรทักษะสูงระดับชาติด้าน AI” แห่งแรกของมณฑลกวางตุ้ง
ทำไมโมเดลซีรีส์ UniWorld ของ 兔展智能 ถึงสามารถ “เข้าใจคือสร้าง”?
เพราะฐานเทคโนโลยีของมันนำหน้ามาไกลแล้ว:
-
โมเดลใหญ่ “Tuling” (兔灵) ที่พัฒนาขึ้นเอง: โมเดลใหญ่ด้านอัจฉริยะเชิงพื้นที่ภาพแห่งแรกของมณฑลกวางตุ้งที่ผ่านการจดทะเบียน บรรลุความก้าวหน้าทางเทคนิค SOTA (ดีที่สุดในอุตสาหกรรม) หลายรายการในด้านหลัก เช่น ความเข้าใจภาพ การบีบอัดและการสร้างใหม่
-
อันดับหนึ่งโอเพนซอร์ส: Open-Sora Plan ที่เปิดซอร์สเป็นหนึ่งในโมเดลสร้างวิดีโอโอเพนซอร์สที่เก่าแก่ที่สุดในโลก เคยติดอันดับหนึ่งใน GitHub Global Trending Chart หลายวันติดต่อกัน ดาวน์โหลดโมเดลเดียวเกิน 26 ล้านครั้ง ในปี 2024 มีการอ้างอิงโค้ดโมเดลใหญ่ภาพมากที่สุดในโลก ถูกนำไปใช้อย่างแพร่หลายโดยบริษัทยักษ์ใหญ่ เช่น ByteDance, Tencent, Huawei
-
นวัตกรรมสถาปัตยกรรม: ซีรีส์ UniWorld เป็นโมเดลอัจฉริยะเชิงพื้นที่ภาพที่เก่าแก่ที่สุดในประเทศที่ใช้สถาปัตยกรรมแบบรวม “เข้าใจ สร้าง แก้ไข” โดย UniWorld-V1 เปิดตัวเร็วกว่า Nano Banana สามเดือน UniWorld-V2 มีประสิทธิภาพโดยรวม เหนือกว่า GPT-Image-1 ของ OpenAI ในการประเมิน权威 (GEdit-Bench) ตัวชี้วัดสำคัญหลายตัวก็ดีกว่าซีรีส์ Nano Banana ของ Google ในช่วงหนึ่ง และได้รับการคัดเลือกให้เป็นหนึ่งในเจ็ดผลงานทางวิทยาศาสตร์และเทคโนโลยีที่สำคัญของเซินเจิ้นในงาน Xili Lake Forum ปี 2025 และรางวัลที่หนึ่งด้านความก้าวหน้าทางวิทยาศาสตร์และเทคโนโลยีปัญญาประดิษฐ์และหุ่นยนต์แห่งมณฑลกวางตุ้ง
-
ผู้นำระดับนานาชาติ: โมเดล Video LLaVA ที่เปิดตัวกลายเป็นโมเดลความเข้าใจภาพที่ใช้เป็นเกณฑ์เปรียบเทียบในรายงานทางเทคนิคของ Google Gemini Pro ซึ่งเป็นสัญลักษณ์ของการได้รับการยอมรับระดับนานาชาติชั้นสูง โมเดล LLaVA-CoT เสนอสถาปัตยกรรมการคิดช้าเชิงภาพเป็นครั้งแรกในอุตสาหกรรม ทำให้โมเดลสามารถทำการอนุมานหลายขั้นตอนอย่างอิสระและเป็นระบบ ทำลายข้อจำกัดของการตอบสนองครั้งเดียวของโมเดลภาพแบบดั้งเดิม ผลการวิจัยนี้ได้รับการยอมรับในการประชุม ICCV 2025 (หนึ่งในสามการประชุมชั้นนำด้านวิสัยทัศน์คอมพิวเตอร์) และได้รับการยอมรับอย่างมีอำนาจจากผู้ทรงคุณวุฒิ
ระบบนิเวศในประเทศ: ร่วมมืออย่างลึกซึ้งกับ Huawei Ascend เป็นผู้ใช้รายใหญ่ระดับโลกคนแรกของชิป Ascend 910C สร้างโมเดลสร้างภาพ Open-Sora Plan V1.5 ที่ใช้สถาปัตยกรรม Ascend 100% เป็นรายแรกในอุตสาหกรรม ฝ่าฟันปัญหาคอขวด เช่น การปรับตัวของโอเปอเรเตอร์ การฝึกขนาดใหญ่ นี่ไม่เพียงแต่เป็นชัยชนะทางเทคนิค แต่ยังเป็นแบบอย่างที่สมบูรณ์และเป็นไปได้สำหรับการพึ่งพาตนเองของโครงสร้างพื้นฐาน AI ของจีน
ที่น่าสนใจคือ เส้นเวลาประวัติศาสตร์ของการเปิดตัวซีรีส์ UniWorld:
- UniWorld V1 เปิดตัวเร็วกว่า Nano Banana ถึง 3 เดือน และเปิดซอร์สพร้อมกัน
- UniWorld V2 ก่อนที่ Nano Banana Pro จะเปิดตัว ก็เป็น อันดับหนึ่งของอุตสาหกรรม อยู่แล้ว
- UniWorld V2.5 เป็นจุดหมายล่าสุดบนเส้นทางนี้ ฝ่าฟันปัญหาหลายด้าน เช่น ข้อความหนาแน่นสูง แผนภาพข้อมูล ข้อความและภาพสลับกัน การสร้างโครงสร้าง
สำหรับงานสร้างที่มีโครงสร้างสูงและต้องพึ่งพาการอนุมานความรู้โลกที่ซับซ้อน รูปแบบการสร้างภาพจากข้อความประโยคเดียวแบบดั้งเดิมไม่สามารถรองรับได้อีกต่อไป
แตกต่างจากรูปแบบ prompt-to-image แบบดั้งเดิม ทีมงานใช้ งบประมาณ token มากกว่า 80% สำหรับการทำความเข้าใจเจตนา การอนุมาน และการวางแผนเค้าโครง เทียบเท่ากับการนำ “หัวหน้านักออกแบบ” ที่มีประสบการณ์มาควบคุมและควบคุมโดยรวมตลอดกระบวนการ
สิ่งนี้รับประกันคุณภาพของการสร้างตั้งแต่ต้นทาง และแสดงให้เห็นถึงข้อดีของรูปแบบ multimodal ที่รวมความเข้าใจและการสร้างเข้าด้วยกัน
โดยอาจารย์หยวน ลี่ (袁粒) หัวหน้านักวิทยาศาสตร์ของ 兔展智能 จากมหาวิทยาลัยปักกิ่ง และนักศึกษาปริญญาเอกของเขา เช่น หยาน จื้อหยวน (晏志远) มีส่วนร่วมอย่างลึกซึ้งในการออกแบบและการนำความสามารถหลักไปใช้ และเป็นผู้มีส่วนร่วมสำคัญในการก้าวกระโดดของ V2.5
兔展智能 มุ่งมั่นในภารกิจทำให้การเล่าเรื่องของมนุษย์มีชีวิตชีวาและมีประสิทธิภาพมากขึ้น ทุ่มเทให้กับนวัตกรรมอัจฉริยะภาพที่ล้ำสมัย
มีรายงานว่า 兔展智能 จะเปิดตัว โมเดลโลกที่ใช้เส้นทางอัจฉริยะเชิงพื้นที่ภาพเป็นพื้นฐาน ในเร็วๆ นี้
โมเดลจีนบนเวทีโลก รอคุณทดลองใช้ฟรี
ขีดจำกัดบนของการสร้างภาพด้วย AI สูงกว่าที่เราคิดไว้มาก
การเปิดตัว UniWorld-V2.5 พิสูจน์ให้เห็นด้วยความแข็งแกร่งว่า ในบริบทภาษาจีนและสถานการณ์ตรรกะที่ซับซ้อนเป็นพิเศษ โมเดลจีนมีความมั่นใจที่จะยืนอยู่ตรงกลางเวทีโลก
“การสร้างภาพด้วยประโยคเดียว” ในอุตสาหกรรมการออกแบบ เดิมทีเป็นความวิตกกังวลที่เกิดจาก GPT-Image-2
ตอนนี้ ความสามารถนี้ได้ลงหลักปักฐานอย่างมั่นคงในประเทศแล้ว และในรูปแบบที่ พึ่งพาตนได้ ปรับแต่งได้ และใช้พลังคำนวณในประเทศ
แบรนด์ แพลตฟอร์มเนื้อหา ร้านค้าอีคอมเมิร์ซ สถาบันสื่อสารทางการแพทย์ สถาบันการศึกษาและสิ่งพิมพ์ ทุกสถานการณ์ที่ต้องการผลิตเนื้อหาภาพในปริมาณมาก ซึ่งเมื่อก่อนต้องใช้ทีมออกแบบหลายชั่วโมง ตอนนี้แค่ใช้ภาษาธรรมชาติประโยคเดียว
ที่สำคัญกว่านั้นคือความหมายเชิงสาธิตของสิ่งนี้:
บนเส้นทางการสร้างภาพ multimodal จีนไม่ใช่แค่ผู้ตามอีกต่อไป
ทีมงานที่มาจากมหาวิทยาลัยปักกิ่ง ทุ่มเทกับโมเดลใหญ่ภาพมา 4 ปี วันนี้ส่งมอบคำตอบนี้
แล้วส่วนที่แข็งแกร่งที่สุดมาแล้ว:
โมเดล “สัตว์ประหลาด” ที่แข็งแกร่งขนาดนี้ ตอนนี้ เปิดให้ทดลองใช้ฟรี แล้ว!
ทางเข้าใช้งาน UniWorld-V2.5: https://uniworld.rabbitpre.com/
บทความนี้ได้รับอนุญาตจาก Qubit ให้ตีพิมพ์ ความคิดเห็นเป็นของผู้เขียนต้นฉบับเท่านั้น
— จบ —
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32033
