OpenAI เปิดตัว ChatGPT Images 2.0: รองรับหลายภาษา ความสามารถในการคิด และการควบคุมที่แม่นยำ

2 days ago • ข่าวสารอุตสาหกรรม AI • 44 views

OpenAI เปิดตัว ChatGPT Images 2.0: รองรับหลายภาษา ความสามารถในการคิด และการควบคุมที่แม่นยำ (ตอนที่ 1/2)

บรรณาธิการ: Panda, Youli

เวลา 03.00 น. ตามเวลาปักกิ่ง การถ่ายทอดสดเริ่มต้นตรงเวลา OpenAI เปิดตัว ChatGPT Images 2.0 อย่างเป็นทางการ

ตามคำอธิบาย “ChatGPT Images 2.0 คือวิวัฒนาการขั้นต่อไป: โมเดลที่ล้ำสมัยที่สุดที่สามารถจัดการงานด้านภาพที่ซับซ้อน และสร้างเนื้อหาภาพที่แม่นยำและพร้อมใช้งานได้ทันที”

ดูเหมือนว่าด้วยเหตุนี้เอง เนื้อหาในบล็อกอย่างเป็นทางการที่ OpenAI เผยแพร่จึงมีให้เลือกสองเวอร์ชัน (โหมดภาพและโหมดคลาสสิก) โดยเนื้อหาในโหมดภาพสร้างขึ้นโดยโมเดลนี้ทั้งหมด!

OpenAI เปิดตัว ChatGPT Images 2.0: รองรับหลายภาษา ความสามารถในการคิด และการควบคุมที่แม่นยำ

ในบล็อก OpenAI กล่าวว่า “ภาพคือภาษา ไม่ใช่แค่การตกแต่ง ภาพที่ดี เช่นเดียวกับประโยคที่ดี จะต้องเลือก จัดระเบียบ และนำเสนอ มันสามารถอธิบายกลไก สร้างบรรยากาศ พิสูจน์แนวคิด หรือสร้างข้อโต้แย้ง”

โมเดล ChatGPT Images 2.0 มีการก้าวกระโดดเชิงคุณภาพในการปฏิบัติตามคำแนะนำอย่างละเอียด สามารถวางและเชื่อมโยงวัตถุได้อย่างแม่นยำ และเรนเดอร์ข้อความที่มีความหนาแน่นสูง พร้อมรองรับการสร้างในอัตราส่วนภาพที่หลากหลาย ความสามารถในการจัดองค์ประกอบและสุนทรียภาพทางสายตาทำให้ผลลัพธ์ไม่เหมือน “AI สร้าง” อีกต่อไป แต่เหมือน “การออกแบบที่มีเจตนา” มากกว่า

นอกจากนี้ยังทำงานได้อย่างแม่นยำในสภาพแวดล้อมหลายภาษา และสามารถใช้ความรู้ด้านภาพและโลกที่ขยายออกไปเพื่อเติมเต็มรายละเอียดให้คุณ ทำให้ได้ภาพที่ชาญฉลาดขึ้นด้วยคำแนะนำที่น้อยลง

เพื่อรับมือกับงานที่ซับซ้อนที่สุด Images 2.0 ได้นำ “ความสามารถในการคิด” มาใช้เป็นครั้งแรก เมื่อเลือกโมเดล thinking หรือ pro ใน ChatGPT Images 2.0 สามารถเชื่อมต่ออินเทอร์เน็ตเพื่อรับข้อมูลแบบเรียลไทม์ สร้างภาพที่แตกต่างกันหลายภาพจากพรอมต์เดียว และตรวจสอบผลลัพธ์ของตัวเองซ้ำ ด้วย “การคิด” โมเดลสามารถรับภาระงานมากขึ้นตั้งแต่แนวคิดไปจนถึงภาพ โดยเฉพาะอย่างยิ่งเมื่อความแม่นยำ ความทันเวลา ความสอดคล้อง และความเป็นหนึ่งเดียวทางสายตามีความสำคัญ

เมื่อรวมกับความชาญฉลาดของโมเดลการให้เหตุผลของ OpenAI และความเข้าใจอย่างลึกซึ้งเกี่ยวกับโลกแห่งภาพ โมเดลนี้ยกระดับการสร้างภาพจาก “การเรนเดอร์” เป็น “การออกแบบเชิงกลยุทธ์” เปลี่ยนจากเครื่องมือเป็นระบบภาพ ช่วยให้ผู้คนเปลี่ยนแนวคิดให้เป็นผลลัพธ์ที่เข้าใจได้ แบ่งปันได้ สอนได้ และสร้างได้

ความสามารถนี้เปิดให้ผู้ใช้ ChatGPT, Codex และ API ทุกคนตั้งแต่วันนี้

ความแม่นยำและการควบคุมที่สูงขึ้น

Images 2.0 นำความเฉพาะเจาะจงและความเที่ยงตรงที่ไม่เคยมีมาก่อนมาสู่การสร้างภาพ มันไม่เพียงแต่สามารถคิดภาพที่ซับซ้อนมากขึ้น แต่ยังทำให้เกิดขึ้นจริงได้อย่างมีประสิทธิภาพ ปฏิบัติตามคำแนะนำอย่างเคร่งครัด เก็บรักษารายละเอียดที่สำคัญ และเรนเดอร์องค์ประกอบที่ละเอียดอ่อนซึ่งโมเดลก่อนหน้ามักจะบิดเบือน: ข้อความขนาดเล็ก ไอคอน องค์ประกอบ UI องค์ประกอบที่มีความหนาแน่นสูง และข้อจำกัดด้านสไตล์ที่ละเอียดอ่อน ใน API รองรับความละเอียดสูงสุด 2K ผลลัพธ์ไม่ใช่ “ใกล้เคียง” อีกต่อไป แต่ “พร้อมใช้งานทันที”

สังเกตให้ดี ภาพหน้าจอด้านล่างนี้โดยรวมแล้วสร้างโดย Images 2.0!

ความสามารถหลายภาษาที่แข็งแกร่งขึ้น

โมเดลสร้างภาพก่อนหน้านี้ทำงานได้เสถียรกว่าในภาษาอังกฤษและภาษาที่ใช้ตัวอักษรละติน แต่มีความแม่นยำต่ำกว่าในภาษาอื่น โดยเฉพาะอย่างยิ่งเมื่อมีข้อความที่ซับซ้อนหรือหนาแน่น

Images 2.0 ก้าวข้ามข้อจำกัดนี้ โดยมีความเข้าใจหลายภาษาเพิ่มขึ้นอย่างเห็นได้ชัด โดยเฉพาะอย่างยิ่งในการเรนเดอร์ข้อความภาษาญี่ปุ่น เกาหลี จีน ฮินดี และเบงกาลี มันไม่เพียงแต่สร้างข้อความที่ไม่ใช่ภาษาอังกฤษได้อย่างถูกต้อง แต่ยังรับประกันว่าการแสดงออกทางภาษาจะเป็นธรรมชาติและลื่นไหล

นี่ไม่เพียงหมายถึงการแปลป้ายกำกับ แต่เป็นการทำให้ภาษาเป็นส่วนหนึ่งของการออกแบบ ตั้งแต่โปสเตอร์ แผนภาพคำอธิบาย ไปจนถึงภาพประกอบและการ์ตูน ล้วนสามารถบรรลุความเป็นหนึ่งเดียวทางภาพและภาษา ทำให้โมเดลมีความสามารถในการปรับใช้ทั่วโลกมากขึ้น ช่วยให้ผู้ใช้สามารถสร้างเนื้อหาภาพในสภาพแวดล้อมภาษาที่พวกเขาใช้จริง

ในการถ่ายทอดสด Chen Boyuan สมาชิกทีมวิจัยภาพของ OpenAI สาธิตกรณีหนึ่ง เขาให้พรอมต์ว่า “Make a artistic marketing poster for a fictional OpenAI bakery. The poster should be in Japanese language.”

ผลลัพธ์ที่ได้คือโปสเตอร์ที่สอดคล้องกับพรอมต์อย่างสมบูรณ์ และยังแม่นยำในรายละเอียดอีกด้วย

“มันเก่งมากในการปฏิบัติตามคำแนะนำที่มีรายละเอียดมาก ดังนั้นหากคุณมีภาษาแบรนด์ที่เฉพาะเจาะจงมาก สุนทรียภาพในการออกแบบ—ทุกสิ่งที่สำคัญต่องานสร้างสรรค์—คุณสามารถใช้ ChatGPT เพื่อสร้างและปรับปรุงแนวคิดของคุณ เพื่อให้ได้ผลลัพธ์ที่คุณต้องการ” Chen Boyuan กล่าว

การแสดงออกทางสไตล์และความสมจริงที่成熟ยิ่งขึ้น

Images 2.0 มีความเที่ยงตรงในการสร้างสไตล์ภาพที่หลากหลายเพิ่มขึ้นอย่างเห็นได้ชัด มันจับลักษณะสำคัญของภาพถ่ายได้ดีขึ้น รวมถึงข้อบกพร่องเล็กๆ น้อยๆ ที่เพิ่มความสมจริง ในขณะเดียวกันก็สามารถนำเสนอภาพยนตร์ ภาพพิกเซลอาร์ต การ์ตูน และภาษาภาพอื่นๆ ได้อย่างเสถียร โดยมีความสอดคล้องมากขึ้นในพื้นผิว แสงและเงา องค์ประกอบ และรายละเอียด

ดังนั้น ผลลัพธ์ของโมเดลจึงใกล้เคียงกับสไตล์ที่กำหนด มากกว่าการเลียนแบบอย่างคร่าวๆ ซึ่งมีคุณค่าอย่างยิ่งสำหรับการออกแบบต้นแบบเกม การทำสตอรีบอร์ด ไอเดียการตลาด และการสร้างสินทรัพย์สำหรับสื่อหรือประเภทเฉพาะ

อัตราส่วนภาพที่ยืดหยุ่น

โมเดลใหม่มีความยืดหยุ่นมากขึ้นในรูปแบบผลลัพธ์ รองรับอัตราส่วนภาพที่หลากหลายตั้งแต่ 3:1 ถึง 1:3 สามารถปรับให้เข้ากับแบนเนอร์ งานนำเสนอ โปสเตอร์ อินเทอร์เฟซมือถือ ที่คั่นหนังสือ และกราฟิกโซเชียลมีเดียในสถานการณ์ต่างๆ คุณสามารถระบุอัตราส่วนภาพในพรอมต์ หรือใช้ตัวเลือกที่ตั้งไว้ล่วงหน้าเพื่อสร้างภาพที่มีอยู่ใหม่เป็นขนาดใหม่

ด้านล่างนี้แสดงตัวอย่างอัตราส่วนภาพที่ไม่ธรรมดาสองตัวอย่าง:

ความเข้าใจโลกแห่งความจริงที่แข็งแกร่งขึ้น

Images 2.0 นำความรู้ ณ เดือนธันวาคม 2025 มาใช้ ทำให้ผลลัพธ์มีความเกี่ยวข้องและแม่นยำตามบริบทยิ่งขึ้น ซึ่งสำคัญอย่างยิ่งสำหรับแผนภาพอธิบาย กราฟิกการศึกษา และสรุป可视化 เนื่องจากในสถานการณ์เหล่านี้ ความถูกต้องและความชัดเจนมีความสำคัญเท่ากับความสวยงาม

ความสามารถอันชาญฉลาดยังสะท้อนให้เห็นในการจัดการงานแบบ end-to-end: การรวมข้อมูล การเขียนเนื้อหา และการจัดวางด้วยโครงสร้างที่ชัดเจน พื้นที่ว่างที่เหมาะสม และการไหลของภาพที่ดี

คู่คิดทางภาพ

เมื่อเปิดใช้งานโมเดล thinking ใน ChatGPT ระบบจะทำความเข้าใจและดำเนินการอย่างลึกซึ้งยิ่งขึ้นในเบื้องหลัง มันสามารถค้นหาข้อมูลทางอินเทอร์เน็ต แปลงวัสดุที่อัปโหลดเป็นคำอธิบายภาพที่ชัดเจน และให้เหตุผลเกี่ยวกับโครงสร้างภาพก่อนการสร้าง

ในโหมดนี้ Images 2.0 เปรียบเสมือนคู่คิดทางภาพ ช่วยให้คุณพัฒนาแนวคิดเริ่มต้นให้เป็นผลงานที่สมบูรณ์ ลดปริมาณงานลงอย่างมาก

นอกจากนี้ยังรองรับการสร้างภาพที่แตกต่างกันหลายภาพในครั้งเดียว ซึ่งเป็นครั้งแรกในการสร้างภาพของ ChatGPT ทำให้เวิร์กโฟลว์ต่างๆ เช่น การ์ตูนหลายหน้า การออกแบบบ้านทั้งหลัง โปสเตอร์ชุด หรือสื่อสังคมออนไลน์หลายภาษาและหลายขนาดเป็นไปได้อย่างมีประสิทธิภาพ

คุณไม่จำเป็นต้องสร้างทีละภาพแล้วต่อด้วยมือ เพียงขอครั้งเดียว ก็จะได้รับผลลัพธ์สูงสุดแปดภาพที่สอดคล้องกันในตัวละครและองค์ประกอบ และมีความต่อเนื่อง

การใช้การสร้างภาพใน Codex

ความสามารถของ Images ถูกรวมเข้ากับ Codex ทำให้การสร้างภาพ การปรับปรุง และการส่งมอบเสร็จสมบูรณ์ในพื้นที่ทำงานเดียวกัน ขยายการประยุกต์ใช้ในด้านการออกแบบ การตลาด ผลิตภัณฑ์ การขาย และการเรียนรู้

ตัวอย่างเช่น คุณสามารถสร้างทิศทาง UI และต้นแบบต่างๆ ได้อย่างรวดเร็ว เปรียบเทียบโซลูชัน และแปลงการออกแบบที่ดีที่สุดเป็นประสบการณ์ผลิตภัณฑ์หรือเว็บได้โดยตรง โดยไม่ต้องออกจาก Codex สามารถใช้งานได้ผ่านการสมัครสมาชิก ChatGPT โดยไม่ต้องใช้คีย์ API เพิ่มเติม

การฝังความสามารถด้านภาพลงในผลิตภัณฑ์ผ่าน API

นักพัฒนาและองค์กรสามารถรวมความสามารถเหล่านี้เข้ากับผลิตภัณฑ์ของตนเองผ่าน API gpt-image-2 เพิ่มความสามารถในการสร้างและแก้ไขภาพคุณภาพสูงลงในเวิร์กโฟลว์ที่มีอยู่

ด้วยการเรนเดอร์ข้อความที่ดีขึ้น การสร้างหลายภาษา ความสามารถในการปฏิบัติตามคำแนะนำ และการรองรับรูปแบบผลลัพธ์และอัตราส่วนภาพที่มากขึ้น API จึงง่ายต่อการสร้างเวิร์กโฟลว์ภาพในสถานการณ์ธุรกิจจริง เช่น โฆษณาในท้องถิ่น อินโฟกราฟิก แผนภาพอธิบาย เนื้อหาการศึกษา เครื่องมือออกแบบ แพลตฟอร์มสร้างสรรค์ และผลิตภัณฑ์สร้างเว็บ

ข้อจำกัด

OpenAI ยังกล่าวถึงข้อจำกัดของโมเดลนี้ในบล็อก: แม้ว่า Images 2.0 จะเป็นความก้าวหน้าที่สำคัญ แต่ก็ยังไม่สมบูรณ์แบบ สำหรับงานที่ต้องการการสร้างแบบจำลองโลกทางกายภาพอย่างสมบูรณ์ (เช่น การพับกระดาษ ลูกบาศก์รูบิก และโครงสร้างที่ซับซ้อนอื่นๆ) รวมถึงรายละเอียดที่แม่นยำของพื้นผิวที่ซ่อนอยู่ พื้นผิวเอียง หรือพื้นผิวย้อนกลับ โมเดลอาจยังทำงานได้ไม่ดี

รายละเอียดที่มีความหนาแน่นสูงมากหรือซ้ำซาก (เช่น ทรายละเอียด) อาจสร้างความท้าทายได้เช่นกัน สำหรับป้ายกำกับและแผนภาพที่เกี่ยวข้องกับการชี้ลูกศรหรือการระบุชิ้นส่วนที่แม่นยำ ยังคงแนะนำให้ตรวจสอบด้วยตนเอง

สิ่งเหล่านี้เป็นทิศทางสำคัญสำหรับการปรับปรุงในอนาคต

ใน API ผลลัพธ์ที่เกิน 2K ยังอยู่ในขั้นตอนการทดสอบ อาจเกิดความไม่เสถียร

ราคาและการใช้งาน

ตั้งแต่วันนี้เป็นต้นไป ChatGPT Images 2.0 เปิดให้ผู้ใช้ ChatGPT และ Codex ทุกคนแล้ว ฟังก์ชันการสร้างขั้นสูงที่มีความสามารถในการ “คิด” มีให้สำหรับผู้ใช้ ChatGPT Plus, Pro และ Business

โมเดล gpt-image-2 เปิดตัวใน API พร้อมกัน ราคาแตกต่างกันไปตามคุณภาพและความละเอียดของภาพ

เว็บไซต์อย่างเป็นทางการของ OpenAI ได้อัปโหลดกรณีตัวอย่างจำนวนมาก ผู้อ่านที่สนใจสามารถเข้าไปดูได้ด้วยตนเอง

เรายังได้ทำการทดสอบง่ายๆ บางอย่าง เช่น ให้โมเดลสร้างข้อสอบคณิตศาสตร์ระดับมัธยมปลายของจีน หน้า 2 ผลลัพธ์ก็ใช้ได้:

ในระหว่างการทดสอบจริง เราสังเกตว่า ChatGPT Images 2.0 มักจะผ่านหลายขั้นตอนเมื่อสร้างภาพหนึ่งภาพ: สร้าง → ร่าง → สร้างฉบับร่างแรก → สร้างฉาก → ปรับแต่งรายละเอียด → ปิดท้าย → เก็บรายละเอียดสุดท้าย → ปรับแต่งครั้งสุดท้าย

ต่อไป เราทดสอบเพิ่มเติม: ขอให้สร้างงานเขียนพู่กันจีนตัวเต็มแบบหวัดของบทกวี “将进酒” อัตราส่วนภาพ 3:1 เนื้อหาคือบทกวี “将进酒” ของหลี่ไป ลงท้ายด้วย “ChatGPT Images 2.0”:

อย่างไรก็ตาม โมเดลไม่ได้สร้างเนื้อหาที่สมบูรณ์ และแบบอักษรก็ไม่ใช่ตัวหวัดอย่างชัดเจน

สุดท้าย เราลองสร้างแผนภาพอธิบายท่าต่อสู้ “闪电五连鞭” หนึ่งหน้า:

ผลลัพธ์ค่อนข้างน่าสนใจ

จากประสบการณ์โดยรวม เราคิดว่า ChatGPT Images 2.0 มีความสามารถเหนือกว่า Nano Banana 2 ในปัจจุบันอย่างเห็นได้ชัด ต่อไป มาดูกันว่า Google จะตอบสนองอย่างไร

คุณลองใช้ ChatGPT Images 2.0 แล้วหรือยัง? รู้สึกอย่างไร?