henry รายงานจาก Ao Fei Si
Quantum Bit | Official WeChat Account QbitAI
ช่วงนี้เวลาเลื่อน朋友圈 ใน 10 โพสต์ จะมีอย่างน้อย 7 โพสต์ที่เป็นรูปที่สร้างโดย GPT-Image-2
โปสเตอร์ภาษาจีน ปกนิตยสารแนววินเทจ ภาพหน้าจอไลฟ์สด ภาพแคปหน้าจอโซเชียล มีเดีย แม้กระทั่งข้อสอบเข้ามหาวิทยาลัยก็สามารถทำซ้ำได้จนแทบแยกไม่ออกจากของจริง
เมื่อเจอปรากฏการณ์นี้ ปฏิกิริยาของทุกคนก็เหมือนกันอย่างน่าประหลาดใจ
นักออกแบบมืออาชีพกำลังจะตกงาน ส่วนฉันกลับรู้สึกว่าตัวเองทำได้!
แต่พอลงมือทำจริงจะพบว่า ผู้ใช้ฟรีสร้างได้วันละไม่กี่รูป จำนวนครั้งในการสุ่มมีจำกัด พอเจองานที่จริงจังหน่อย เครดิตก็หมดทันที บ่อยครั้งที่งานยังไม่เสร็จ แต่จำนวนครั้งหมดก่อน
เพื่อเติมเต็มช่องว่างนี้ SenseTime เพิ่งเปิดซอร์สโมเดลใหม่ที่รวมความเข้าใจและการสร้างเข้าด้วยกันในสถาปัตยกรรมเดียว นั่นคือ SenseNova-U1 แม้รุ่นเล็กจะมีพารามิเตอร์เพียง 8B แต่ก็สามารถจำลองความสามารถเด่นๆ ของ GPT-Image-2 ได้หลายอย่าง
ตัวอย่างเช่น เราสร้างโปสเตอร์รับสมัครงานของ Quantum Bit ด้วย U1 ตัวอักษร เลย์เอาต์ สีสัน ไร้ที่ติ
**

△** รูปภาพสร้างโดย SenseNova U1
มาดูแผนภาพระบบสุริยะกัน วงโคจร คุณสมบัติ ข้อมูลประกอบภาพของดาวเคราะห์ทั้งแปดดวงมีครบถ้วน ดูเป็นมืออาชีพมาก
**

△** รูปภาพสร้างโดย SenseNova U1
วาด Iron Man โมเดลก็สามารถแยกขั้นตอนการวาดทั้งหมดโดยอัตโนมัติ ตั้งแต่โครงร่าง ลงสีพื้นฐาน รายละเอียด พื้นผิว ไปจนถึงบรรยากาศ
**

**
มาดูอินโฟกราฟิกคลัสเตอร์อวกาศของ Elon Musk กัน ความสวยงามก็ใช้ได้
**

△** รูปภาพสร้างโดย SenseNova U1
อาจกล่าวได้ว่า อินโฟกราฟิก การจัดวางข้อความหนาแน่น ข้อความและภาพสลับกัน สิ่งเหล่านี้ที่เคยถูกมองว่าเป็นกระดูกแข็งที่สุดสำหรับ AI สร้างภาพ ตอนนี้ U1 สามารถแข่งขันกับ GPT-Image-2 ได้แล้ว
ในหลายเมตริกซ์ของความเข้าใจและการสร้างภาพ SenseNova-U1 ยังครองอันดับหนึ่งในโมเดลโอเพนซอร์ส

ในด้านความเร็วในการตอบสนองการอนุมาน ก็มีข้อได้เปรียบอย่างชัดเจน ใกล้เคียงกับโมเดลปิดเชิงพาณิชย์กระแสหลัก


ทำได้อย่างไร? มาดูต่อกัน
การสร้างข้อความและภาพต่อเนื่อง ครั้งนี้เป็นแบบเนทีฟ
ก่อนอื่นมาพูดถึงความสามารถที่น่าทึ่งที่สุดของ U1: การสร้างข้อความและภาพต่อเนื่อง
ที่เรียกว่าการสร้างข้อความและภาพต่อเนื่อง คือข้อความและภาพซ้อนทับกันอย่างเป็นธรรมชาติในผลลัพธ์เดียว ไม่ใช่ข้อความส่วนข้อความ ภาพส่วนภาพ
ฟังดูง่าย แต่จริงๆ แล้วยากมาก เพราะข้อความต้องคงความหมาย ส่วนภาพต้องคงรายละเอียดพิกเซล สองสิ่งนี้ในสถาปัตยกรรมดั้งเดิมแทบจะเป็นศัตรูกัน รักษาความหมายก็เสียพิกเซล รักษาพิกเซลก็เจือจางความหมาย
วิธีการของ U1 คือให้ทั้งสองสิ่งแชร์บริบทในพื้นที่การแสดงผลเดียวกัน ความสมบูรณ์ของความหมายและความเที่ยงตรงของพิกเซลในระดับภาพ ได้รับการดูแลพร้อมกันเป็นครั้งแรก
พูดง่ายๆ คือ โมเดลสามารถคิดและวาดภาพไปพร้อมๆ กันเหมือนมนุษย์ ข้อความและภาพซ้อนทับกันอย่างเป็นธรรมชาติในผลลัพธ์เดียว
ตัวอย่างเช่น ให้มันสร้าง “การสอนทำสเต๊ก” มันสามารถเริ่มจากการเตรียมวัตถุดิบ ซับน้ำให้แห้ง ปรุงรส ย่างและพลิก … ไปจนถึงการจัดจาน
ทุกขั้นตอนสำคัญมีภาพประกอบ รูปร่างของสเต๊กคงที่ตั้งแต่เนื้อดิบจนถึงสุกปานกลาง ไม่เปลี่ยนเป็นเนื้อชิ้นอื่นระหว่างวาด

อีกตัวอย่างหนึ่ง ฉันอยากเรียนรู้เทคนิคการจัดเฟรมการ์ตูน
มันสามารถส่งออกย่อหน้าแบบตำราที่มีทั้งภาพและข้อความ ตั้งแต่ขั้นตอนเตรียม การตั้งกล้อง ไปจนถึงการแนะนำอุปกรณ์ ตัวละครรอง ครบถ้วน ชัดเจนกว่าคำอธิบายที่เป็นข้อความล้วนๆ
**

**
ความต่อเนื่องแบบ “เป็นวัตถุเดียวกันตลอด” นี้ฟังดูเรียบง่าย แต่ยากมากสำหรับโมเดลสร้าง
กระบวนทัศน์ดั้งเดิมต้องเรียกใช้หลายโมเดลสลับกัน วาดคนละอย่าง รูปร่างตัวละครมักจะเพี้ยนในขั้นตอนที่สาม แต่ U1 ใช้การเรียกใช้โมเดลเดียวครั้งเดียว ก็สามารถส่งออกเนื้อหาทั้งชุดได้โดยตรง
สำหรับโมเดลใหม่ ยังมีการทดสอบที่ควรให้ความสนใจอีกอย่างหนึ่ง
อินโฟกราฟิกความหนาแน่นสูง
ในอินเทอร์เฟซโมเดล คุณสามารถป้อน “ข้อมูลประวัติส่วนตัวของคุณ” ได้โดยตรง มันจะส่งคืนโปสเตอร์สไตล์วาดมือ การกระจายข้อมูล สีสัน ลำดับชั้นตัวอักษร จัดวางอย่างชัดเจน

△ รูปภาพสร้างโดย SenseNova U1
ให้มันเล่าเรื่อง “ลูกหมูสามตัวสร้างบ้าน” ฉันป้อนแค่ “7 ตัวอักษร” ผลลัพธ์ก็สามารถส่งออกชุดภาพต่อเนื่องได้โดยตรง
ลูกหมูสามตัว วัสดุสามชนิด บ้านสามหลัง หมาป่าใหญ่ตัวสุดท้าย เรียงกันเป็นช่องๆ ลำดับตรงกับเรื่องราว
**

△** รูปภาพสร้างโดย SenseNova U1
รูปสอนทำอาหารอย่างหมูสามชั้นตุ๋น ก็สามารถสร้างครั้งเดียวได้ ข้อความและภาพตรงกัน
**

△** รูปภาพสร้างโดย SenseNova U1
ให้ “ผังขั้นตอนการชงกาแฟภาษาอังกฤษ” หนึ่งประโยค รูปก็ออกมาโดยตรง
**

△** รูปภาพสร้างโดย SenseNova U1
ในฉากภาพประกอบที่เน้นการจัดวางและมีองค์ประกอบหลากหลาย U1 ก็สามารถให้ผลลัพธ์ที่ค่อนข้างละเอียด เช่น ภาพรวมการสอนดนตรีพายเรือนี้
**

△** รูปภาพสร้างโดย SenseNova U1
ที่สนุกที่สุดคืออันนี้ โยนป้ายเตือน “ความปลอดภัยลิฟต์” ที่เห็นทั่วไปข้างถนนให้มัน ให้มันเปลี่ยนเลย์เอาต์เป็นอินโฟกราฟิก
มันยังสามารถย้ายได้อย่างสมบูรณ์แบบ เปลี่ยนรูปแบบจากป้ายเตือนเป็นการ์ดความรู้

**

△** รูปภาพสร้างโดย SenseNova U1
ภาพระเบิดผลิตภัณฑ์ที่ฮิตเมื่อไม่นานมานี้ U1 ก็ทำได้เช่นกัน กล้องถ่ายรูปเครื่องหนึ่ง ถูกมันแยกชิ้นส่วนอย่างเป็นระเบียบ
ชุดเลนส์ กระจกสะท้อน ชัตเตอร์ เซ็นเซอร์ ชิป แบตเตอรี่ ฯลฯ ถูกมันแยกชิ้นส่วนและลอยอยู่ในอากาศ เส้นกำกับไม่ขาดสักเส้น
**

△** รูปภาพสร้างโดย SenseNova U1
การเล่นระดับนี้แต่ก่อนเป็นของโมเดลพารามิเตอร์ขนาดใหญ่เท่านั้น ที่น่าสนใจกว่านั้นคือ SenseNova U1 Lite ยังเป็นเจ้าแรกในอุตสาหกรรมที่สร้างห่วงโซ่ความคิดแบบข้อความและภาพสลับกัน
ความสามารถในการคิดนี้เมื่อนำไปใช้กับการแก้ไขภาพจะสนุกยิ่งขึ้น
ฉันโยนรูปชาร้อนในแก้วที่เพิ่งชงให้มัน ให้มัน “วาดภาพหนึ่งชั่วโมงต่อมา” มันไม่ได้สร้างภาพโดยตรง แต่ทำการอนุมานก่อน
หนึ่ง กำหนดข้อจำกัดให้ตัวเอง แก้วเดียวกัน โต๊ะไม้เดิม แสงด้านหลังเฉียงเดียวกัน เพื่อให้สองภาพนี้ดูแล้วรู้ว่า “เป็นชาแก้วเดียวกันผ่านไปหนึ่งชั่วโมง”
สอง อนุมานกระบวนการทางฟิสิกส์ ตอนชงใหม่ ใบชาคลี่ตัวเร็ว ฟองอากาศออกจากเส้นใบ ไอน้ำทิ้งรอยหักเหโค้งบนผนังแก้ว
หนึ่งชั่วโมงต่อมา โพลีฟีนอลกระจายตัวสม่ำเสมอ สีชากลายเป็นน้ำตาลแดงเข้ม ใบชาจมลงทั้งหมดเป็นสีโปร่งแสง มีรอยควบแน่นที่รอยต่อระหว่างก้นแก้วกับโต๊ะ แสงก็เปลี่ยนจาก “ความเย็นสบายยามเช้า” เป็น “ความขี้เกียจยามบ่าย”

ยังมีการทดสอบอีกสองสามอย่าง
ให้กล้วยสีเขียวแก่มัน โมเดลจะอนุมานก่อนว่า “คลอโรฟิลล์สลายตัว + การเปลี่ยนเป็นน้ำตาล” เพื่อให้แน่ใจว่าผลลัพธ์ที่ได้คือกล้วยสุกที่มีจุดด่าง

อาจกล่าวได้ว่า โมเดลใหม่นี้ไม่เพียงแค่แก้ไขภาพ แต่ยังมีความรู้ทางฟิสิกส์พื้นฐานอีกด้วย
NEO-unify หนึ่งเน็ตเวิร์กที่ทำทั้ง “ดู” และ “วาด”
มาถึงตรงนี้ คุณอาจสงสัยว่า ทำได้อย่างไร?
พื้นฐานของ U1 คือสถาปัตยกรรมที่เรียกว่า NEO-unify โมเดลเดียวที่ทั้งดูและวาดได้ ความเข้าใจและการสร้างเสร็จสิ้นในเน็ตเวิร์กเดียวกัน ไม่มีการต่อเชื่อมใดๆ ตรงกลาง

ในอดีต มาตรฐานของโมเดล multimodal มักจะเป็น ตัวเข้ารหัสภาพ (VE) 负责ดู ตัวเข้ารหัสอัตโนมัติแบบแปรผัน (VAE) 负责วาด ความเข้าใจเป็นส่วนเข้าใจ การสร้างเป็นส่วนสร้าง ตรงกลางใช้ตัวปรับต่อเชื่อม
NEO-unify เอาสองสิ่งนี้ออกไป ไม่ต้องใช้ VE ไม่ต้องใช้ VAE โมเดลกินพิกเซลโดยตรง และคายพิกเซลโดยตรง
โดยเฉพาะ กระบวนการนี้แบ่งเป็นสามขั้นตอน
ขั้นตอนแรก แนะนำอินเทอร์เฟซภาพที่ใกล้เคียงแบบไม่สูญเสีย ทำให้อินพุตและเอาต์พุตของภาพเป็นรูปแบบเดียวกัน
ขั้นตอนที่สอง ใช้ Mixture-of-Transformer เป็นแกนหลัก ความเข้าใจและการสร้างใช้พื้นฐานชุดเดียวกัน
ขั้นตอนที่สาม ข้อความใช้ autoregressive ภาพใช้ pixel flow matching ฟังก์ชันวัตถุประสงค์สองชุดทำงานในกรอบการเรียนรู้เดียวกัน
**

△** รูปภาพสร้างโดย SenseNova U1
สถาปัตยกรรมทางเทคนิคนี้ทำให้ NEO-unify มีความสามารถพิเศษ การสร้างข้อความและภาพต่อเนื่อง
โมเดลดั้งเดิมต้องใช้เครื่องมือภายนอกหรือการต่อเชื่อมหลังการประมวลผล แต่พื้นฐานของ U1 เป็นหนึ่งเดียว รองรับการจัดวางข้อความและภาพแบบเนทีฟ เนื้อหาภาพทั้งหมดมาจากโมเดลเอง ไม่เรียกใช้เครื่องมือภายนอก
เมื่อโมเดลคิดปัญหา มันสามารถอนุมานและสร้างแผนภาพประกอบระหว่างทางไปพร้อมๆ กัน ทำให้ตรรกะที่ซับซ้อนมองเห็นได้
เมื่อสร้างบทช่วยสอน มันสามารถแทรกรูปภาพอธิบายในตำแหน่งที่เหมาะสมได้อย่างเป็นธรรมชาติ
เมื่อนำไปใช้กับโมเดล มีสองสเปก SenseNova-U1-8B-MoT พารามิเตอร์ 8B ทำงานบนอุปกรณ์ปลายทางได้ SenseNova-U1-3AB-MoT สถาปัตยกรรม MoE พารามิเตอร์รวม 38B ให้ความสามารถที่แข็งแกร่งกว่า พื้นฐานเป็น NEO-unify ชุดเดียวกัน
นอกจากนี้ SenseTime ยังจัดเตรียมสแต็กการอนุมานที่พัฒนาขึ้นเองให้กับ U1 LightLLM 负责ความเข้าใจ LightX2V 负责การสร้าง สองเส้นทางแยกกันจัดการของตัวเอง ด้วยโหนด H100/H200 เดียว การสร้างภาพ 2048×2048 ใช้เวลาประมาณ 9 วินาทีแบบ end-to-end
โอเพนซอร์สทั่วโลก พร้อมใช้งานทันที
ที่น่าสนใจคือ SenseTime ครั้งนี้ได้ระบุข้อจำกัดของโมเดลไว้ใน README โดยตรง
บริบทสูงสุด 32K รายละเอียดของบุคคลในฉากที่ซับซ้อนบางครั้งไม่เสถียร การเรนเดอร์ข้อความยาวบางครั้งมีข้อผิดพลาดในการสะกดหรือจัดวาง การสร้างข้อความและภาพต่อเนื่องยังเป็นเวอร์ชันเบต้า
อย่างไรก็ตาม ข้อบกพร่องเหล่านี้ทั้งหมดถูกระบุว่า “อยู่ระหว่างการปรับปรุงอย่างต่อเนื่อง” กล่าวอีกนัยหนึ่ง การเปิดตัว U1 ครั้งนี้ไม่ใช่จุดสิ้นสุด แต่เป็นจุดเริ่มต้น
เพื่อความสะดวกในการใช้งาน SenseTime ได้เปิดซอร์สชุดทักษะ SenseNova-Skills พร้อมกัน ทำให้ U1 กลายเป็นเครื่องมือที่สามารถเรียกใช้ได้โดยตรงใน Agent
ในนั้น sn-infographic มีเลย์เอาต์ 87 แบบและสไตล์ 66 แบบ สามารถให้คะแนนตัวเองและเลือกสิ่งที่ดีที่สุดส่งออก เมื่อเชื่อมต่อกับ OpenClaw เพียงป้อน /skill sn-infographic "prompt" ก็สามารถสร้างภาพได้
Skills ไม่ได้จำกัดแค่ infographic ทั้งระบบครอบคลุมหลายด้าน เช่น การสร้างภาพ การทำ PPT การวิเคราะห์ข้อมูล Excel การวิจัยเชิงลึก การค้นหาข้ามแพลตฟอร์ม
ปัจจุบัน SenseNova-U1 ทั้งสองโมเดลได้เปิดซอร์สอย่างสมบูรณ์แล้ว ผู้ใช้สามารถดาวน์โหลดได้จาก Hugging Face และ GitHub ที่อยู่ repository คือ https://github.com/OpenSenseNova/SenseNova-U1
หากต้องการทดลองใช้โดยตรงโดยไม่ต้องติดตั้งด้วยตนเอง สามารถเข้าไปที่ SenseNova U1 Lite Skill ได้ทันที https://github.com/OpenSenseNova/SenseNova-Skills
นอกจากนี้ Office Raccoon กำลังจะรวมฟังก์ชัน U1 ในเร็วๆ นี้
กดไลก์ แชร์ เก็บไว้
ยินดีต้อนรับความคิดเห็นของคุณในช่องแสดงความคิดเห็น!
— จบ —
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32465
