หลังจาก GPT Image 2 ได้รับความนิยม อินเทอร์เน็ตก็เต็มไปด้วยภาพที่สร้างโดย AI ซึ่งแยกแยะได้ยากจากของจริง การสำรวจของโมเดลขนาดใหญ่ในด้านภาพยังคงดำเนินไปอย่างลึกซึ้ง ทั้งน่าตื่นเต้นและน่าเกรงขาม ในปัจจุบัน ในด้านการสร้างภาพด้วย AI GPT Image 2 ครองตำแหน่งผู้นำอย่างไม่มีข้อโต้แย้ง อย่างไรก็ตาม หากโมเดลที่แข็งแกร่งที่สุดแบบปิดและเสียค่าบริการบนคลาวด์คือ GPT Image 2 แล้ว โมเดลที่สามารถปรับใช้ในเครื่องได้ ฟรี และโอเพนซอร์ส ก็อาจเป็น SenseNova U1
สร้างโดย SenseNova U1
SenseNova U1 เป็นโมเดลมัลติโมดัลโอเพนซอร์สตัวล่าสุดที่เปิดตัวโดย SenseTime ซีรีส์ Lite ประกอบด้วยพารามิเตอร์สองเวอร์ชันคือ 8B และ A3B ซึ่งปัจจุบันเปิดเป็นโอเพนซอร์สบน Hugging Face และ GitHub เมื่อพิจารณาจากพารามิเตอร์ของโมเดลและเส้นทางการเลือกโอเพนซอร์ส จะเห็นได้ชัดว่ามันไปในทิศทางที่แตกต่างจาก GPT Image 2 โดยสิ้นเชิง APPSO ได้รับสิทธิ์ทดสอบล่วงหน้า และเราพบว่าโมเดลการสร้างและความเข้าใจแบบเนทีฟรุ่นใหม่ของ SenseTime นี้ ทำผลงานได้ดีที่สุดในบรรดาโมเดลโอเพนซอร์สในปัจจุบัน มันนำเสนอความสามารถในการสร้างข้อความและภาพต่อเนื่องแบบใหม่ในอุตสาหกรรมโมเดลขนาดใหญ่ กล่าวคือ สามารถสร้างภาพและข้อความได้อย่างต่อเนื่องด้วยโมเดลเดียว ซึ่งเป็นนวัตกรรมที่คุ้มค่าแก่การลองใช้ ปัจจุบัน น้ำหนักของโมเดลโอเพนซอร์ส SenseNova U1 พร้อมให้ดาวน์โหลดบน Hugging Face และ GitHub แล้ว
GitHub: https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face: https://huggingface.co/collections/sensenova/SenseNova-U1
การคิดพร้อมกับภาพ
เราอาจเคยเจอความต้องการเช่นนี้: ต้องการให้ AI อธิบายแนวคิดที่ซับซ้อน พร้อมกับแผนภาพประกอบ และภาพต้องเป็นไปตามตรรกะของข้อความ อธิบายถึงขั้นตอนไหน ภาพก็ต้องวาดถึงขั้นตอนนั้น โมเดลทั่วไปมักใช้วิธีสร้างโค้ดเพื่อแก้ปัญหานี้ เช่น การจัดองค์ประกอบแบบสตรีมมิ่งที่ Claude ใช้ หรือหน้าเว็บ Vibe Coding บางหน้า ซึ่งทั้งหมดสามารถรวมข้อความและภาพประกอบได้ อย่างไรก็ตาม การใช้โมเดลเดียวสร้างทั้งข้อความและภาพในสตรีมการตอบกลับ โดยไม่ต้องเรียกใช้เครื่องมือภายนอก โมเดลที่มีอยู่ในปัจจุบันไม่สามารถทำได้ เนื่องจากโดยพื้นฐานแล้ว การสร้างข้อความและการสร้างภาพเป็นสองสิ่งที่แยกจากกันในระดับโมเดล คุณสมบัติแรกของ SenseNova U1 คือการสร้างผลงานข้อความและภาพต่อเนื่องบนโมเดลเดียว
เราทดสอบสถานการณ์หนึ่ง โดยให้มันสร้างเรื่องราวในหนังสือภาพง่ายๆ เกี่ยวกับลูกหมีที่ผ่านฤดูกาลทั้งสี่
คำแนะนำ: โปรดสร้างเรื่องราวหนังสือภาพข้อความและภาพ ตัวเอกเป็นลูกหมีสีน้ำตาล เรื่องราวเล่าถึงการเปลี่ยนแปลงผ่านฤดูกาลทั้งสี่ ภาพและข้อความต่อเนื่องที่สร้างขึ้นไม่เพียงแต่เข้าใจถูกต้องและมีเนื้อเรื่อง แต่ยังคงความสอดคล้องกันได้ดี ในขณะเดียวกัน การเรนเดอร์ข้อความในภาพทั้งหมดก็แม่นยำ และลูกหมีก็สวมเสื้อกันหนาวและหมวกในฤดูหนาว จากการทดสอบพบว่า การใช้ SenseNova U1 สำหรับงานสร้างสรรค์ก็น่าสนใจมากเช่นกัน ในกรณีทดสอบอย่างเป็นทางการ อัปโหลดรูปถ่ายติดบัตรให้โมเดล แล้วขอให้มันออกแบบทรงผมที่แตกต่างกันหลายแบบ จะเห็นได้ว่า ในกระบวนการสร้างภาพและข้อความต่อเนื่องที่สมบูรณ์ ความสอดคล้องของบุคคล รวมถึงโครงสร้างและรายละเอียด SenseNova U1 สามารถรักษาไว้ได้อย่างแม่นยำ
คำแนะนำ: ช่วยออกแบบทรงผมที่เหมาะสมให้ฉันหน่อย หวังว่าสวยและมีเอกลักษณ์ แล้วช่วยเลือกทรงที่เหมาะกับฉันที่สุด
นอกจากนี้ยังสามารถให้มันออกแบบตัวละครในเกมโดยตรง แสดงกระบวนการวนซ้ำเชิงตรรกะตั้งแต่โทนภาพโดยรวม รายละเอียดการโต้ตอบหลัก ไปจนถึงการเล่าเรื่องสภาพแวดล้อมและลักษณะนิสัย
ที่น่าสนใจกว่านั้นคือ การใช้ SenseNova U1 สำหรับการสร้างสรรค์ตามลำดับเวลานั้นเหมาะสมมาก เราขอให้มันสร้างกระบวนการเปลี่ยนอะโวคาโดธรรมดาให้เป็นกระถางต้นไม้ในร่ม รูปแบบภาพและข้อความต่อเนื่องสามารถนำเสนอขั้นตอนการเติบโตที่สมบูรณ์ได้เป็นอย่างดี
คำแนะนำ: จะปลูกอะโวคาโดธรรมดาให้เป็นกระถางต้นไม้ในร่มได้อย่างไร
หลังจากการทดสอบหลายครั้ง ภาพไม่เคยหลุดจากตรรกะของข้อความ ตรรกะการอนุมานไปถึงไหน ภาพก็ตามไปถึงนั้น การรวมข้อความและภาพในอดีตอาจต้องเรียกใช้โมเดลและเครื่องมือต่างๆ เพื่อให้แน่ใจว่าข้อความและภาพในเนื้อหาการตอบกลับพูดถึงสิ่งเดียวกัน ตอนนี้ การเขียนนี้เกิดขึ้นภายในโมเดลโดยตรงตั้งแต่ระดับพื้นฐาน ไม่ว่าเครื่องมือหรือซอฟต์แวร์ใดก็ไม่จำเป็นต้องเข้าร่วมในกระบวนการจัดตำแหน่ง เราเพียงแค่เห็นผลลัพธ์สุดท้าย สำหรับผู้สร้างเนื้อหา นักออกแบบ และนักการตลาด การเกิดขึ้นของ SenseNova U1 เริ่มแก้ปัญหาที่มีมายาวนาน: จะทำให้ AI เขียนและวาดไปพร้อมกันได้อย่างไร และตรรกะของข้อความและภาพต้องสอดคล้องกันอย่างแนบเนียน
โอเพนซอร์สที่แข็งแกร่งที่สุดในปริมาณมาก
หลังจากยืนยันความสามารถในการสร้างและความเข้าใจแบบเนทีฟที่เป็นหนึ่งเดียวแล้ว เราต้องประเมินว่า SenseNova U1 สามารถทำผลงานได้ดีที่สุดในบรรดาโมเดลโอเพนซอร์สในการสร้างอินโฟกราฟิกที่ซับซ้อนหรือไม่ อินโฟกราฟิกคือการบีบอัดข้อความหรือข้อมูลที่ซับซ้อนจำนวนมากให้เป็นภาพที่เข้าใจได้ง่ายในทันที สิ่งนี้ยากกว่า “การวาดภาพที่สวยงาม” มาก ต้องเข้าใจเนื้อหา ระบุข้อมูลหลักและข้อมูลเสริม จัดระเบียบความสัมพันธ์เชิงตรรกะระหว่างข้อมูล และจัดการกับปัญหาการเรนเดอร์ข้อความ GPT Image 2 แบบปิดทำได้ดีในเรื่องนี้แล้ว ตอนแรกเราทดสอบโดยไม่คาดหวังมากนัก คิดว่ามันอาจจะเหนือกว่า GPT Image 2 แต่ประสิทธิภาพของ SenseNova U1 ก็สมควรได้รับฉายา SOTA โอเพนซอร์สอย่างแท้จริง ก่อนอื่นเราใช้ประโยคเดียว “อธิบาย DeepSeek V4 ด้วยอินโฟกราฟิกหนึ่งภาพ” โดยไม่มีคำแนะนำเพิ่มเติม เพื่อดูว่าอินโฟกราฟิกที่สร้างขึ้นจะมีประสิทธิภาพอย่างไร
สร้างโดย SenseNova U1
จะเห็นได้ว่า SenseNova U1 ค้นหาข้อมูลที่เกี่ยวข้องกับ DeepSeek V4 ทางอินเทอร์เน็ต เช่น มัลติโมดัลเนทีฟ พารามิเตอร์ล้านล้าน และโทเค็นบริบทนับล้าน นอกจากคำแนะนำง่ายๆ แล้ว ยังสามารถส่งลิงก์ไปให้มันโดยตรง SenseNova U1 มีเครื่องมือดึงข้อมูลเว็บเพจที่เกี่ยวข้อง ซึ่งสามารถดึงเนื้อหาเว็บและสร้างอินโฟกราฟิกได้ อินโฟกราฟิกประเภทความรู้ทั่วไปเหล่านี้ SenseNova U1 สามารถจัดการได้โดยพื้นฐาน ตัวอย่างที่ง่ายกว่า เช่น “อินโฟกราฟิกแยกชิ้นส่วน 3 มิติว่าบุหรี่ไฟฟ้าคืออะไร” ก็สามารถสร้างได้อย่างรวดเร็ว
สร้างโดย SenseNova U1
หากคำแนะนำมีรายละเอียดมากขึ้น มันก็สามารถเรนเดอร์ข้อความให้เป็นอินโฟกราฟิกที่มีการแสดงภาพในระดับสูงตามเนื้อหาคำแนะนำได้อย่างแม่นยำ
นอกจากนี้ยังมีเมนูสามเซียนโต้วผีอู่ฮั่นที่กำลังเป็นที่นิยม เพียงบอก SenseNova U1 โดยตรง ให้สร้างแผนภาพขั้นตอนการทำสามเซียนโต้วผีที่สมบูรณ์
ฤดูร้อนมาแล้ว การเลือกครีมกันแดดที่แตกต่างกัน อินโฟกราฟิกหนึ่งภาพสามารถอธิบายพารามิเตอร์การเลือกที่ซับซ้อน เช่น ค่า SPF และ PA ได้อย่างชัดเจน
หรือแม้แต่ให้มันวาดแผนภาพหลักการทำงานของโมเดลขนาดใหญ่ AI ตั้งแต่การฝึกจนถึงการอนุมาน เหมาะสำหรับผู้ที่ไม่เข้าใจเทคโนโลยีเลย SenseNova U1 สามารถใช้สไตล์ที่สนุกสนานและน่าสนใจเพื่ออธิบายกระบวนการทำงานของโมเดลขนาดใหญ่ AI อย่างง่ายๆ
ในการประยุกต์ใช้ในสถานการณ์อื่นๆ เช่น การตลาด สำนักงาน การอ้างอิงการออกแบบ และการวิเคราะห์ธุรกิจ เราได้ทดสอบประสิทธิภาพของ SenseNova U1 ด้วยตัวอย่างต่างๆ โดยทั่วไป สถานการณ์การตลาดมีความต้องการสูงสุดในด้านสไตล์ภาพ ซึ่งสามารถบ่งชี้ได้ดีที่สุดว่าโมเดลเข้าใจจริงหรือไม่ว่า “ผู้ใช้ต้องการสื่อถึงความรู้สึกอะไร” ภาพการตลาดที่ดีอาจถูกเข้าใจผิดว่าเป็นโฆษณาในบทความ WeChat เช่นเดียวกับอินโฟกราฟิกการเดินทางเซี่ยงไฮ้ที่สร้างโดย SenseNova U1 นี้ ไม่เพียงแต่วาดแผนที่ แต่ยังระบุลักษณะเด่นของเซี่ยงไฮ้ด้วย
ในสถานการณ์สำนักงาน ความสวยงามสำคัญกว่าความแม่นยำและประสิทธิภาพ เราทดสอบความสามารถในการประมวลผลข้อมูล โดยบีบอัดบันทึกการประชุม 5 หน้าให้เป็นภาพสรุปที่ดูได้ในหน้าจอเดียว โดยกำหนดให้ตรรกะชัดเจน เน้นประเด็นสำคัญ และเหมาะสำหรับส่งต่อให้เพื่อนร่วมงานที่ไม่ได้เข้าร่วมประชุม
นอกเหนือจากข้อมูลที่ซับซ้อน SenseNova U1 ยังสามารถให้การอ้างอิงสไตล์ภาพที่ดีได้ ให้คำอธิบายบุคลิกภาพของแบรนด์ แล้วขอให้สร้างภาพอ้างอิงสไตล์ที่มีคำแนะนำสี คำแนะนำการจัดวาง และคำสำคัญบรรยากาศ ผลลัพธ์ก็ออกมาใช้ได้
ในงานวิเคราะห์ข้อมูลบางอย่าง เรายังทดสอบความสามารถในการแสดงข้อมูลเป็นภาพของ SenseNova U1 โดยใช้แผนภูมิเพื่อนำเสนออินโฟกราฟิกที่สมเหตุสมผลมากขึ้น
จะเห็นได้ว่า SenseNova U1 ทำได้ดีในการสกัดข้อมูล มันเข้าใจเนื้อหาจริงๆ รู้ว่าอะไรสำคัญ อะไรรอง แต่ยังมีพื้นที่ให้ปรับปรุงในการแสดงภาพ บางครั้งการเรนเดอร์ข้อความอาจมีข้อผิดพลาด สำหรับสถานการณ์ที่ต้องการสร้างภาพอย่างรวดเร็วโดยไม่ต้องปรับแต่งในเครื่องมือออกแบบซ้ำแล้วซ้ำเล่า มันก็เพียงพอแล้ว
รูปลักษณ์ของโมเดลมัลติโมดัลตัวต่อไป
หลังจากทดสอบ SenseNova U1 จริง เราพบว่าความสำคัญของมันคือ มันเป็นโมเดลโอเพนซอร์สตัวแรกที่ทำ “การรวมความเข้าใจและการสร้าง” อย่างจริงจัง และนี่อาจเป็นทิศทางต่อไปของสาขามัลติโมดัลทั้งหมด การที่ GPT Image 2 กลายเป็นกระแส แสดงให้เห็นว่าเส้น “คุณภาพการสร้าง” ของการสร้างภาพถูกโมเดลปิดดึงให้สูงมาก หากโมเดลโอเพนซอร์สยังคงไล่ตามในมิติเดียวกัน อาจต้องใช้เวลานานกว่าจะตามทัน และคุณค่าของโอเพนซอร์สก็จะถูกบีบอัดเหลือเพียง “ถูก” SenseNova U1 นำเสนอเส้นทางเทคนิคที่แตกต่าง ซึ่งมีความสำคัญอย่างยิ่งต่อทิศทางของชุมชนโอเพนซอร์สทั้งหมด นอกเหนือจากการแก้ปัญหา “วิธีสร้างภาพที่ดีขึ้น” แล้ว มันยังบอกเราว่าขั้นตอนต่อไปของโมเดลมัลติโมดัลจะเป็นอย่างไร
SenseNova U1 ใช้สถาปัตยกรรมเนทีฟ NEO-unify แบบใหม่ในอุตสาหกรรม เพื่อให้เกิดการรวมความเข้าใจและการสร้างมัลติโมดัลอย่างมีประสิทธิภาพ ในอดีต โมเดลมัลติโมดัล การทำความเข้าใจภาพและการสร้างภาพเป็นสองระบบที่ทำงานร่วมกัน: ระบบหนึ่งรับผิดชอบการทำความเข้าใจอินพุต อีกระบบหนึ่งรับผิดชอบการสร้างเอาต์พุต โดยมีอินเทอร์เฟซส่งข้อมูลระหว่างกัน ทั้งสองระบบมีภาษาภายในของตัวเอง การส่งข้อมูลจะมีการสูญเสีย เหมือนคนสองคนสื่อสารด้วยซอฟต์แวร์แปลภาษา ความหมาย大致ถึง แต่บางอย่างก็ส่งผ่านไม่ได้ SenseNova U1 รวมสองสิ่งนี้เข้าไว้ในพื้นที่การแสดงผลเดียวกันตั้งแต่ระดับพื้นฐาน ในบล็อกเทคนิคเดือนมีนาคมปีนี้ พวกเขาได้อธิบายสถาปัตยกรรม NEO-unify นี้อย่างละเอียด ปัจจุบัน แนวปฏิบัติในอุตสาหกรรมโมเดลขนาดใหญ่คือ AI มัลติโมดัลต้องใช้ “ตัวเข้ารหัสภาพ (VE)” เพื่อบีบอัดและประมวลผลก่อนส่งให้ตัวสร้าง ในสถาปัตยกรรม NEO-unify SenseTime ทิ้งรูปแบบดั้งเดิมที่เทอะทะนี้โดยตรง SenseNova U1 ที่รวมกับโครงสร้าง NEO-unify ใช้อินเทอร์เฟซภาพที่ใกล้เคียงกับการไม่สูญเสีย มันกินภาพเป็นชิ้นส่วน (Patch) โดยตรง โดยไม่ผ่านการบีบอัดของตัวเข้ารหัสที่ฝึกไว้ล่วงหน้า จากนั้นในเครือข่ายหลักเดียวกัน ให้การฝึกข้อความและภาพแบบครบวงจรตั้งแต่ต้นจนจบ ในการทดสอบมาตรฐานต่างๆ ของความเข้าใจและการสร้าง ประสิทธิภาพของ SenseNova U1 ถึงระดับ SOTA ของโมเดลโอเพนซอร์สในขนาดเดียวกัน และแม้กระทั่งสามารถเทียบเคียงกับโมเดลปิด เช่น Nano Banana ในหลายตัวชี้วัด
ผลการทดสอบมาตรฐานการทำความเข้าใจภาพ การสร้างภาพ และการอนุมานภาพตามลำดับ
มันกลับไปสู่หลักการแรกของมัลติโมดัล สร้างการรับรู้ภายในของตัวเองจากพิกเซลและข้อความระดับพื้นฐาน สิ่งนี้ยังอธิบายได้ว่าทำไมมันใช้โทเค็นน้อยกว่าและมีประสิทธิภาพการสร้างสูงกว่า แม้แต่เวอร์ชันพารามิเตอร์ 8B ก็สามารถให้ความคุ้มค่าสูงสุดได้ โอเพนซอร์สครั้งนี้คือ SenseNova U1 Lite เวอร์ชันน้ำหนักเบา ปัจจุบันมีสองเวอร์ชัน: SenseNova-U1-8B-MoT พารามิเตอร์ 8B สามารถทำงานบนอุปกรณ์ Edge; SenseNova-U1-A3B-MoT พารามิเตอร์รวม 38B แต่เปิดใช้งานเพียง 3B ให้ความสามารถที่แข็งแกร่งขึ้น ในขณะที่ควบคุมต้นทุนการอนุมานให้ต่ำมาก
SenseNova U1 ได้เปิดเป็นโอเพนซอร์สบน GitHub และ Hugging Face แล้ว ลิงก์: https://github.com/OpenSenseNova/SenseNova-U1, https://huggingface.co/collections/sensenova/sensenova-u1 ทั้งสองเวอร์ชันสามารถปรับใช้ในเครื่อง ปรับแต่ง และเชื่อมต่อกับไปป์ไลน์ข้อมูลของตัวเองได้ สำหรับนักพัฒนาที่ต้องการฝังความสามารถในการสร้างภาพลงในผลิตภัณฑ์ สามารถควบคุมพฤติกรรมของโมเดลได้อย่างสมบูรณ์ และข้อมูลไม่จำเป็นต้องรั่วไหลออกไป หากคุณต้องการโมเดลที่สามารถสร้างและเข้าใจได้อย่างมีประสิทธิภาพ ในฐานะตัวแทนที่แข็งแกร่งที่สุดในบรรดาโมเดลโอเพนซอร์ส SenseNova U1 ก็คุ้มค่าที่จะลอง SenseTime ยังเปิดห้องสมุดทักษะ AIGC สำหรับรันไทม์ Agent ที่ชื่อ SenseNova-Skills บน GitHub เราสามารถเชื่อมต่อความสามารถอันทรงพลังของ SenseNova U1 เข้ากับเวิร์กโฟลว์ Agent ของเราได้โดยตรง การใช้ชุดเครื่องมือนี้ เราสามารถเรียกใช้ได้ในคลิกเดียวบนแพลตฟอร์ม Agent เช่น OpenClaw, Hermes โมเดลจะประเมินคำแนะนำโดยอัตโนมัติ เลือกรูปแบบที่เหมาะสม ผ่านการสร้างหลายรอบ และส่งออกผลลัพธ์อินโฟกราฟิกมืออาชีพที่ดีที่สุด
ลิงก์ Skills: https://github.com/OpenSenseNova/SenseNova-Skills
เมื่อทบทวนการทดสอบทั้งหมด SenseNova U1 ส่งมอบผลลัพธ์ที่ดี มันเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุดในขนาดเดียวกันที่เราสามารถหาได้ในขณะนี้ สำหรับผู้สร้าง ความสามารถในการสร้างข้อความและภาพต่อเนื่องแบบใหม่ในอุตสาหกรรมของมัน ทำลายอุปสรรคในอดีตที่ข้อความและภาพประกอบแยกจากกัน ทำให้การสร้างสรรค์ที่ต่อเนื่องของการคิด เขียน และวาดภาพประกอบกลายเป็นความจริง
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/32738
