โมเดลโอเพนซอร์ส 8B ในประเทศบดขยี้ 30B? การทดสอบจริงของ SenseNova U1 จาก商汤ในการสร้างข้อความและรูปภาพน่าทึ่ง

2 hours ago • โครงการโอเพนซอร์ส • 10 views

ทุกครั้งที่ผู้ใช้เพิ่งคุ้นเคยกับรูปแบบการเล่นใหม่ ก็จะมีสิ่งใหม่ๆ ตามมาติดๆ

เมื่อไม่นานมานี้ GPT Image 2 ที่ OpenAI เปิดตัวได้สร้างกระแสไปทั่วทั้งอินเทอร์เน็ต ไม่เพียงแต่สร้างภาพที่สวยงามได้ดีเท่านั้น แต่ยังทำให้ฟังก์ชัน “การสร้างอินโฟกราฟิก” ได้รับความนิยมอีกด้วย เช่น การ์ดความรู้ แผนภาพข้อมูล คู่มือภาพยาว โปสเตอร์วิทยาศาสตร์ เพียงแค่พูดคำเดียวก็สามารถสร้างภาพที่มี排版สวยงาม ข้อมูลชัดเจน และมีคุณภาพโดดเด่นได้ กระแสนี้แพร่กระจายอย่างรวดเร็ว ไม่แพ้กระแสสไตล์จิบลิในอดีต

อย่างไรก็ตาม สำหรับผู้ใช้ในประเทศจีน การได้สัมผัส GPT Image 2 ยังคงมีอุปสรรคอยู่บ้าง แล้วมีทางเลือกที่เข้าถึงง่ายกว่าและตอบโจทย์ผู้ใช้ในประเทศมากกว่านี้หรือไม่?

บังเอิญว่ามีจริงๆ

เมื่อเร็วๆ นี้ เราค้นพบโมเดลโอเพนซอร์สสัญชาติจีนที่ตอบโจทย์นี้ได้อย่างแม่นยำ นั่นคือซีรีส์ SenseNova U1 จาก商汤科技 ซึ่งเป็นโมเดลรวมความเข้าใจและการสร้างแบบดั้งเดิม

ฟังก์ชันที่โมเดลพารามิเตอร์ขนาดใหญ่ทำได้ โมเดลนี้ก็ทำได้เช่นกัน สิ่งที่เคยต้องใช้สมองและเวลามากมายในการประมวลผลเนื้อหา ตอนนี้แค่บรรยายความต้องการอย่างชัดเจน มันก็จะจัดการรวบรวมข้อมูล ออกแบบเลย์เอาต์ และนำเสนอด้วยภาพโดยอัตโนมัติ ส่งออกภาพที่ “ดูมืออาชีพ” ให้คุณทันที

ที่สำคัญกว่านั้น มันเป็นโอเพนซอร์สเต็มรูปแบบ และไม่จำกัดจำนวนครั้งในการใช้งาน

ผลลัพธ์ดังนี้:

โมเดลโอเพนซอร์ส 8B ในประเทศบดขยี้ 30B? การทดสอบจริงของ SenseNova U1 จาก商汤ในการสร้างข้อความและรูปภาพน่าทึ่ง

SenseNova U1 ไม่ได้มีความสามารถแค่ “วาดรูป” เท่านั้น มันใช้สถาปัตยกรรมใหม่แบบ NEO-unify ที่รวมความเข้าใจและการสร้างเข้าด้วยกัน ทำให้ภาษาและข้อมูลภาพทำงานร่วมกันได้อย่างแท้จริง ดังนั้น ด้วยขนาดพารามิเตอร์เล็กเพียง 8B มันก็สามารถให้ผลลัพธ์เทียบเท่ากับโมเดลเชิงพาณิชย์แบบปิดหลายตัวได้อย่างมีประสิทธิภาพสูง

เนื่องจากสามารถนำข้อมูลภาพเข้ามาในห่วงโซ่การคิดได้โดยตรง มันจึงเป็นเจ้าแรกในอุตสาหกรรมที่สร้างรูปแบบการสร้างเนื้อหาภาพและข้อความต่อเนื่อง

นอกจากนี้ สิ่งที่น่าสนใจคือ 商汤ได้เปิดโอเพนซอร์สซีรีส์ SenseNova U1 เวอร์ชันไลท์เวท ได้แก่ SenseNova U1 Lite ซึ่งประกอบด้วยสองเวอร์ชันคือ SenseNova-U1-8B-MoT และ SenseNova-U1-A3B-MoT

GitHub: https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face: https://huggingface.co/collections/sensenova/sensenova-u1

แม้โมเดลจะมีขนาดเล็ก แต่ในหลายมิติของการวัดประสิทธิภาพ มันก็มีประสิทธิภาพอยู่ในระดับนำ

ในการทดสอบมาตรฐานความเข้าใจและการสร้างภาพ SenseNova-U1-8B-MoT ทำผลงานได้โดดเด่นมาก แม้จะเป็นโมเดลระดับ 8B แต่ก็ทำคะแนนนำในการทดสอบความเข้าใจทั่วไป ความเข้าใจเชิงพื้นที่ และอื่นๆ อีกมากมาย แซงหน้าโมเดลขนาดใหญ่กว่า เช่น Qwen3VL-30B-A3B, Gemma4-26B-A4B กล่าวโดยสรุป SenseNova-U1-8B-MoT ไม่ได้ชนะด้วยการเพิ่มพารามิเตอร์ แต่ด้วยขนาดที่เล็กกว่า ทำให้มีความสามารถในการเข้าใจมัลติโมดัลที่มีประสิทธิภาพมากขึ้น

ในการทดสอบมาตรฐานการสร้างภาพ SenseNova U1 Lite ได้คะแนนสูงถึง 39.8 ในหนึ่งในตัวชี้วัดของการสร้างอินโฟกราฟิก นำหน้าโมเดลอย่าง Qwen-Image ซึ่งแสดงให้เห็นว่าในการจัดการข้อมูลที่มีความยากและความหนาแน่นสูงและแปลงเป็นแผนภูมิ SenseNova U1 มีความสามารถในการจัดระเบียบตรรกะที่ล้ำหน้าในอุตสาหกรรม

ในมิติการเรนเดอร์ข้อความ SenseNova U1 Lite ทำคะแนนได้เกือบนำทุกด้าน สิ่งที่ AI กลัวที่สุดในการสร้างภาพคือข้อความพัง ผลการทดสอบนี้พิสูจน์ให้เห็นถึงความแม่นยำของ SenseNova U1 Lite ในการแสดงข้อความเป็นภาพ

การให้เหตุผลเชิงภาพเป็นพื้นที่ที่ AI “พลาด” ได้ง่ายที่สุด เพราะมันต้องการให้โมเดลไม่เพียงแค่เข้าใจภาพ แต่ยังต้องใช้ตรรกะที่ซับซ้อนในการให้เหตุผล SenseNova U1 (คะแนน VBVR (UMM)) ได้คะแนนสูงถึง 60.5 แซงหน้าโมเดลเปรียบเทียบ (เช่น Nano-Banana ที่ได้ 49.6) ซึ่งหมายความว่าในการจัดการการให้เหตุผลความสัมพันธ์เชิงภาพที่ซับซ้อน มันฉลาดกว่าโมเดล同类

ในมิติ WISE มันได้คะแนนยอดเยี่ยม 69.0 นำหน้า Qwen-Image (63.0) และโมเดลอื่นๆ อีกมากมาย ซึ่งแสดงให้เห็นว่าในการปรับเปลี่ยนภาพตามความตั้งใจของมนุษย์ มันผสานการวิเคราะห์ “คำสั่ง” และการควบคุม “พิกเซล” ได้แน่นแฟ้นยิ่งขึ้น

คะแนน GEdit-Bench อยู่ที่ 7.47 ซึ่งอยู่ในระดับสูงสุดในกลุ่มโมเดลโอเพนซอร์สขนาดเดียวกัน และดีกว่าโซลูชันเชิงพาณิชย์แบบปิดบางตัวที่มีพารามิเตอร์ใหญ่กว่า

หลังทดสอบจริง พบว่านี่คือเครื่องมือเพิ่มประสิทธิภาพที่คุณต้องการ

การดูแค่排行榜ก็ไม่สนุกแน่นอน

SenseNova U1 Lite เป็นรายแรกในอุตสาหกรรมที่สามารถสร้างเนื้อหาภาพและข้อความต่อเนื่องได้

วิธีการทำงานของโมเดลดั้งเดิมคือ: คิดปัญหาด้วยข้อความก่อน จากนั้นเรียกใช้เครื่องมือภายนอกเพื่อสร้างภาพ ซึ่งเป็นสองขั้นตอน สองระบบ และต้องมี “คนกลาง” ในการเชื่อมต่อ SenseNova U1 Lite ทำลายกำแพงนี้ มันสามารถสร้างภาพและข้อความพร้อมกันในกระบวนการให้เหตุผลเดียวกัน แผนภาพ แผนผัง ภาพร่าง จะปรากฏขึ้นในขณะที่มันกำลังให้เหตุผล ไม่ใช่รอให้เหตุผลเสร็จแล้วค่อยใส่เข้าไป

มาดูผลลัพธ์จริงกัน

ให้มันสร้างหนังสือภาพเรื่องราวของกระต่ายน้อยกับหมาป่าใหญ่

จากผลลัพธ์จะเห็นว่า SenseNova U1 Lite สามารถดำเนินเรื่องไปพร้อมๆ กับสร้างภาพประกอบฉากที่สอดคล้องกัน ภาพและข้อความมาจากกระบวนการคิดเดียวกัน มีตรรกะที่สอดคล้องและสไตล์ที่เป็นหนึ่งเดียว

ถ้าอยากเรียนรู้การเคลื่อนกล้องในภาพยนตร์ ก็สามารถถาม SenseNova U1 Lite ได้ มันจะให้คำอธิบายเป็นข้อความและภาพประกอบไปพร้อมกัน และรักษาความสอดคล้องของตัวละครได้ดี ซึ่งเข้าใจง่ายกว่าคำแนะนำที่เป็นข้อความล้วนๆ และมีตรรกะมากกว่าภาพประกอบล้วนๆ

ความสามารถในการคิดพร้อมภาพนี้คือความสามารถในการเข้าใจและสร้างภาพและข้อความแบบดั้งเดิมของ SenseNova U1 มันสามารถผสานภาพและข้อความจากระดับพื้นฐาน ทำให้เกิดการคิดที่มีประสิทธิภาพและต่อเนื่อง และการสลับระหว่างภาพและข้อความ ไม่เพียงแต่มีประสิทธิภาพสูง แต่ยังใกล้เคียงกับรูปแบบความเข้าใจและการแสดงออกของมนุษย์มากขึ้น

เรายังลองใช้ SenseNova U1 Lite ในการสร้างอินโฟกราฟิกที่มีข้อมูลหนาแน่นและซับซ้อน

อินโฟกราฟิกแก้ปัญหาการแสดงออกที่แท้จริง: เอกสารวิชาการ รายงานวิจัย ขั้นตอนการทำงาน ความรู้ รูปแบบดั้งเดิมมักมีความหนาแน่นสูงและโครงสร้างไม่ชัดเจน คนส่วนใหญ่เห็นแล้วอยากปิด แต่อินโฟกราฟิกที่ดีสามารถจัดระเบียบเนื้อหาเดียวกันใหม่ ทำให้ผู้อ่านเข้าใจ核心ได้ภายในไม่กี่วินาที

ขั้นแรก เราสร้างอินโฟกราฟิกทรงผมสั้นสำหรับสาวน่ารัก SenseNova U1 Lite ก็ยังคงคุณภาพได้ดี

ในตัวอย่างถัดไป ภาพโหราศาสตร์และไพ่ทาโรต์ที่ SenseNova U1 Lite สร้างขึ้นมีสไตล์หรูหรา เต็มไปด้วยองค์ประกอบลึกลับ ถ้าคุณสนใจราศี ลองสร้างแผนภูมิราศีของคุณเองดู

เอกสารวิชาการที่อ่านไม่จบ ส่งให้มันจัดการ

เมื่อเร็วๆ นี้ Google DeepMind เผยแพร่เอกสารวิชาการที่ได้รับความสนใจชื่อ “Image Generators are Generalist Vision Learners” ซึ่งมีเนื้อหาหนาแน่น ต้องอ่านซ้ำหลายรอบถึงจะเข้าใจโครงสร้าง เราส่งบทคัดย่อให้ SenseNova U1 Lite สร้างแผนภาพ มันไม่เพียงแค่จัดเรียงข้อความใหม่ แต่ดึงข้อเรียกร้องหลัก วิธีการเชิงตรรกะ และข้อสรุปสำคัญของเอกสารออกมาจริงๆ และนำเสนอด้วยโครงสร้างภาพที่เข้าใจง่าย ทำให้เอกสารวิชาการที่ต้องใช้เวลาอ่านอย่างตั้งใจ กลายเป็นสิ่งที่เข้าใจได้อย่างรวดเร็ว

ที่อยู่เอกสาร: https://arxiv.org/abs/2604.20329v1

จากนั้น เราเปลี่ยนหัวข้อเป็นอย่างอื่น: ให้โมเดลสร้างอินโฟกราฟิก “ข้อห้ามในยุทธภพ”

เนื้อหาประเภทนี้ดูเหมือนง่าย แต่จริงๆ แล้วทดสอบความสามารถในการแสดงออกเชิงโครงสร้างของโมเดล เพราะต้องมีกลิ่นอายยุทธภพ และให้ผู้อ่านเข้าใจกฎได้ในพริบตา

ผลลัพธ์ของ SenseNova U1 Lite ก็น่าสนใจ มันแบ่งข้อห้ามในยุทธภพออกเป็นส่วนๆ ที่ชัดเจน เช่น ห้ามแอบเรียนวิชาต่อสู้ ห้ามยิงธนู暗器จากด้านหลัง เป็นต้น

คู่มือเอาชีวิตรอดในยุทธภพของกิมย้ง:

ต่อไป เราสร้างอินโฟกราฟิก “คู่มือมะนาวอเนกประสงค์” SenseNova U1 Lite จัดการได้อย่างชาญฉลาด มันแบ่งประโยชน์ของมะนาวออกเป็นส่วนๆ ที่ชัดเจน: การทำอาหาร การทำความสะอาดบ้าน การบำบัดจิตใจ

สร้างอินโฟกราฟิกของหนังสือคลาสสิก “The Golden Bough” โดย James George Frazer:

คู่มือการปักผ้าเบื้องต้น:

โปสการ์ดเมือง:

จากผลการทดสอบข้างต้น เมื่อเจอกับสถานการณ์ที่มีข้อมูลหนาแน่นสูง SenseNova U1 Lite จัดการได้อย่างคล่องแคล่ว

สถาปัตยกรรมแบบรวมที่มีประสิทธิภาพ ทำให้โมเดลเล็กทำงานได้เหมือนโมเดลใหญ่

หลังจากดูผลลัพธ์จริงเหล่านี้ คำถามสำคัญก็เกิดขึ้น: มันทำได้อย่างไร?

ในอดีต AI มัลติโมดัลถูกครอบงำโดยรูปแบบตายตัว: ตัวเข้ารหัสภาพ负责รับรู้และเข้าใจ บีบอัดภาพเป็นเวกเตอร์คุณลักษณะแล้วป้อนให้โมเดลภาษา ตัวเข้ารหัสอัตโนมัติแบบแปรผัน负责สร้างภาพ ถอดรหัสความตั้งใจของโมเดลภาษาเป็นพิกเซล สองระบบทำงานแยกกัน ดูเหมือนแบ่งหน้าที่ชัดเจน แต่กลับสร้างรอยแยกตามธรรมชาติระหว่างความเข้าใจและการสร้าง

ปัญหาอยู่ที่การ “บีบอัด” ตัวเข้ารหัสภาพแปลงภาพเป็นเวกเตอร์คุณลักษณะ ซึ่ง本质上คือการคัดกรองข้อมูลที่มีการสูญเสีย มันกำหนดล่วงหน้าว่ารายละเอียดภาพใดควรเก็บไว้และสิ่งใดควรทิ้ง และการตัดสินใจนี้เกิดขึ้นก่อนที่โมเดลจะเริ่มคิดจริงๆ ฝั่งการสร้างก็เช่นกัน: ตัวถอดรหัสสามารถสร้างภาพใหม่จากผลลัพธ์ความเข้าใจของโมเดลภาษาเท่านั้น ไม่ใช่จากพิกเซลดั้งเดิม ทั้งสองฝ่ายใช้ข้อมูลมือสองในการทำงาน รอยแยกจึงเกิดขึ้น

เส้นทางนี้ไม่ได้ไร้ค่า ตรงกันข้าม มันเป็นพื้นฐานสำคัญสำหรับการพัฒนาอย่างรวดเร็วของโมเดลมัลติโมดัลในช่วงไม่กี่ปีที่ผ่านมา แต่ข้อบกพร่องก็ชัดเจน: ทุกครั้งที่ผ่านโมดูล ข้อมูลจะถูกแปลงหนึ่งครั้ง ทุกครั้งที่แปลง อาจเกิดการสูญเสีย โดยเฉพาะอย่างยิ่งสำหรับภาพซึ่งเป็นโมดัลที่มีความหนาแน่นของข้อมูลสูง เมื่อถูกบีบอัดมากเกินไป รายละเอียด ความสัมพันธ์เชิงพื้นที่ โครงสร้าง局部 อาจถูกทำให้อ่อนลง เมื่อถึงขั้นตอนการสร้าง โมเดลจะพยายามสร้างข้อมูลเหล่านี้ขึ้นมาใหม่ได้ยากขึ้นมาก

นี่คือสาเหตุที่โมเดลมัลติโมดัลหลายตัวมีความรู้สึกไม่ต่อเนื่องกัน: มันอาจบอกได้ว่ามีอะไรในภาพ แต่ไม่สามารถวาดโครงสร้างที่ซับซ้อนได้อย่างแม่นยำ มันอาจสร้างภาพที่สวยงามได้ แต่ไม่เข้าใจความสัมพันธ์เชิงตรรกะในข้อความจริงๆ มันอาจสร้างภาพเดี่ยวได้ แต่เมื่อต้องสร้างเนื้อหาภาพและข้อความหลายภาพที่มีสไตล์一致และตรรกะต่อเนื่อง มักเกิดความไม่สอดคล้องกัน รายละเอียดเลื่อนไหล เลย์เอาต์ยุ่งเหยิง

คำตอบของ SenseNova U1 Lite คือสถาปัตยกรรมมัลติโมดัลแบบดั้งเดิมที่ชื่อ NEO-Unify ซึ่งออกแบบมาเพื่อแก้ไขรอยแยกระหว่างความเข้าใจและการสร้าง

แนวคิดหลักคือการรวบรวมขั้นตอนที่แยกจากกันเหล่านี้ให้มากที่สุดเท่าที่จะทำได้ในสถาปัตยกรรมแบบรวมเดียว มันไม่ถือว่าภาพและภาษาเป็นสองระบบที่ต้องแปลกันอีกต่อไป แต่ให้ข้อมูลภาพและข้อมูลข้อความมีส่วนร่วมในการคำนวณร่วมกันในพื้นที่ภายในเดียวกัน ด้วยวิธีนี้ เมื่อโมเดลจัดการงานภาพและข้อความ มันไม่จำเป็นต้องส่งต่อระหว่าง “ระบบดูภาพ” “ระบบภาษา” และ “ระบบสร้าง” แต่สามารถ完成การรับรู้ ความเข้าใจ การให้เหตุผล และการแสดงออกภายในโมเดลเดียวกัน

ข้อดีแรกที่ได้คือเส้นทางข้อมูลสั้นลง

ในสถาปัตยกรรมดั้งเดิม โมเดลต้องผ่านหลายขั้นตอนในการทำงานภาพและข้อความที่ซับซ้อน เช่น “ดูภาพ→เข้าใจ→วางแผน→สร้าง→แก้ไข” และแต่ละขั้นตอนมีต้นทุนในการจัดตำแหน่ง สถาปัตยกรรมแบบรวมของ SenseNova U1 Lite เหมือนกับการบีบอัดขั้นตอนเหล่านี้เข้าไปในสมองเดียวกัน ให้โมเดลสามารถเข้าใจเนื้อหา จัดองค์ประกอบภาพ และรักษาความสอดคล้องทางความหมายและภาพไปพร้อมกัน โดยไม่ต้องมีตัวกลางในการแปล โมเดลสามารถใช้ทรัพยากรการคำนวณมากขึ้นสำหรับความเข้าใจและการสร้างที่แท้จริง แทนที่จะ消耗ในการเชื่อมต่อระหว่างโมดูล

ข้อดีที่สองคือประสิทธิภาพสูงขึ้น

ผ่านการรวมสถาปัตยกรรม ลดการสูญเสียข้อมูลและค่าใช้จ่ายในกระบวนการที่ไม่จำเป็น ทำให้โมเดลขนาดเล็กสามารถปลดปล่อยความสามารถที่มีประสิทธิภาพสูงขึ้นได้

นี่คือเหตุผลที่ SenseNova-U1-8B-MoT น่าสนใจเป็นพิเศษ ขนาดโมเดลระดับ 8B ไม่ได้ใหญ่ แต่ในงานสร้างภาพ แก้ไขภาพ อินโฟกราฟิกที่ซับซ้อน การให้เหตุผลเชิงภาพ มันสามารถ接近甚至追上โมเดลเชิงพาณิชย์ขนาดใหญ่บางตัว เบื้องหลังไม่ใช่แค่ “โมเดลเล็กเอาชนะโมเดลใหญ่” แต่เป็นสถาปัตยกรรมแบบรวมที่ทำให้การใช้การคำนวณมีประสิทธิภาพมากขึ้น โมเดลไม่ต้องใช้ความสามารถมากเกินไปในการชดเชยการสูญเสียจากการแยกโมดูล

สิ่งนี้สามารถยืนยันได้จากผลการทดลองบางส่วน:

ดังรูปด้านล่าง SenseNova-U1-8B-MoT อยู่ทางซ้ายค่อนข้างมาก ความหน่วงประมาณ 15 วินาที/ภาพ 2K ซึ่งเป็นความเร็วในการสร้างที่โดดเด่นที่สุดในบรรดาโมเดลเปรียบเทียบทั้งหมด ในขณะเดียวกัน คะแนนเฉลี่ยของมัน接近 67 คะแนน ซึ่งอยู่ในช่วงคะแนนกลางถึงสูงของโมเดลเชิงพาณิชย์กระแสหลัก

ซึ่งหมายความว่าข้อได้เปรียบของ SenseNova-U1-8B-MoT อยู่ที่ประสิทธิภาพ: มันไม่ได้พึ่งพาเวลาสร้างที่ยาวนานขึ้นเพื่อแลกกับประสิทธิภาพ แต่รักษาคุณภาพการสร้างที่สูงภายใต้เงื่อนไขความหน่วงต่ำ เมื่อเทียบกับโมเดลเชิงพาณิชย์บางตัวที่ได้คะแนนสูงกว่าแต่ใช้เวลา 30 วินาที 70 วินาทีหรือนานกว่านั้น มันใกล้เคียงกับสถานะที่ต้องการในการผลิตจริง: สร้างภาพเร็ว คุณภาพใช้ได้ การตอบสนองเสถียร

กล่าวอีกนัยหนึ่ง ถ้าดูแค่คะแนนสูงสุด GPT-Image-2.0, Nano Banana Pro และโมเดลอื่นๆ ยังคงอยู่ในระดับแรก แต่ถ้ารวมความเร็วเข้าไปด้วย ตำแหน่งของ SenseNova-U1-8B-MoT ก็โดดเด่นมาก มันใช้เวลาสั้นกว่าในการสร้างผลลัพธ์ที่ใกล้เคียงกับโมเดลเชิงพาณิชย์กระแสหลัก แสดงให้เห็นถึงความสามารถในการ产出ต่อหน่วยเวลาที่สูง

Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

บทสรุป

ในวงการ AI คำว่า “โอเพนซอร์ส” กำลังถูกทำให้เจือจางอย่างรุนแรง บางแห่งเปิดแค่น้ำหนักโมเดล แต่ไม่เปิดโค้ด บางแห่งยังตั้งข้อจำกัดทางการค้าต่างๆ โอเพนซอร์สเป็นแค่คำพูดเพื่อเรียกความสนใจ

商汤ครั้งนี้เลือกที่จะเปิดโอเพนซอร์สโมเดลพารามิเตอร์ทั้งสองตัวแบบเต็มรูปแบบ โค้ด托管บน GitHub น้ำหนักโมเดลดาวน์โหลดพร้อมกันบนแพลตฟอร์ม Hugging Face และรายงานทางเทคนิคฉบับสมบูรณ์จะถูกเผยแพร่ในเร็วๆ นี้

ในสถานการณ์ปัจจุบันของโมเดลมัลติโมดัลขนาดใหญ่ การเปิดโอเพนซอร์สโมเดลที่มีนวัตกรรมในระดับสถาปัตยกรรมและได้ดำเนินเส้นทาง “ความเข้าใจ-การสร้าง-การรวม” หมายความว่าวิธีการนี้สามารถถูกตรวจสอบซ้ำโดยวงการวิชาการ ถูก打磨อย่างต่อเนื่องโดยชุมชนนักพัฒนา และยังให้โครงสร้างพื้นฐานที่พร้อมใช้งานโดยตรงแก่พันธมิตรในอุตสาหกรรม

โดยเฉพาะอย่างยิ่ง รูปร่างเล็ก พลังงานมาก ประสิทธิภาพสูง ช่วยให้นักพัฒนาสามารถเพลิดเพลินกับความสามารถที่มีประสิทธิภาพสูงได้แม้ในสภาพแวดล้อมที่ทรัพยากรจำกัด และ发挥ความสามารถที่เหนือระดับ

เมื่อทั้งอุตสาหกรรมกำลังไล่ตามคุณภาพการสร้างภาพของ GPT Image 2 商汤กำลังเดิมพันที่การรวมตัวกันเอง และเมื่อเปิดโอเพนซอร์สเต็มรูปแบบ เส้นทางนี้ตอนนี้เป็นของทุกคน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง