เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ทีม Tencent Hunyuan เสนอ HiVG: นิยามใหม่ของกระบวนทัศน์การออกแบบ Token สำหรับการสร้าง SVG

ในขณะที่อุตสาหกรรมมุ่งเน้นการขยายขนาดโมเดล การวิจัยชิ้นหนึ่งเปลี่ยนแนวคิด: แทนที่จะเพิ่มพารามิเตอร์อย่างไม่สิ้นสุด ลองกลับมาคิดใหม่ตั้งแต่พื้นฐานว่า “จะออกแบบ Token สำหรับ SVG อย่างไร”

โมเดล HiVG ที่มีพารามิเตอร์เพียง 3B สามารถเอาชนะโมเดลปิดต้นฉบับอย่าง GPT-5.2, Claude-4.5-Sonnet ในหลายเมตริกของงานสร้าง SVG

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

สรุปสาระสำคัญ:
HiVG เป็นเฟรมเวิร์กการแบ่งคำแบบลำดับชั้นสำหรับการสร้าง SVG โดย ลดจำนวน Token ลง 63.8% พร้อมกับใช้พารามิเตอร์เพียง 3B ก็สามารถเอาชนะโมเดล SVG แบบเปิดต้นฉบับทั้งหมดที่นำมาเปรียบเทียบ รวมถึง โมเดลปิดต้นฉบับอย่าง GPT-5.2 ในหลายเมตริก

ภูมิหลัง: ความท้าทายในการสร้าง SVG

กราฟิกแบบเวกเตอร์ (SVG) ได้รับความนิยมจากนักออกแบบและนักพัฒนาด้วยข้อดีหลายประการ เช่น ขยายได้ไม่จำกัดโดยไม่สูญเสียความคมชัด ขนาดไฟล์เล็ก และแก้ไขได้ง่าย ด้วยการพัฒนาของโมเดลภาษาขนาดใหญ่ (LLM) นักวิจัยเริ่มลองมอง SVG เป็น “โค้ด” เพื่อสร้าง — โดยให้ผลลัพธ์เป็นโค้ดเวกเตอร์ที่สามารถเรนเดอร์ได้โดยตรงจากคำอธิบายข้อความหรือภาพอ้างอิง

อย่างไรก็ตาม วิธีการที่มีอยู่ในปัจจุบันมีปัญหาพื้นฐานที่ถูกประเมินต่ำเกินไป: วิธีการแบ่งคำที่ไม่เหมาะสม

วิธีการหลักยังคงใช้ตัวแบ่งคำแบบ BPE จากสาขาประมวลผลภาษาธรรมชาติ来处理โค้ด SVG แต่แกนกลางของ SVG คือ “พิกัดเรขาคณิต” ไม่ใช่ “อักขระข้อความ” ตัวอย่างเช่น ค่าพิกัด “100” จะถูก BPE แยกออกเป็น Token อิสระสามตัวคือ “1”, “0”, “0” ส่งผลให้ตัวเลขที่สัมพันธ์กันอย่างใกล้ชิดในเชิงพื้นที่ถูกแยกออกจากกันในการแสดง Token การแยกนี้ก่อให้เกิดผลร้ายแรงสองประการ:

1. ภาพหลอนพิกัด (Coordinate Hallucination): โมเดลเข้าใจความสัมพันธ์เชิงพื้นที่ระหว่างพิกัดได้ยาก ส่งผลให้ผลลัพธ์ที่ได้ไม่สมเหตุสมผลทางเรขาคณิตบ่อยครั้ง
2. การระเบิดของ Token ที่ซ้ำซ้อน: ไอคอนง่ายๆ อาจต้องใช้ Token หลายร้อยตัว来表示 ส่งผลเสียอย่างรุนแรงต่อประสิทธิภาพการฝึกและอนุมาน

ด้านหนึ่งคือความหนาแน่นข้อมูลสูงของ Token ภาษาธรรมชาติ (หน่วยความหมายหนึ่งหน่วยมักต้องการเพียง 1-2 Token) อีกด้านหนึ่งคือ Token พิกัดจำนวนมากที่มีความหนาแน่นข้อมูลต่ำในโค้ด SVG — ความไม่ตรงกันในการแสดงนี้ คือ คอขวดสำคัญที่จำกัดคุณภาพการสร้าง SVG

เมื่อรากเหง้าของปัญหาอยู่ที่การออกแบบ Token เป็นไปได้หรือไม่ที่จะนิยามกระบวนทัศน์การแบ่งคำสำหรับ SVG ใหม่ตั้งแต่พื้นฐาน? HiVG ให้คำตอบที่เป็นไปในทางบวก

แนวทางทางเทคนิค: การแบ่งคำแบบลำดับชั้น ทำให้แต่ละ Token บรรจุความหมายทางเรขาคณิต

แนวคิดหลัก: จากเศษอักขระสู่หน่วยเรขาคณิตที่ปฏิบัติการได้

ความเข้าใจลึกซึ้งหลักของ HiVG คือ: SVG ไม่ใช่ข้อความธรรมดา มันคือโปรแกรมเรขาคณิตที่ปฏิบัติการได้ ตัวแบ่งคำควรเคารพในธรรมชาติข้อนี้

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

เปรียบเทียบกลยุทธ์การแบ่งคำสามแบบ

ดังแสดงในภาพด้านบน สำหรับโค้ด SVG เดียวกัน:
* (a) ตัวแบ่งคำข้อความทั่วไป (LLM): แยกอย่างรุนแรงเป็น Token เศษอักขระ 10 ตัว ข้อมูลพิกัดกระจัดกระจายโดยสิ้นเชิง
* (b) ตัวแบ่งคำที่รับรู้ SVG (วิธีการที่มีอยู่): ระบุแท็กองค์ประกอบ SVG ได้ แต่พิกัดยังคงถูกแยกทีละตัว สร้าง Token 7 ตัว
* (c) ตัวแบ่งคำ HiVG: รวมคำสั่งวาดภาพและพารามิเตอร์พิกัดทั้งหมดที่เกี่ยวข้องเป็น โทเค็นส่วนของเส้นทางเวกเตอร์ที่ปฏิบัติการได้ หนึ่งหน่วย ต้องการเพียง 2 Token

วิถีการบีบอัด Token: 10 → 7 → 2 สะท้อนให้เห็นพลังของการแบ่งคำแบบลำดับชั้น

ชั้นที่หนึ่ง: อะตอมโทเค็น

HiVG แยกวิเคราะห์สตริง SVG ดั้งเดิมเป็นอะตอมโทเค็นสี่ประเภทที่ไม่สามารถแบ่งย่อยได้อีก:

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

การออกแบบที่สำคัญ: พารามิเตอร์เส้นทางใช้การแสดง พิกัดสัมพัทธ์ คำสั่งแรกของแต่ละเส้นทางใช้พิกัดสัมบูรณ์เพื่อกำหนดตำแหน่ง ส่วนพารามิเตอร์ต่อมาแสดงเป็นออฟเซ็ตสัมพันธ์กับจุดก่อนหน้า สิ่งนี้ไม่เพียงลดความแปรปรวนของโมเดลต่อการเคลื่อนที่แบบขนานทั่วโลก แต่ยัง เพิ่มความสามารถในการค้นพบรูปแบบเรขาคณิตที่ซ้ำกัน อย่างมาก ซึ่งเป็นพื้นฐานสำหรับการบีบอัดในชั้นถัดไป

ชั้นที่สอง: เส้นทางโทเค็นส่วน — นวัตกรรมสำคัญ

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ภาพรวมเฟรมเวิร์ก HiVG

นี่คือการออกแบบที่เป็นนวัตกรรมที่สุดของ HiVG เหนืออะตอมโทเค็น HiVG ถือว่า「คำสั่งวาดภาพ + พารามิเตอร์พิกัดทั้งหมดของมัน」เป็น ส่วนเรขาคณิตเวกเตอร์ ที่แยกออกจากกันไม่ได้โดยรวม

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

จากนั้น ดำเนินการจับคู่และรวมแบบวนซ้ำบนคอร์ปัส SVG ขนาดใหญ่ (แนวคิดคล้ายกับ BPE แต่ทำงานในระดับส่วน ไม่ใช่ระดับอักขระ) เพื่อรวมส่วนที่ปรากฏร่วมกันบ่อยและอยู่ติดกันเป็นเส้นทางโทเค็นส่วนแบบผสมใหม่

ข้อจำกัดหลัก: การรวมเกิดขึ้นเฉพาะที่ขอบเขตของส่วนเท่านั้น และผลลัพธ์การรวมต้องเป็นหน่วยเรขาคณิตที่ถูกต้องตามไวยากรณ์และสามารถเรนเดอร์ได้ ซึ่งหมายความว่าแต่ละเส้นทางโทเค็นส่วนที่เรียนรู้มาจะสอดคล้องกับไพรมิทีฟเรขาคณิต SVG ที่ปฏิบัติการได้จริง

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ตัวอย่างเส้นทางโทเค็นส่วนที่เรียนรู้มา

ภาพด้านบนแสดงเส้นทางโทเค็นส่วนที่เรียนรู้มาจริง เช่น ส่วนโค้งวงรี, มุมฉาก, เส้นโค้งเบซิเยร์, ส่วนโค้งครึ่งวงกลม — เหล่านี้คือไพรมิทีฟเรขาคณิตที่ใช้บ่อยที่สุดในการออกแบบ SVG โทเค็นแต่ละประเภทดังกล่าวปรากฏในคอร์ปัสด้วยความถี่สูงถึง 15000-20000 ครั้ง ซึ่งพิสูจน์ว่าพวกมันจับโครงสร้างเรขาคณิตที่นำกลับมาใช้ใหม่ได้จริง

ผลการบีบอัด: เมื่อเทียบกับสตริง SVG ดั้งเดิม เส้นทางโทเค็นส่วนบีบอัดความยาวลำดับได้ 62.7%-63.8% (2.68×-2.76×)

การกำหนดค่าเริ่มต้น HMN: มอบความสามารถการรับรู้พื้นที่เริ่มต้นให้กับ Token พิกัด

เมื่อแนะนำ Token SVG ใหม่เข้าไปใน LLM ที่ผ่านการฝึกล่วงหน้าแล้ว จะกำหนดค่าเริ่มต้นเวกเตอร์ฝังตัวของพวกมันอย่างไร? การกำหนดค่าเริ่มต้นแบบสุ่มจะทำลายการกระจายตัวของพื้นที่ที่ฝึกล่วงหน้า การใช้ค่าเฉลี่ยทั่วโลกกำหนดค่าเริ่มต้นจะทำให้สูญเสียความสัมพันธ์เชิงโครงสร้างระหว่าง Token

HiVG เสนอ กลยุทธ์การกำหนดค่าเริ่มต้นแบบลำดับชั้นค่าเฉลี่ย-สัญญาณรบกวน (HMN):

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

แผนผังการกำหนดค่าเริ่มต้น HMN

เวกเตอร์ฝังตัวของ Token ใหม่แต่ละตัวประกอบด้วยสี่ส่วน:
e_t = λ_μ * μ + λ_n * ϵ + w_sem * Φ(desc_t) + w_num * d_t
* ค่าเฉลี่ยทั่วโลก+สัญญาณรบกวน (μ+ϵ): รักษาการจัดตำแหน่งกับการกระจายตัวของคำศัพท์ที่ฝึกล่วงหน้า พร้อมเพิ่มความแตกต่างระหว่าง Token
* ความรู้ก่อนเกี่ยวกับความหมาย (Φ(desc_t)): ใช้น้ำหนักของตัวเข้ารหัสข้อความที่แช่แข็ง เข้ารหัสคำอธิบายข้อความของ Token
* การเข้ารหัสตัวเลข (d_t): ผ่านฟังก์ชันพื้นฐานเรเดียลแบบเกาส์เซียนและคุณลักษณะพหุนาม แปลงค่าพิกัดที่ทำให้เป็นมาตรฐานไปยังพื้นที่ฝังตัว

กลยุทธ์นี้ ทำให้ค่าพิกัดที่ใกล้เคียงกันยังคงอยู่ใกล้กันในพื้นที่การแสดง จึงมอบความสามารถการรับรู้พื้นที่เริ่มต้นให้กับโมเดล

ผลการทดลอง: 3B พารามิเตอร์ หลายเมตริกเอาชนะโมเดลขนาดใหญ่กว่า

การเปรียบเทียบเชิงปริมาณ

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ในงาน Image-to-SVG HiVG-3B ได้ SSIM 0.896 (เทียบกับ Gemini-2.5-pro ที่ 0.790) และ LPIPS 0.114 (เทียบกับ GPT-5.2 ที่ 0.205) คะแนน CLIP-S 0.957 ก็นำหน้าอย่างชัดเจนเช่นกัน

ที่น่าสังเกตคือ HiVG ด้วยพารามิเตอร์เพียง 3B เท่านั้น ก็สามารถเอาชนะโมเดลปิดต้นฉบับอย่าง GPT-5.2, Claude-4.5-Sonnet, Gemini-2.5-pro รวมถึงโมเดลเปิดต้นฉบับขนาด 8B พารามิเตอร์อย่าง OmniSVG-8B, InternSVG-8B ในหลายเมตริกสำคัญ

การเปรียบเทียบทางภาพ

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

เปรียบเทียบวิธีการสร้าง Image-to-SVG

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ผลลัพธ์การสร้าง Image-to-SVG โดย HiVG

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

เปรียบเทียบวิธีการสร้าง Text-to-SVG

จากการเปรียบเทียบทางภาพ จะเห็นว่าเมื่อเผชิญกับการจัดวางที่ซับซ้อน (เช่น โลโก้ Mastercard, ไอคอนปฏิทินที่มีข้อความ) วิธีการอื่นมักเกิดปัญหารูปทรงไม่สมบูรณ์ ข้อความผิดเพี้ยน สีผิดเพี้ยน ในขณะที่ SVG ที่สร้างโดย HiVG มีประสิทธิภาพดีกว่าในด้านความสม่ำเสมอของโครงสร้างและการรักษารายละเอียด

เป็นที่น่าสนใจเป็นพิเศษว่า HiVG มีประสิทธิภาพดีเยี่ยมในการสร้าง SVG ที่มีไกลฟ์ฟอนต์ — ซึ่งเป็นความสามารถที่วิธีการก่อนหน้านี้แทบไม่เคยจัดการได้อย่างเหมาะสม

การประเมินโดยมนุษย์: การโหวตโดยนักออกแบบมืออาชีพ

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ผลการประเมินโดยมนุษย์

ทีมวิจัยได้สรรหาผู้เชี่ยวชาญด้าน SVG 8 คนเพื่อทำการประเมินแบบดับเบิลบลายด์:
* คะแนนความสามารถในการใช้งาน: HiVG ได้ 4.06 คะแนน (เต็ม 5 คะแนน) อันดับหนึ่ง
* ความชอบแบบจับคู่: ในการเปรียบเทียบแบบตัวต่อตัวกับโมเดลเปรียบเทียบทั้งหมด HiVG มีอัตราชนะ 58.9%-70.8%

นอกจากนี้ การทดสอบการแก้ไขจริงใน Adobe Illustrator แสดงว่า SVG ที่สร้างโดย HiVG ได้คะแนนสูงสุดในสี่มิติ: การแบ่งชั้นเชิงความหมาย ความสามารถในการแก้ไข การควบคุมความซ้ำซ้อน และความสามารถในการใช้งานโดยรวม ซึ่งหมายความว่าผลลัพธ์ของ HiVG ไม่เพียงมีคุณภาพภาพสูง แต่ยังใช้งานได้จริงมากกว่าในเวิร์กโฟลว์การออกแบบจริง

ประสิทธิภาพของ Token: บรรลุผลลัพธ์ที่ดีขึ้นด้วย Token ที่น้อยลง

เพียง 3B พารามิเตอร์ แซงหน้า GPT-5.2! ทีม Tencent Hunyuan HiVG: นิยามใหม่ของโทเคนดีไซน์พาราดิจึมสำหรับการสร้าง SVG

ความสัมพันธ์ระหว่างประสิทธิภาพการบีบอัด Token กับงบประมาณ Token ที่ใช้ในการฝึก

HiVG บีบอัดลำดับ SVG ได้ 62.7%-63.8% ต้องการเพียง Token การฝึกน้อยลงประมาณ 2.7 เท่า เพื่อให้ได้คุณภาพการสร้างที่เทียบเท่ากับวิธีการพื้นฐาน จึงทำให้ได้ความเร็วการฝึกที่เร็วขึ้น ความล่าช้าในการอนุมานที่ต่ำลง และการใช้ทรัพยากรการคำนวณที่น้อยลง

คุณค่าของโครงการ

ความสำคัญของ HiVG ไม่จำกัดอยู่แค่งานสร้าง SVG เท่านั้น แต่มันยังส่งสัญญาณสำคัญ: ในงานสร้างที่มีโครงสร้าง คุณค่าของ「การออกแบบ Token」อาจถูกประเมินต่ำเกินไปอย่างร้ายแรง

แนวคิดหลักของชุมชน AI ในปัจจุบันเน้นที่การขยายขนาดโมเดลและเพิ่มพูนข้อมูล อย่างไรก็ตาม ข้อเท็จจริงที่ HiVG ด้วยพารามิเตอร์ 3B สามารถเอาชนะโมเดลขนาดใหญ่กว่าในหลายเมตริกแสดงให้เห็นว่า: เมื่อข้อมูลมีโครงสร้างโดยธรรมชาติ การทำให้การแสดงสอดคล้องกับโครงสร้าง มักจะมีประสิทธิภาพมากกว่าเพียงแค่เพิ่มพารามิเตอร์

แนวทางการออกแบบนี้มีศักยภาพที่จะขยายไปสู่สาขาอื่นๆ ที่เกี่ยวข้องกับ「ลำดับที่มีโครงสร้าง」 เช่น การสร้าง CAD, การสร้าง 3D Mesh, การสร้างแบบจำลองลำดับการเคลื่อนไหวของหุ่นยนต์

ในขณะเดียวกัน HiVG มีประสิทธิภาพนำหน้าในด้านความสามารถในการใช้งานของโค้ด SVG ที่สร้างขึ้น แ


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29679

Like (0)
Previous 9 hours ago
Next 9 hours ago

相关推荐