仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

腾讯混元团队提出HiVG:重新定义SVG生成的Token设计范式

当业界普遍追求扩大模型规模时,一项研究转换了思路:与其无限堆叠参数,不如从根本上重新思考“如何为SVG设计Token”。

仅3B参数的HiVG模型,在SVG生成任务的多项指标上超越了GPT-5.2、Claude-4.5-Sonnet等闭源模型。

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

核心摘要:
HiVG是一个面向SVG生成的层次化分词框架。它在减少63.8% Token数量的同时,以仅3B的参数量在多项指标上超越了所有对比的开源SVG模型以及GPT-5.2等闭源模型

背景:SVG生成的挑战

矢量图形(SVG)因其无限缩放不失真、文件体积小、编辑友好等优点,深受设计师和开发者青睐。随着大语言模型(LLM)的发展,研究者开始尝试将SVG视为“代码”来生成——根据文本描述或参考图像,直接输出可渲染的矢量代码。

然而,现有方法存在一个被严重低估的根本问题:分词方式不当。

主流方法沿用自然语言处理领域的BPE分词器来处理SVG代码。但SVG的核心是“几何坐标”而非“文本字符”。例如,一个坐标值“100”会被BPE拆分为“1”、“0”、“0”三个独立的Token,导致空间上紧密相关的数字在Token表征中被割裂。这种割裂引发了两个严重后果:

1. 坐标幻觉(Coordinate Hallucination): 模型难以理解坐标间的空间关系,频繁产生几何上不合理的输出。
2. Token冗余爆炸: 一个简单图标可能需数百个Token表示,严重拖慢训练和推理效率。

一边是自然语言Token的高信息密度(一个语义单元通常只需1-2个Token),另一边是SVG代码中大量低信息密度的坐标Token——这种表征上的不匹配,是制约SVG生成质量的关键瓶颈。

既然根源在于Token设计,能否从根本上重新定义SVG的分词范式?HiVG给出了肯定的答案。

技术方案:层次化分词,让每个Token承载几何意义

核心思想:从字符碎片到可执行的几何单元

HiVG的核心洞察在于:SVG不是普通文本,它是可执行的几何程序。分词器应尊重这一本质。

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

三种分词策略对比

如上图所示,对于同一段SVG代码:
* (a) 通用文本分词器(LLM): 暴力拆分为10个字符碎片Token,坐标信息完全打散。
* (b) SVG感知分词器(现有方法): 识别了SVG元素标签,但坐标仍被逐个拆分,产生7个Token。
* (c) HiVG分词器: 将绘图命令及其关联的全部坐标参数组合为一个可执行的矢量路径片段词元,仅需2个Token。

Token压缩轨迹:10 → 7 → 2,体现了层次化分词的力量。

第一层:原子词元

HiVG首先将原始SVG字符串解析为四类不可再分的原子词元:

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

关键设计:路径参数采用相对坐标表示。每条路径的首个命令使用绝对坐标定位,后续参数则表示为相对于前一个点的偏移。这不仅降低了模型对全局平移的方差,还大幅提升了重复几何模式的可发现性,为下一层的压缩奠定了基础。

第二层:路径片段词元——关键创新

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

HiVG框架总览

这是HiVG最具创新性的设计。在原子Token之上,HiVG将「绘图命令 + 其全部坐标参数」整体视为一个不可分割的矢量几何片段

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

随后,在大规模SVG语料上执行迭代配对合并(思想类似BPE,但作用于片段级别而非字符级别),将高频共现的相邻片段合并为新的复合路径片段词元。

核心约束: 合并只在片段边界发生,且合并结果必须是语法有效、可渲染的几何单元。这意味着学习到的每个路径片段词元都对应一个真实可执行的SVG几何图元。

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

学习到的路径片段词元示例

上图展示了实际学习到的路径片段词元,如椭圆弧、正交拐角、贝塞尔曲线、半圆弧等——这些都是SVG设计中最常用的几何原语。每个此类Token在语料中出现频率高达15000-20000次,证明它们确实捕捉到了可复用的几何结构。

压缩效果: 相比原始SVG字符串,路径片段词元将序列长度压缩了62.7%-63.8%(2.68×-2.76×)

HMN初始化:赋予坐标Token初始空间感知能力

在预训练LLM中引入全新的SVG Token时,如何初始化它们的嵌入向量?随机初始化会破坏预训练空间的分布;用全局均值初始化又会丢失Token间的结构关系。

HiVG提出了层次化均值-噪声(HMN)初始化策略

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

HMN初始化示意图

每个新Token的嵌入向量由四项组成:
e_t = λ_μ * μ + λ_n * ϵ + w_sem * Φ(desc_t) + w_num * d_t
* 全局均值+噪声(μ+ϵ): 保持与预训练词表分布对齐,同时增加Token间的区分度。
* 语义先验(Φ(desc_t)): 利用冻结的文本编码器权重,编码Token的文本描述。
* 数值编码(d_t): 通过高斯径向基函数与多项式特征,将归一化的坐标值映射到嵌入空间。

该策略使相近的坐标值在表示空间中保持邻近,从而为模型赋予了初始的空间感知能力。

实验结果:3B参数,多项指标超越更大模型

定量对比

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

在Image-to-SVG任务上,HiVG-3B取得了0.896的SSIM(对比Gemini-2.5-pro的0.790)和0.114的LPIPS(对比GPT-5.2的0.205),CLIP-S得分0.957同样显著领先。

值得注意的是,HiVG仅凭3B参数,便在多项关键指标上超越了GPT-5.2、Claude-4.5-Sonnet、Gemini-2.5-pro等闭源模型,以及OmniSVG-8B、InternSVG-8B等8B参数量的开源模型

视觉对比

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

Image-to-SVG生成方法比较

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

HiVG Image-to-SVG生成结果

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

Text-to-SVG生成方法比较

从视觉对比可见,面对复杂布局(如Mastercard标识、含文字的日历图标),其他方法频繁出现形状残缺、文字错乱、颜色偏差等问题,而HiVG生成的SVG在结构一致性和细节保真度上表现更优。

特别值得一提的是,HiVG在生成包含字体字形(glyph)的SVG时表现出色——这是此前方法极少能妥善处理的能力。

人类评测:专业设计师投票

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

人类评测结果

研究团队招募了8位专业SVG从业者进行双盲评测:
* 可用性评分: HiVG以4.06分(满分5分)位居第一。
* 配对偏好: 在与所有对比模型的头对头比较中,HiVG的获胜率达到58.9%-70.8%

此外,在Adobe Illustrator中的实际编辑测试表明,HiVG生成的SVG在语义分层、可编辑性、冗余控制和整体可用性四个维度上均获得最高分。这意味着HiVG的输出不仅视觉质量高,在实际设计工作流中也更具实用性。

Token效率:以更少的Token实现更好的效果

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

Token压缩效率与训练所用Token预算的关系

HiVG 将 SVG 序列压缩了 62.7%-63.8%,仅需约 2.7 倍更少的训练 token 即可达到与基线方法相当的生成质量,从而实现了更快的训练速度、更低的推理延迟以及更少的计算资源消耗。

项目价值

HiVG 的意义不仅限于 SVG 生成任务本身,它更传递了一个重要信号:在结构化生成任务中,「Token 设计」的价值可能被严重低估了

当前 AI 社区的主流思路侧重于扩大模型规模与堆叠数据。然而,HiVG 以 3B 参数在多项指标上超越更大模型的事实表明:当数据天然具备结构时,让表征与结构对齐,往往比单纯增加参数更有效。

这一设计思路有望推广至 CAD 生成、3D Mesh 生成、机器人动作序列建模 等其他涉及「结构化序列」的领域。

同时,HiVG 在生成 SVG 代码的可用性方面表现领先,显示出该技术具备直接集成到设计工具链中的潜力。未来,设计师或许只需输入一句描述,即可获得结构清晰、可直接编辑的矢量图形。

相关资源
– 论文:https://arxiv.org/pdf/2604.05072
– 项目主页:https://hy-hivg.github.io/
– 代码仓库:https://github.com/ximinng/HiVG

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29678

(0)
上一篇 8小时前
下一篇 8小时前

相关推荐

  • AI编程革命:本周6大GitHub明星项目深度解析

    DeepCode:智能体编程平台 DeepCode 由香港大学数据智能实验室开发,是一个采用多智能体系统架构的智能体编程平台。它能够理解复杂需求(如研究论文或自然语言描述),并通过智能体协作自动生成高质量的、可运行的代码。例如,用户上传一篇 ICML 论文,DeepCode 能自动解析其中的算法,生成 Python 实现,并附带测试用例和文档。 它提供网页界…

    2025年11月9日
    23800
  • AI掌控安卓手机:四大开源项目深度解析与实战指南

    AI掌控安卓手机:四大开源项目深度解析与实战指南 去年11月,一篇盘点GitHub上AI操控手机开源项目的文章引发了广泛关注。文章发布仅五天后,豆包便官宣推出AI手机,紧接着智谱AI开源了AutoGLM模型。这标志着AI与移动设备交互进入了一个新的阶段。 本文将整合最新的开源项目,对当前GitHub上主流的AI控制手机方案进行一次全面的梳理和解析。 01 智…

    2025年12月15日
    35400
  • 华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先

    华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先 7B量级模型,向来是端侧部署与个人开发者的心头好。其轻量化特性让它能灵活适配各类终端场景,而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。 近日,华为重磅推出开源新玩家openPangu-VL-7B,直接瞄准这一核心场景精准发力。 作为昇腾原生的模型,ope…

    2026年1月5日
    26800
  • WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星,但实际效果与宣传有差距

    WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星 打开GitHub Trending榜单,一个名为 wifi-densepose 的开源项目登上热榜,一天之内便斩获了超过2000个Star。该项目宣称无需摄像头,仅通过分析WiFi信号即可“看见”并还原房间内人体的动作与姿态。 项目简介 WiFi DensePose …

    2026年3月3日
    81400
  • 告别人肉调试:OpenClaw+Playwright如何实现真正的AI自动化采集

    每次接到“去这个网站,把几个字段整理成表格”的需求,流程总是固定的:打开开发者工具、分析DOM、写选择器、跑脚本、报错、贴日志、再修改……周而复始。 或许你也尝试过用ChatGPT“提效”:让它生成一段Playwright代码,拷贝运行,出错后再把日志贴回去,反复调整选择器、增加等待、处理弹窗。折腾许久后会发现,这并未实现真正的自动化,只是将手动操作替换成了…

    2026年3月8日
    1.3K00