腾讯混元团队提出HiVG:重新定义SVG生成的Token设计范式
当业界普遍追求扩大模型规模时,一项研究转换了思路:与其无限堆叠参数,不如从根本上重新思考“如何为SVG设计Token”。
仅3B参数的HiVG模型,在SVG生成任务的多项指标上超越了GPT-5.2、Claude-4.5-Sonnet等闭源模型。

核心摘要:
HiVG是一个面向SVG生成的层次化分词框架。它在减少63.8% Token数量的同时,以仅3B的参数量在多项指标上超越了所有对比的开源SVG模型以及GPT-5.2等闭源模型。
背景:SVG生成的挑战
矢量图形(SVG)因其无限缩放不失真、文件体积小、编辑友好等优点,深受设计师和开发者青睐。随着大语言模型(LLM)的发展,研究者开始尝试将SVG视为“代码”来生成——根据文本描述或参考图像,直接输出可渲染的矢量代码。
然而,现有方法存在一个被严重低估的根本问题:分词方式不当。
主流方法沿用自然语言处理领域的BPE分词器来处理SVG代码。但SVG的核心是“几何坐标”而非“文本字符”。例如,一个坐标值“100”会被BPE拆分为“1”、“0”、“0”三个独立的Token,导致空间上紧密相关的数字在Token表征中被割裂。这种割裂引发了两个严重后果:
1. 坐标幻觉(Coordinate Hallucination): 模型难以理解坐标间的空间关系,频繁产生几何上不合理的输出。
2. Token冗余爆炸: 一个简单图标可能需数百个Token表示,严重拖慢训练和推理效率。
一边是自然语言Token的高信息密度(一个语义单元通常只需1-2个Token),另一边是SVG代码中大量低信息密度的坐标Token——这种表征上的不匹配,是制约SVG生成质量的关键瓶颈。
既然根源在于Token设计,能否从根本上重新定义SVG的分词范式?HiVG给出了肯定的答案。
技术方案:层次化分词,让每个Token承载几何意义
核心思想:从字符碎片到可执行的几何单元
HiVG的核心洞察在于:SVG不是普通文本,它是可执行的几何程序。分词器应尊重这一本质。

△ 三种分词策略对比
如上图所示,对于同一段SVG代码:
* (a) 通用文本分词器(LLM): 暴力拆分为10个字符碎片Token,坐标信息完全打散。
* (b) SVG感知分词器(现有方法): 识别了SVG元素标签,但坐标仍被逐个拆分,产生7个Token。
* (c) HiVG分词器: 将绘图命令及其关联的全部坐标参数组合为一个可执行的矢量路径片段词元,仅需2个Token。
Token压缩轨迹:10 → 7 → 2,体现了层次化分词的力量。
第一层:原子词元
HiVG首先将原始SVG字符串解析为四类不可再分的原子词元:

关键设计:路径参数采用相对坐标表示。每条路径的首个命令使用绝对坐标定位,后续参数则表示为相对于前一个点的偏移。这不仅降低了模型对全局平移的方差,还大幅提升了重复几何模式的可发现性,为下一层的压缩奠定了基础。
第二层:路径片段词元——关键创新

△ HiVG框架总览
这是HiVG最具创新性的设计。在原子Token之上,HiVG将「绘图命令 + 其全部坐标参数」整体视为一个不可分割的矢量几何片段。

随后,在大规模SVG语料上执行迭代配对合并(思想类似BPE,但作用于片段级别而非字符级别),将高频共现的相邻片段合并为新的复合路径片段词元。
核心约束: 合并只在片段边界发生,且合并结果必须是语法有效、可渲染的几何单元。这意味着学习到的每个路径片段词元都对应一个真实可执行的SVG几何图元。

△ 学习到的路径片段词元示例
上图展示了实际学习到的路径片段词元,如椭圆弧、正交拐角、贝塞尔曲线、半圆弧等——这些都是SVG设计中最常用的几何原语。每个此类Token在语料中出现频率高达15000-20000次,证明它们确实捕捉到了可复用的几何结构。
压缩效果: 相比原始SVG字符串,路径片段词元将序列长度压缩了62.7%-63.8%(2.68×-2.76×)。
HMN初始化:赋予坐标Token初始空间感知能力
在预训练LLM中引入全新的SVG Token时,如何初始化它们的嵌入向量?随机初始化会破坏预训练空间的分布;用全局均值初始化又会丢失Token间的结构关系。
HiVG提出了层次化均值-噪声(HMN)初始化策略:

△ HMN初始化示意图
每个新Token的嵌入向量由四项组成:e_t = λ_μ * μ + λ_n * ϵ + w_sem * Φ(desc_t) + w_num * d_t
* 全局均值+噪声(μ+ϵ): 保持与预训练词表分布对齐,同时增加Token间的区分度。
* 语义先验(Φ(desc_t)): 利用冻结的文本编码器权重,编码Token的文本描述。
* 数值编码(d_t): 通过高斯径向基函数与多项式特征,将归一化的坐标值映射到嵌入空间。
该策略使相近的坐标值在表示空间中保持邻近,从而为模型赋予了初始的空间感知能力。
实验结果:3B参数,多项指标超越更大模型
定量对比

在Image-to-SVG任务上,HiVG-3B取得了0.896的SSIM(对比Gemini-2.5-pro的0.790)和0.114的LPIPS(对比GPT-5.2的0.205),CLIP-S得分0.957同样显著领先。
值得注意的是,HiVG仅凭3B参数,便在多项关键指标上超越了GPT-5.2、Claude-4.5-Sonnet、Gemini-2.5-pro等闭源模型,以及OmniSVG-8B、InternSVG-8B等8B参数量的开源模型。
视觉对比

△ Image-to-SVG生成方法比较

△ HiVG Image-to-SVG生成结果

△ Text-to-SVG生成方法比较
从视觉对比可见,面对复杂布局(如Mastercard标识、含文字的日历图标),其他方法频繁出现形状残缺、文字错乱、颜色偏差等问题,而HiVG生成的SVG在结构一致性和细节保真度上表现更优。
特别值得一提的是,HiVG在生成包含字体字形(glyph)的SVG时表现出色——这是此前方法极少能妥善处理的能力。
人类评测:专业设计师投票

△ 人类评测结果
研究团队招募了8位专业SVG从业者进行双盲评测:
* 可用性评分: HiVG以4.06分(满分5分)位居第一。
* 配对偏好: 在与所有对比模型的头对头比较中,HiVG的获胜率达到58.9%-70.8%。
此外,在Adobe Illustrator中的实际编辑测试表明,HiVG生成的SVG在语义分层、可编辑性、冗余控制和整体可用性四个维度上均获得最高分。这意味着HiVG的输出不仅视觉质量高,在实际设计工作流中也更具实用性。
Token效率:以更少的Token实现更好的效果

△ Token压缩效率与训练所用Token预算的关系
HiVG 将 SVG 序列压缩了 62.7%-63.8%,仅需约 2.7 倍更少的训练 token 即可达到与基线方法相当的生成质量,从而实现了更快的训练速度、更低的推理延迟以及更少的计算资源消耗。
项目价值
HiVG 的意义不仅限于 SVG 生成任务本身,它更传递了一个重要信号:在结构化生成任务中,「Token 设计」的价值可能被严重低估了。
当前 AI 社区的主流思路侧重于扩大模型规模与堆叠数据。然而,HiVG 以 3B 参数在多项指标上超越更大模型的事实表明:当数据天然具备结构时,让表征与结构对齐,往往比单纯增加参数更有效。
这一设计思路有望推广至 CAD 生成、3D Mesh 生成、机器人动作序列建模 等其他涉及「结构化序列」的领域。
同时,HiVG 在生成 SVG 代码的可用性方面表现领先,显示出该技术具备直接集成到设计工具链中的潜力。未来,设计师或许只需输入一句描述,即可获得结构清晰、可直接编辑的矢量图形。
相关资源
– 论文:https://arxiv.org/pdf/2604.05072
– 项目主页:https://hy-hivg.github.io/
– 代码仓库:https://github.com/ximinng/HiVG

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29678

