仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

腾讯混元团队提出HiVG:重新定义SVG生成的Token设计范式

当业界普遍追求扩大模型规模时,一项研究转换了思路:与其无限堆叠参数,不如从根本上重新思考“如何为SVG设计Token”。

仅3B参数的HiVG模型,在SVG生成任务的多项指标上超越了GPT-5.2、Claude-4.5-Sonnet等闭源模型。

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

核心摘要:
HiVG是一个面向SVG生成的层次化分词框架。它在减少63.8% Token数量的同时,以仅3B的参数量在多项指标上超越了所有对比的开源SVG模型以及GPT-5.2等闭源模型

背景:SVG生成的挑战

矢量图形(SVG)因其无限缩放不失真、文件体积小、编辑友好等优点,深受设计师和开发者青睐。随着大语言模型(LLM)的发展,研究者开始尝试将SVG视为“代码”来生成——根据文本描述或参考图像,直接输出可渲染的矢量代码。

然而,现有方法存在一个被严重低估的根本问题:分词方式不当。

主流方法沿用自然语言处理领域的BPE分词器来处理SVG代码。但SVG的核心是“几何坐标”而非“文本字符”。例如,一个坐标值“100”会被BPE拆分为“1”、“0”、“0”三个独立的Token,导致空间上紧密相关的数字在Token表征中被割裂。这种割裂引发了两个严重后果:

1. 坐标幻觉(Coordinate Hallucination): 模型难以理解坐标间的空间关系,频繁产生几何上不合理的输出。
2. Token冗余爆炸: 一个简单图标可能需数百个Token表示,严重拖慢训练和推理效率。

一边是自然语言Token的高信息密度(一个语义单元通常只需1-2个Token),另一边是SVG代码中大量低信息密度的坐标Token——这种表征上的不匹配,是制约SVG生成质量的关键瓶颈。

既然根源在于Token设计,能否从根本上重新定义SVG的分词范式?HiVG给出了肯定的答案。

技术方案:层次化分词,让每个Token承载几何意义

核心思想:从字符碎片到可执行的几何单元

HiVG的核心洞察在于:SVG不是普通文本,它是可执行的几何程序。分词器应尊重这一本质。

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

三种分词策略对比

如上图所示,对于同一段SVG代码:
* (a) 通用文本分词器(LLM): 暴力拆分为10个字符碎片Token,坐标信息完全打散。
* (b) SVG感知分词器(现有方法): 识别了SVG元素标签,但坐标仍被逐个拆分,产生7个Token。
* (c) HiVG分词器: 将绘图命令及其关联的全部坐标参数组合为一个可执行的矢量路径片段词元,仅需2个Token。

Token压缩轨迹:10 → 7 → 2,体现了层次化分词的力量。

第一层:原子词元

HiVG首先将原始SVG字符串解析为四类不可再分的原子词元:

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

关键设计:路径参数采用相对坐标表示。每条路径的首个命令使用绝对坐标定位,后续参数则表示为相对于前一个点的偏移。这不仅降低了模型对全局平移的方差,还大幅提升了重复几何模式的可发现性,为下一层的压缩奠定了基础。

第二层:路径片段词元——关键创新

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

HiVG框架总览

这是HiVG最具创新性的设计。在原子Token之上,HiVG将「绘图命令 + 其全部坐标参数」整体视为一个不可分割的矢量几何片段

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

随后,在大规模SVG语料上执行迭代配对合并(思想类似BPE,但作用于片段级别而非字符级别),将高频共现的相邻片段合并为新的复合路径片段词元。

核心约束: 合并只在片段边界发生,且合并结果必须是语法有效、可渲染的几何单元。这意味着学习到的每个路径片段词元都对应一个真实可执行的SVG几何图元。

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

学习到的路径片段词元示例

上图展示了实际学习到的路径片段词元,如椭圆弧、正交拐角、贝塞尔曲线、半圆弧等——这些都是SVG设计中最常用的几何原语。每个此类Token在语料中出现频率高达15000-20000次,证明它们确实捕捉到了可复用的几何结构。

压缩效果: 相比原始SVG字符串,路径片段词元将序列长度压缩了62.7%-63.8%(2.68×-2.76×)

HMN初始化:赋予坐标Token初始空间感知能力

在预训练LLM中引入全新的SVG Token时,如何初始化它们的嵌入向量?随机初始化会破坏预训练空间的分布;用全局均值初始化又会丢失Token间的结构关系。

HiVG提出了层次化均值-噪声(HMN)初始化策略

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

HMN初始化示意图

每个新Token的嵌入向量由四项组成:
e_t = λ_μ * μ + λ_n * ϵ + w_sem * Φ(desc_t) + w_num * d_t
* 全局均值+噪声(μ+ϵ): 保持与预训练词表分布对齐,同时增加Token间的区分度。
* 语义先验(Φ(desc_t)): 利用冻结的文本编码器权重,编码Token的文本描述。
* 数值编码(d_t): 通过高斯径向基函数与多项式特征,将归一化的坐标值映射到嵌入空间。

该策略使相近的坐标值在表示空间中保持邻近,从而为模型赋予了初始的空间感知能力。

实验结果:3B参数,多项指标超越更大模型

定量对比

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

在Image-to-SVG任务上,HiVG-3B取得了0.896的SSIM(对比Gemini-2.5-pro的0.790)和0.114的LPIPS(对比GPT-5.2的0.205),CLIP-S得分0.957同样显著领先。

值得注意的是,HiVG仅凭3B参数,便在多项关键指标上超越了GPT-5.2、Claude-4.5-Sonnet、Gemini-2.5-pro等闭源模型,以及OmniSVG-8B、InternSVG-8B等8B参数量的开源模型

视觉对比

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

Image-to-SVG生成方法比较

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

HiVG Image-to-SVG生成结果

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

Text-to-SVG生成方法比较

从视觉对比可见,面对复杂布局(如Mastercard标识、含文字的日历图标),其他方法频繁出现形状残缺、文字错乱、颜色偏差等问题,而HiVG生成的SVG在结构一致性和细节保真度上表现更优。

特别值得一提的是,HiVG在生成包含字体字形(glyph)的SVG时表现出色——这是此前方法极少能妥善处理的能力。

人类评测:专业设计师投票

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

人类评测结果

研究团队招募了8位专业SVG从业者进行双盲评测:
* 可用性评分: HiVG以4.06分(满分5分)位居第一。
* 配对偏好: 在与所有对比模型的头对头比较中,HiVG的获胜率达到58.9%-70.8%

此外,在Adobe Illustrator中的实际编辑测试表明,HiVG生成的SVG在语义分层、可编辑性、冗余控制和整体可用性四个维度上均获得最高分。这意味着HiVG的输出不仅视觉质量高,在实际设计工作流中也更具实用性。

Token效率:以更少的Token实现更好的效果

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式

Token压缩效率与训练所用Token预算的关系

HiVG 将 SVG 序列压缩了 62.7%-63.8%,仅需约 2.7 倍更少的训练 token 即可达到与基线方法相当的生成质量,从而实现了更快的训练速度、更低的推理延迟以及更少的计算资源消耗。

项目价值

HiVG 的意义不仅限于 SVG 生成任务本身,它更传递了一个重要信号:在结构化生成任务中,「Token 设计」的价值可能被严重低估了

当前 AI 社区的主流思路侧重于扩大模型规模与堆叠数据。然而,HiVG 以 3B 参数在多项指标上超越更大模型的事实表明:当数据天然具备结构时,让表征与结构对齐,往往比单纯增加参数更有效。

这一设计思路有望推广至 CAD 生成、3D Mesh 生成、机器人动作序列建模 等其他涉及「结构化序列」的领域。

同时,HiVG 在生成 SVG 代码的可用性方面表现领先,显示出该技术具备直接集成到设计工具链中的潜力。未来,设计师或许只需输入一句描述,即可获得结构清晰、可直接编辑的矢量图形。

相关资源
– 论文:https://arxiv.org/pdf/2604.05072
– 项目主页:https://hy-hivg.github.io/
– 代码仓库:https://github.com/ximinng/HiVG

仅3B参数超越GPT-5.2!腾讯混元团队HiVG:重新定义SVG生成的token设计范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29678

(0)
上一篇 2026年4月10日 下午1:24
下一篇 2026年4月10日 下午1:25

相关推荐

  • 具身智能新突破:Dexbotic 2.0 打通SFT与RL,VLA模型进化迎来黄金范式

    近日,原力灵机正式宣布,其开源的具身智能原生框架 Dexbotic 已实现对 RLinf 作为分布式强化学习后端的全面支持。对于具身智能领域的开发者而言,这并非一次寻常的工程适配,而是标志着长期困扰 VLA 模型研发的“SFT 与 RL 割裂”难题,正在迎来实质性的突破。 这是一种典型的“乐高式协作”:双方既不强行 Fork,也不粗暴地混合代码,而是保持各自…

    5天前
    14500
  • 华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先

    华为开源昇腾原生7B多模态模型:端侧部署新标杆,视觉定位与OCR能力全面领先 7B量级模型,向来是端侧部署与个人开发者的心头好。其轻量化特性让它能灵活适配各类终端场景,而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。 近日,华为重磅推出开源新玩家openPangu-VL-7B,直接瞄准这一核心场景精准发力。 作为昇腾原生的模型,ope…

    2026年1月5日
    35500
  • 终端文件管理神器yazi:Rust异步I/O,秒开大目录,37k+Star!

    我已经将终端文件管理工具换成了 yazi,操作效率瞬间飙升。 最近一两年,我的工作模式发生了显著变化。自从开始使用 Claude Code 这类工具后,几乎每天都离不开它,大部分时间都泡在终端里。AI 能搞定的事情,几乎全部在命令行中完成。 这让我重新开始琢磨如何让终端用起来更顺手:配色主题、Shell 提示符、tmux、模糊搜索……一番折腾下来,终端确实越…

    开源项目 2026年5月4日
    21100
  • 用Claude Code写论文?这个开源项目把整套流水线打包了,学生党狂喜

    用Claude Code写论文?这个开源项目把整套流水线打包了,学生党狂喜 用Claude Code撰写论文的完整工作流,已经有人开源打包了。 这完全戳中了学生群体的核心痛点,GitHub星标数已飙升至6.4k。 项目名为academic-research-skills(以下简称ARS),是一套专门为Claude Code设计的技能包。 它内置了4个核心技能…

    7小时前
    3500
  • 商汤开源8B模型复刻GPT-Image-2绝活:图文生成连续一致,高密度信息图直接出

    henry 发自 凹非寺 量子位 | 公众号 QbitAI 最近刷朋友圈,10条动态里至少有7条是GPT-Image-2生成的图片。 中文海报、复古杂志封面、直播画面、社交截图,甚至连高考试卷都能被它复刻出一张几乎以假乱真的版本。 面对这一现象,大家的反应也出奇地一致—— 专业设计师要失业了,而我又觉得自己能行了! 但实际操作后你会发现:免费用户每天只能生成…

    2026年4月28日
    33500