TOON vs JSON:为LLM优化的结构化数据格式革命

TOON vs JSON:为LLM优化的结构化数据格式革命

在提示词日益冗长、AI模型愈发强大的当下,一个核心问题反复浮现:如何同时降低使用成本和处理时间?

在以编程方式使用大语言模型时,结构化输出已成为标准实践。开发者可以要求模型按特定格式输出,例如JSON。通过定义一个模型架构并阐明各字段含义,AI会尽力理解上下文,并在其能力范围内填充输出。

这使得处理AI的响应变得前所未有的便捷。然而,输入环节呢?

即便我们能获得整洁的结构化输出,许多开发者仍会将庞大的JSON、YAML甚至纯文本数据集直接塞入提示词中。这种做法不仅效率低下、成本高昂,而且对令牌的利用率极低。

因此,一种专为解决此问题而生的新格式的出现,只是时间问题。这就是TOON登场的时刻。


认识 TOON —— JSON 的令牌友好型“表亲”

TOON是一种介于JSON和CSV之间的新型文件格式。它保持了人类可读性,但专门针对LLM和分词效率进行了优化。据其作者称,它能减少约30–60%的令牌使用量,这在按令牌计费的模式下,意味着显著的成本节约。

TOON的独特之处在于以下特性:

  • 💸 令牌高效:通常比JSON少用30–60%的令牌。
  • 🤿 LLM友好护栏:通过显式的长度和字段定义实现校验。
  • 🍱 极简语法:移除了冗余的标点符号(如花括号、方括号和大多数引号)。
  • 📐 缩进式结构:类似YAML,使用空白缩进替代花括号来定义层级。
  • 🧺 表格化数组:键名仅声明一次,数据按行流式排列。

JSON 示例

json
[
{"id": 1, "name": "Alice", "department": "Engineering", "salary": 120000},
{"id": 2, "name": "Bob", "department": "Marketing", "salary": 95000},
{"id": 3, "name": "Charlie", "department": "Engineering", "salary": 110000}
]

TOON 示例

[3]{Id,Name,Department,Salary}:
1,Alice,Engineering,120000
2,Bob,Marketing,95000
3,Charlie,Engineering,110000

仔细观察,TOON给人一种感觉:仿佛是YAML和CSV共进咖啡后,决定共同孕育一个“结构化”的后代。

作者提供的基准测试结果已经相当引人注目:👉 Toon Benchmarking and Key Features


那么……我为何需要关注?

如果你正在构建需要频繁向LLM输入结构化数据的应用,例如聊天机器人、AI辅助代码生成工具或多步骤工作流,TOON可以显著缩小提示词的体积。

这不仅仅是为了节省成本(尽管节省50%的令牌使用听起来极具吸引力)。它还关乎速度。更少的令牌意味着更快的推理速度,并可能带来更低的延迟,这对于实时系统或使用流式API的场景尤为重要。

最棒的是,TOON已经获得了多语言支持:

  • 🟦 .NET: ToonSharp
  • 🐍 Python: python-toon / pytoon
  • 🦫 Go: gotoon

真实场景评估

我们进行了一项小型基准测试,以评估TOON相较于JSON的实际表现。

使用一份简单的员工数据集,我们要求GPT分析数据并计算各部门的平均薪资。该测试测量了提示词大小、完成令牌数量和总体响应时间。

以下是一次典型运行的测试结果:

+---------------------------------------------------------------------------+
| Type | Prompt Tokens | Completions Tokens | Duration |
|--------------+-----------------+----------------------+-------------------|
| JSON | 1344 | 3475 | 00:00:28.3932721 |
| TOON | 589 | 2928 | 00:00:23.4953152 |
+---------------------------------------------------------------------------+

结果显示,提示词令牌使用量减少了约56%,同时处理速度明显提升了近5秒,且模型输出质量保持一致。因此,TOON的优势并非纸上谈兵:它确实更快、更经济,并且依然易于阅读。


总结与思考

一个耐人寻味的现象是,我们似乎走了一个循环:前些年,我们致力于训练AI输出结构化数据;如今,我们开始优化输入数据,使其更贴近AI的“语言”。

TOON会成为新的行业标准,抑或只是一个精巧的小众方案?无论如何,它都值得关注,尤其当你重视性能、成本与效率时(坦率地说,谁不重视呢?)。

项目地址:https://github.com/schroedermarius/ToonBenchmark


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19575

(0)
上一篇 1天前
下一篇 1天前

相关推荐