T2R-Bench发布：业内首个由表格生成报告工业基准

论文标题： T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

收录会议： EMNLP 2025 Main Conference

论文链接：https://www.arxiv.org/pdf/2508.19813

Huggingface地址链接：https://huggingface.co/datasets/Tele-AI/TeleTableBench

Github地址链接：https://github.com/Tele-AI/TeleTableBench

1. 动机

尽管已有大量研究探索大语言模型（LLM）在表格推理方面的能力，但将表格信息转化为报告这一关键任务在工业场景中仍是重大挑战。该任务面临两大核心难题：1. 表格的复杂性与多样性导致推理效果欠佳；2. 现有表格基准缺乏对此任务实际应用价值的充分评估。为填补这一空白，我们提出“表格到报告”（table-to-report ）任务，并构建了一个双语基准 T2R-bench 。

图1. 表格到报告任务。目标是从表格中分析数值数据，生成全面、连贯且准确的报告，包括描述、分析和结论

T2R-bench是业内首个面向真实工业场景的“表格生成报告”基准。该数据集共收录457个真实业务表格，类别包括：汽车、能源、金融、政务、财务、科技、教育、银行等垂域，还开源了910个高质量的问题和4320个经过人工高质量标注的报告关键点（金标准）。此外，如表1所示，相比于各类开源表格数据集，T2R-bench是业内目前覆盖工业级表格类别最全的数据集 ，包括：单表多sheet、多表多sheet、复杂结构表、超大宽表等。我们还设计了一套评价指标体系，以公平衡量生成报告的质量。在25个主流LLM上的实验表明，当前几乎所有的大模型在T2R-bench上仍有显著提升空间。

表1. T2R-bench和现有的table数据集在表格类型和答案长度上的对比

2. T2R-bench构建

为确保实验数据集T2R-bench的质量，研究团队采用了严格的数据集构造流程，如图2所示。

图2. T2R-bench数据集构建流程图，包括数据集采集、表格问题标注和报告参考点(金标准)标注

2.1 数据集采集

收集互联网公开的工业级表格数据，主要来源包括国家统计局、数据平台、行业协会以及已开源的表格数据集。收集的表格尽可能涵盖多种真实场景，包括：单表多sheet、多表多sheet、超大型表格，以及具有简单和复杂表头结构的工业表格。

2.2 表格问题标注

种子问题和提示准备：由标注人员精心设计了10个种子问题和一个包含5种不同提示模板的模板库。
自我指导生成问题：针对每一张表格，基于self-instruct和GPT-4o随机选取两个模板(每个模板包含2到5个种子问题示例)，共生成3个相关问题。
人工标注和筛选：由两名标注人员独立评估每个问题，依据三个标准：是否可仅用表格数据回答(无需外部知识)、是否聚焦单一分析维度以得出明确结论、以及是否与其他问题互补无重叠。不一致结果由资深标注人员仲裁。

2.3 报告参考点（金标准）标注

表格到报告的任务因标注人员的认知差异和表格数据的复杂性而存在显著多样性，将整个报告作为参考标准不切实际。然而，专业撰写的报告在中心观点、分析结论、关键数据、建议总结往往具有一致性，因此，研究人员引入了报告关键点（Report Reference），将其作为评估生成报告的金标准。

报告生成 ：采用三种不同的LLM(Qwen-3-32B、Moonshot-V1-32K和Deepseek-R1)为每个
对生成3份不同的报告。

关键点提取 ：使用GPT-4o从每份报告中提炼出最关键的信息，并提炼为5-10个关键点。

人工标注 ：进行人工验证，双标注者审核关键点是否忠实于表格、相关且非冗余，分歧由专家裁决。

2.4 数据统计

T2R-bench数据集的整体情况分别如图3和表2所示。T2R-bench数据集具有以下优点：

涵盖丰富的工业领域 ：包含457个真实业务表格，共6个一级大类和19个二级小类，包括，汽车、能源、金融、政务、财务、科技、教育、银行等垂域。
涵盖多种表格类型 ：复杂结构表(28.9%的表格包含复杂表头和合并单元格)、超大规模表(8.3%的表格超过5万个单元格)和多表(23.6%的表格为多表多sheet或多表单sheet)。
问题和报告参考点 ：包含910个高质量人工标注表格问题和4320个人工标注报告参考点，通过严格的标注与验证流程，显著提升和保障了T2R-bench数据集的质量。

2.5 数据样例

图4展示了2个完整的数据样例，其中包括表格、问题、报告参考点和参考报告。

图3. T2R-bench数据集的领域分布、表类型、行列单元格及报告参考点数量的统计信息

表2. T2R-bench数据集的整体统计信息

图4. T2R的中英文数据样例

3. T2R-bench评价体系

传统表格任务评估基准(如BLEU/ROUGE)存在两大缺陷：无法验证报告中的数值与表格的一致性，无法避免机械式的文本对照匹配。为此，基于T2R-bench数据集，研究人员设计了互补的3个评估标准，覆盖数值准确性(NAC)、信息完整性(ICC)和总体报告质量(GEC)三大准则。

准则1：数值准确性(NAC) ：

采用NLTK和Jieba对目标报告进行分句，再通过正则表达式提取包含数值陈述(整数或浮点数）的句子簇（如“：库存量增加15%”)。
将提取到的数值语句转化为对应的验证问题(例：若报告写“总销售额为¥24,892”，则生成“总销售量是多少？”)。
使用Qwen2.5-32B-Coder、Deepseek-Coder、CodeLlama-70三类代码模型解析问题，生成Python代码并从原表提取数据执行计算。
采用多数投票机制：仅当至少两个模型输出一致时，该结果方被认定为正确；否则，否则标记为“无法验证”。

准则2：信息完整性(ICC) ：

先用NLTK/Jieba对目标报告进行分句，得句子簇S。
用BERTScore计算目标报告参考要点和生成报告的句子相似度矩阵S。
将矩阵S归一化得到联合与边缘概率，并通过计算得到归一化互信息ICC值，其中ICC∈[0,1]。
对所有报告的ICC取平均值，得分越高，说明整体生成报告对关键信息的保留越完整。

准则3：总体报告质量(GEC) ：

GEC评估包含：推理深度、类人风格、实用性、内容完整性、逻辑连贯性这五个维度，并用LLM-as-Judge范式，通过输入生成的报告和评分规则(10分制)，输出各维度单独分数及打分理由。最终GEC评估得分为五个维度的平均值。

表3. GEC评估标准的细则

4. 实验

4.1 基线模型和实验结果

基于T2R-bench数据集，研究人员评测了包含DeepSeek系列、LLaMA系列、Qwen系列、Doubao系列、GPT系列、Claude、Mistral、Telechat和表格理解类大模型（如：TableGPT2-7b）在内的25个开源和闭源大语言模型。评测涵盖了单表、多表、复杂样式/表头表格及超大规模表格这4种表格数据类型。

4.2 实验结果

表4、表5和表6分别展示了25个大模型在T2R-bench上的实验结果，主要的实验发现如下：

表格输入格式影响：即使是相同的表格数据，以Markdown格式输入模型相较于HTML或JSON格式，有显著的表现提升。
表格复杂性影响：随着表格单元格数量的增加，及表格结构样式的复杂性提升，模型整体性能出现显著下降，这一现象在多表关联、复杂结构表格及超大宽表上更为明显。
语言差异影响：大多数模型在中文和英文环境下的表现相似，但仍有一些模型（例如Llama系列模型）显示出较大性能差异，从侧面刻画了不同模型在表格生成报告任务上的本质差异。
幻觉及关键信息缺失影响：数值事实错误、生成错误、表格结构理解错误及生成的报告未能全面覆盖要点导致的信息缺失，都会不同程度地影响模型整体推理能力，进而显著降低生成报告的最终质量。

表4. 25个大模型在T2R-bench上的评测结果

表5. 3个典型大模型在不同的表格输入格式下表现对比（表中为指标NAC、ICC与GEC的平均值）

表6. 5个典型大模型在双语表格上的表现对比（表中指标为 NAC、ICC与GEC的平均值）

通过实验观察到，即使表现最优的Deepseek-R1，也仅取得62.71的平均综合得分。这凸显了在真实的工业场景下，大语言模型尚未具备稳健可靠的表格理解、信息转换与深度分析能力，报告生成任务上仍有很大改进空间。同时，T2R-bench也为大语言模型在工业场景中的落地应用提供了重要的评估基准，并通过大量的评测实验展示了评估的严谨性与可解释性。

5. 局限性和未来方向

虽然本文对表格生成报告任务进行了首个系统性的数据集构建和实验探索，但是也存在一些局限性：

未来需要扩充覆盖更多表格类型与领域的数据集，进一步提升评测的数据多样性。
目前最佳开源模型（Deepseek-R1）的数值准确性（NAC）与信息覆盖度（ICC）均未达65%，未来提出表格生成报告任务的专用模型，从而缩小现有能力与实际应用间的差距值得进一步探索。
阿里qwen3-next-80b-a3b-instruct实测
姚顺雨成名作“智能体评测集τ-bench”上手指南
DeepSeek-V3.2-Exp非思考模式实测
DeepSeek-V3.2-Exp思考模式实测：开源模型王者
深度拆解：为什么通用 Agent 的下一站是 Agentic Browser？
每月AI大模型更新速递（25年9月）
每周AI大模型更新速递10.1~10.12
大模型智能体评测综述【Benchmarks解读】

关于大模型评测诊断NoneLinear
https://nonelinear.com

评测榜单——已囊括300+大模型、300+评测维度，每周更新大模型评测结果
模型选型降本——一键选出最合适模型，效果更优，成本降低50%以上
智能模型超市——统一API，一键调用全球所有大模型，高并发，自动故障切换，实时监控模型调用效果

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14727

大语言模型工业基准报告生成数据集表格推理

0 0

开源模型TOP5，被中国厂商包圆了

上一篇 2025年10月15日下午4:05

Kimi K2 ToolCall性能大揭秘：12家服务商评测结果出炉，开源测试集助力API一致性优化

下一篇 2025年10月16日上午11:57

大模型评测

GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

OpenAI近期发布了GPT-5.2版本，作为GPT-5系列的最新迭代。我们对GPT-5.2-Medium（思考模式）与上一版本GPT-5.1-Medium进行了全面对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 GPT-5.2-Medium版本表现：* 测试题数：约1.5万* 总分（准确率）：64.3%* 平均耗时（每次调…

2025年12月17日
272000
大模型评测

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

OpenAI近期发布了GPT-5.1新版本，主打更自然的对话体验和情感共鸣能力。值得注意的是，官方此次并未公布传统基准测试结果，而是强调“优秀的人工智能不仅应该是聪明的，而且应该提供令人愉快的交谈”。我们对GPT-5.1（默认非思考模式）与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

2025年11月20日
181000
大模型评测

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

一个评估大模型在“养虾”（OpenClaw）任务中表现的基准——PinchBench，现已正式发布。该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度，综合评估各大模型在OpenClaw实际业务场景中的表现。需要指出的是，本次评测尚未包含近期发布的新模型，例如谷歌主打性价比…

2026年3月9日
445000
大模型评测

超越准确率：揭秘AI Agent评测的三大真相与行为分析革命

当我们谈论AI Agent的性能时，一个百分比数字真的能说明全部问题吗？最近一项针对20,000多次Agent运行的深度研究《Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation》给出了发人深省的答案——远比我们想象的复杂。这项研究覆盖了9个极具挑战性的…

2025年10月30日
203000
大模型评测

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化当多模态大模型进入真实世界，其“失聪”问题开始凸显。例如，在厨房场景中：背景可能有人交谈、金属碰撞、蒸汽嘶鸣——这些关键信息并未呈现在画面里，却完全由声音传递。此时，即便是当前最先进的模型也开始“失灵”：它们能看懂动作，却听不懂发生了什么；能描述现象，却无法推断背后的原因。核…

6天前
80000

T2R-Bench发布：业内首个由表格生成报告工业基准

1. 动机

2. T2R-bench构建

2.1 数据集采集

2.2 表格问题标注

2.3 报告参考点（金标准）标注

2.4 数据统计

2.5 数据样例

3. T2R-bench评价体系

4. 实验

4.1 基线模型和实验结果

4.2 实验结果

5. 局限性和未来方向

相关推荐

GPT-5.2-Medium实测：速度飙升5倍，但准确率为何下滑？OpenAI新模型深度评测

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

超越准确率：揭秘AI Agent评测的三大真相与行为分析革命

EgoSound：首个第一人称声音理解基准发布，多模态大模型“失聪”问题被量化，最强模型与人类差距超27%