T2R-Bench发布:业内首个由表格生成报告工业基准

论文标题: T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

收录会议: EMNLP 2025 Main Conference

论文链接:https://www.arxiv.org/pdf/2508.19813

Huggingface地址链接:https://huggingface.co/datasets/Tele-AI/TeleTableBench

Github地址链接:https://github.com/Tele-AI/TeleTableBench

1. 动机

尽管已有大量研究探索大语言模型(LLM)在表格推理方面的能力,但将表格信息转化为报告这一关键任务在工业场景中仍是重大挑战。该任务面临两大核心难题:1. 表格的复杂性与多样性导致推理效果欠佳;2. 现有表格基准缺乏对此任务实际应用价值的充分评估。 为填补这一空白,我们提出“表格到报告”(table-to-report )任务,并构建了一个双语基准 T2R-bench

图1. 表格到报告任务。目标是从表格中分析数值数据,生成全面、连贯且准确的报告,包括描述、分析和结论

T2R-bench是业内首个面向真实工业场景的“表格生成报告”基准。该数据集共收录457个真实业务表格,类别包括:汽车、能源、金融、政务、财务、科技、教育、银行等垂域,还开源了910个高质量的问题和4320个经过人工高质量标注的报告关键点(金标准)。此外,如表1所示,相比于各类开源表格数据集,T2R-bench是业内目前覆盖工业级表格类别最全的数据集 ,包括:单表多sheet、多表多sheet、复杂结构表、超大宽表等。 我们还设计了一套评价指标体系,以公平衡量生成报告的质量。在25个主流LLM上的实验表明,当前几乎所有的大模型在T2R-bench上仍有显著提升空间。

T2R-Bench发布:业内首个由表格生成报告工业基准

表1. T2R-bench和现有的table数据集在表格类型和答案长度上的对比

2. T2R-bench构建

为确保实验数据集T2R-bench的质量,研究团队采用了严格的数据集构造流程,如图2所示。

T2R-Bench发布:业内首个由表格生成报告工业基准

图2. T2R-bench数据集构建流程图,包括数据集采集、表格问题标注和报告参考点(金标准)标注

2.1 数据集采集

收集互联网公开的工业级表格数据,主要来源包括国家统计局、数据平台、行业协会以及已开源的表格数据集。收集的表格尽可能涵盖多种真实场景,包括:单表多sheet、多表多sheet、超大型表格,以及具有简单和复杂表头结构的工业表格。

2.2 表格问题标注

  1. 种子问题和提示准备:由标注人员精心设计了10个种子问题和一个包含5种不同提示模板的模板库。
  2. 自我指导生成问题:针对每一张表格,基于self-instruct和GPT-4o随机选取两个模板(每个模板包含2到5个种子问题示例),共生成3个相关问题。
  3. 人工标注和筛选:由两名标注人员独立评估每个问题,依据三个标准:是否可仅用表格数据回答(无需外部知识)、是否聚焦单一分析维度以得出明确结论、以及是否与其他问题互补无重叠。不一致结果由资深标注人员仲裁。

2.3 报告参考点(金标准)标注

表格到报告的任务因标注人员的认知差异和表格数据的复杂性而存在显著多样性,将整个报告作为参考标准不切实际。然而,专业撰写的报告在中心观点、分析结论、关键数据、建议总结往往具有一致性,因此,研究人员引入了报告关键点(Report Reference),将其作为评估生成报告的金标准。

  • 报告生成 :采用三种不同的LLM(Qwen-3-32B、Moonshot-V1-32K和Deepseek-R1)为每个
    对生成3份不同的报告。
  • 关键点提取 :使用GPT-4o从每份报告中提炼出最关键的信息,并提炼为5-10个关键点。
  • 人工标注 :进行人工验证,双标注者审核关键点是否忠实于表格、相关且非冗余,分歧由专家裁决。
  • 2.4 数据统计

    T2R-bench数据集的整体情况分别如图3和表2所示。T2R-bench数据集具有以下优点:

    1. 涵盖丰富的工业领域 :包含457个真实业务表格,共6个一级大类和19个二级小类,包括,汽车、能源、金融、政务、财务、科技、教育、银行等垂域。
    2. 涵盖多种表格类型 :复杂结构表(28.9%的表格包含复杂表头和合并单元格)、超大规模表(8.3%的表格超过5万个单元格)和多表(23.6%的表格为多表多sheet或多表单sheet)。
    3. 问题和报告参考点 :包含910个高质量人工标注表格问题和4320个人工标注报告参考点,通过严格的标注与验证流程,显著提升和保障了T2R-bench数据集的质量。

    2.5 数据样例

    图4展示了2个完整的数据样例,其中包括表格、问题、报告参考点和参考报告。

    T2R-Bench发布:业内首个由表格生成报告工业基准

    图3. T2R-bench数据集的领域分布、表类型、行列单元格及报告参考点数量的统计信息

    T2R-Bench发布:业内首个由表格生成报告工业基准

    表2. T2R-bench数据集的整体统计信息

    T2R-Bench发布:业内首个由表格生成报告工业基准

    图4. T2R的中英文数据样例

    3. T2R-bench评价体系

    传统表格任务评估基准(如BLEU/ROUGE)存在两大缺陷:无法验证报告中的数值与表格的一致性,无法避免机械式的文本对照匹配。为此,基于T2R-bench数据集,研究人员设计了互补的3个评估标准,覆盖数值准确性(NAC)、信息完整性(ICC)和总体报告质量(GEC)三大准则。

    准则1:数值准确性(NAC)

    1. 采用NLTK和Jieba对目标报告进行分句,再通过正则表达式提取包含数值陈述(整数或浮点数)的句子簇(如“:库存量增加15%”)。
    2. 将提取到的数值语句转化为对应的验证问题(例:若报告写“总销售额为¥24,892”,则生成“总销售量是多少?”)。
    3. 使用Qwen2.5-32B-Coder、Deepseek-Coder、CodeLlama-70三类代码模型解析问题,生成Python代码并从原表提取数据执行计算。
    4. 采用多数投票机制:仅当至少两个模型输出一致时,该结果方被认定为正确;否则,否则标记为“无法验证”。

    准则2:信息完整性(ICC)

    1. 先用NLTK/Jieba对目标报告进行分句,得句子簇S。
    2. 用BERTScore计算目标报告参考要点和生成报告的句子相似度矩阵S。
    3. 将矩阵S归一化得到联合与边缘概率,并通过计算得到归一化互信息ICC值,其中ICC∈[0,1]。
    4. 对所有报告的ICC取平均值,得分越高,说明整体生成报告对关键信息的保留越完整。

    准则3:总体报告质量(GEC)

    GEC评估包含:推理深度、类人风格、实用性、内容完整性、逻辑连贯性这五个维度,并用LLM-as-Judge范式,通过输入生成的报告和评分规则(10分制),输出各维度单独分数及打分理由。最终GEC评估得分为五个维度的平均值。

    T2R-Bench发布:业内首个由表格生成报告工业基准

    表3. GEC评估标准的细则

    4. 实验

    4.1 基线模型和实验结果

    基于T2R-bench数据集,研究人员评测了包含DeepSeek系列、LLaMA系列、Qwen系列、Doubao系列、GPT系列、Claude、Mistral、Telechat和表格理解类大模型(如:TableGPT2-7b)在内的25个开源和闭源大语言模型。评测涵盖了单表、多表、复杂样式/表头表格及超大规模表格这4种表格数据类型。

    4.2 实验结果

    表4、表5和表6分别展示了25个大模型在T2R-bench上的实验结果,主要的实验发现如下:

    1. 表格输入格式影响:即使是相同的表格数据,以Markdown格式输入模型相较于HTML或JSON格式,有显著的表现提升。
    2. 表格复杂性影响:随着表格单元格数量的增加,及表格结构样式的复杂性提升,模型整体性能出现显著下降,这一现象在多表关联、复杂结构表格及超大宽表上更为明显。
    3. 语言差异影响:大多数模型在中文和英文环境下的表现相似,但仍有一些模型(例如Llama系列模型)显示出较大性能差异,从侧面刻画了不同模型在表格生成报告任务上的本质差异。
    4. 幻觉及关键信息缺失影响:数值事实错误、生成错误、表格结构理解错误及生成的报告未能全面覆盖要点导致的信息缺失,都会不同程度地影响模型整体推理能力,进而显著降低生成报告的最终质量。

    T2R-Bench发布:业内首个由表格生成报告工业基准

    表4. 25个大模型在T2R-bench上的评测结果

    T2R-Bench发布:业内首个由表格生成报告工业基准

    表5. 3个典型大模型在不同的表格输入格式下表现对比(表中为指标NAC、ICC与GEC的平均值)

    T2R-Bench发布:业内首个由表格生成报告工业基准

    表6. 5个典型大模型在双语表格上的表现对比(表中指标为 NAC、ICC与GEC的平均值)

    通过实验观察到,即使表现最优的Deepseek-R1,也仅取得62.71的平均综合得分。这凸显了在真实的工业场景下,大语言模型尚未具备稳健可靠的表格理解、信息转换与深度分析能力,报告生成任务上仍有很大改进空间。同时,T2R-bench也为大语言模型在工业场景中的落地应用提供了重要的评估基准,并通过大量的评测实验展示了评估的严谨性与可解释性。

    5. 局限性和未来方向

    虽然本文对表格生成报告任务进行了首个系统性的数据集构建和实验探索,但是也存在一些局限性:


    关于大模型评测诊断NoneLinear
    https://nonelinear.com

    1. 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
    2. 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
    3. 智能模型超市——统一API,一键调用全球所有大模型,高并发,自动故障切换,实时监控模型调用效果

    T2R-Bench发布:业内首个由表格生成报告工业基准


    关注“鲸栖”小程序,掌握最新AI资讯

    本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14727

    (0)
    上一篇 2025年10月15日 下午4:05
    下一篇 2025年10月16日 上午11:57

    相关推荐

    • FysicsWorld:全球首个物理世界全模态评测基准,开启AI感知真实环境新纪元

      近年来,多模态大语言模型正经历快速的范式转变,研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容,更要将视觉理解与生成整合进统一架构,实现模态间的协同交互。 这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来,正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…

      2025年12月28日
      9000
    • 小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡

      小米近期开源了MiMo-V2-Flash模型,这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式(think)和非思考模式进行了全面评测,测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现:* 测试题数:约1.5万…

      2025年12月21日
      29300
    • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

      智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

      2026年1月4日
      55700
    • 百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界

      百川M3 Plus以2.6%幻觉率与证据锚定技术,重塑医疗AI可信边界 AI正悄然成为许多人寻医问诊流程中的前置入口。然而,在严肃的医疗领域,不准确的建议甚至比没有建议更危险。因此,AI想要真正进入临床,必须翻越“信任”与“成本”两座大山。 百川智能最新发布的循证增强医疗大模型Baichuan-M3 Plus(以下简称M3 Plus)给出了极具诚意的答案。凭…

      2026年1月23日
      2800
    • VitaBench评测揭示AI智能体真实应用瓶颈:跨场景成功率仅30%,三大维度量化任务复杂性

      点外卖时想让 AI 帮你筛选出符合口味、价格合适、配送及时的餐厅;规划旅行时希望它能一站式搞定机票、酒店、餐厅预订——这些看似简单的需求,对当前的大模型智能体而言,却是一道难以逾越的门槛。 美团 LongCat 团队近日发布的 VitaBench(Versatile Interactive Tasks Benchmark)评测基准,给出了一组值得深思的数据:…

      2025年12月11日
      9000