当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?

一张 H100 相当于多少个 Hadoop 实例?

让我们从一个引人深思的问题开始:站在2026年的当下,一张 H100 GPU 的单卡算力(FP16)大约相当于多少个 Hadoop 实例?

答案是:约 200 个(基于单卡 H100 与一台 96 核 CPU 实例的对比)。

这个数字背后揭示了一个值得关注的现象:过去几年,AI 的快速发展推动了算力的指数级增长,但在结构化数据建模领域,行业主流方法仍是以树模型为核心的垂直场景化解决方案。

这形成了一种显著的“反差”:一方面,科技界正通过不断升级的大语言模型推动 AI 生产力的跃迁;另一方面,在金融、医疗、电商、物流、工业制造等高价值行业中,承载核心智能化任务的,却仍主要是以 XGBoost、随机森林为代表的树模型。这种反差促使我们思考:当算力发生革命性提升时,结构化数据建模的“平衡点”是否也应被重新定义?

“苦涩的教训”与结构化数据的困境

从宏观视角看,大模型研发遵循的核心思想,可追溯至 Richard Sutton 提出的“苦涩的教训”:在 AI 的长期发展中,那些能随计算规模持续扩展的通用学习方法,最终往往会超越依赖人类直觉与领域知识精心设计的系统。

大语言模型的成功是这一规律的典型体现——通过统一架构与大规模数据训练,LLM 在 NLP 领域实现了跨任务、跨场景的能力迁移。然而,当企业在实际业务中解决监督学习问题时,情况却大不相同。即使尝试引入深度学习,也往往需要复杂的数据流水线、特定架构设计以及大量领域知识,这相当于以“手工作坊”的方式应对“工业化生产”的需求。

于是我们看到一个有趣的现象:一方面,大模型正推动 AI 生产力的跃迁;另一方面,在高价值行业的核心场景中,承担智能化任务的仍主要是基于树的表格分类模型或垂直领域的深度学习模型。这进一步激发了我们对结构化数据模型扩展上限的探索兴趣。

回顾历史,XGBoost 在 2014 年被广泛视为机器学习领域中算力、算法与数据三要素之间的一个“平衡点”。但十二年后的今天,随着 GPU 算力快速迭代并带来数量级提升,这一平衡点是否已经改变?结构化数据建模是否也能像 NLP 和 CV 一样,通过新的计算范式实现突破?当单张 H100 与一台 96 核 CPU 服务器之间存在约 200 倍的 FP16 算力差距时,一个自然的构想是——能否将 GPU 的大规模并行算力真正引入结构化数据建模,并通过预训练范式重新平衡算力、数据与算法这三大核心要素。

千亿级样本预训练实践

本文将重点介绍浙大 X 蚂蚁 AIforData 团队的探索:基于蚂蚁集团海量的异构结构化数据以及丰富的下游业务场景,实现了千卡 GPU 集群下百亿级样本规模的结构化数据预训练,并系统评估了预训练模型在下游任务中的表现。实验结果表明:

  1. 在工业级表格数据集上,预训练模型的性能可以稳定且显著地超越传统树模型。
  2. 表格数据预训练模型呈现出明显的 Scaling Law
  3. 行为序列预训练模型同样表现出良好的 Scaling Law。

工作 1: 表格数据预训练与 Scaling Law

论文链接:https://arxiv.org/abs/2602.22777

KMLP(Kolmogorov-Arnold Network with gated MLP)是面向互联网超大规模表格数据的混合深度学习架构(已中稿 The Web Conference 2026)。面对工业场景中数十亿样本、数千异构特征的建模挑战,KMLP 创新性地将浅层 KAN 作为前端特征工程构造器,结合 gMLP 主干网络捕获高阶交互,实现了端到端的自动化特征表示学习。

当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?

在包含 20 亿样本的真实信贷评分数据集上,KMLP 展现出显著的规模优势:随着数据量级提升,其相对于传统 GBDT 模型的性能优势持续扩大。这一发现验证了 KMLP 作为可扩展深度学习范式的潜力,为大规模动态互联网表格数据建模提供了新路径。

当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?

KMLP 的核心价值在于解决了传统方法的双重瓶颈:一方面克服了 GBDT 在超大规模数据集上的分布式计算效率问题,另一方面通过可学习激活函数摆脱了对人工特征工程的依赖,实现了特征异构性与交互建模的统一。

工作 2: 行为序列预训练与 Scaling Law

论文链接:https://arxiv.org/abs/2412.12468

用户行为时序数据是刻画用户的关键结构化数据之一,对于用户理解与建模至关重要。如何有效利用更多的用户行为序列数据,是一个重要的研究课题。

FOUND:时序数据的语义级应用

FOUND(Transferable and Forecastable User Targeting Foundation Model)是 AIforData 团队发布在 The Web Conference 2025 的工作,面向互联网平台中多种来源的序列数据和结构化数据,构建了工业级、具有预测性的用户表征框架。

当前许多用户理解方法面临两大挑战:(i) 跨领域和跨场景的可迁移性及泛化能力较弱;(ii) 在实际应用中的预测能力不足。为增强跨领域迁移能力,FOUND 框架整合了多场景用户数据,并在用户建模时创新性地通过对比学习预训练,将其与根据序列语义整理得到的文本进行对齐。为提高预测性,每个用户的文本描述基于用户未来的行为推导得出,而用户表征则由历史信息构建,使用过去-未来语义对齐的方式构造训练样本对。

该框架产出的用户表征在真实场景 benchmark 和业务上均获得了增益。同时,引入自然语言监督的方式使模型天然支持人群圈选任务,该预训练框架支持的圈人能力在下游超过 50 个业务场景中取得了收益。

当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?

序列数据的 Scaling Law

在构建上述预训练框架后,我们探索如何将互联网平台中更多、更长的用户行为序列引入模型。针对多种来源的序列数据,若各自设计编码器会存在训练成本过高、表达空间不统一等缺陷。同时,如何发挥更多输入序列数据的最大性能也是一个问题,即需要探索输入序列本身存在的 Scaling Law 以及如何突破可能存在的 Scaling 瓶颈。

实验发现,当输入序列长度/用户数目较少时,性能随天数/用户数目(指数)近似线性提升,Scaling 现象明显;但当输入序列增长、用户数目增加至较大量级时,性能增长放缓,出现 Scaling 瓶颈。为解决该问题,除了增加模型参数,提升输入用户数据的信息密度——即对用户信息进行压缩——是一种节约成本且轻量的方案。在使用 RQ-VAE 方案进行用户序列数据压缩后,我们观察到数据增长瓶颈得到延缓,说明了压缩带来突破瓶颈的 Densing Law 现象。

核心结论:在输入序列长度/用户数目较少时,性能随天数指数呈现明显的 Scaling 现象;当输入序列长度和用户数目增加至较大量级时,出现 Scaling 瓶颈;而压缩数据可以通过提升信息密度带来突破瓶颈的 Densing Law 现象。

当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?
当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?

基于上述原始与压缩输入的 Scaling Law 规律,我们设计了统一的用户量化压缩理解方案。该方案将用户的多源序列数据,通过我们提出的 MRQ-VAE 方法压缩为高信息密度的语义 Token ID。在此基础上进行模型扩展(Scaling),获得了性能更优的用户模型。

所产生的通用用户表征,在超过 80% 的真实场景基准测试中,均优于此前基于原始数据输入的模型版本,并已广泛应用于数字金融、支付安全、营销推荐等多个业务领域。

总结与展望

回到开篇的核心问题:当算力实现数量级跨越时,结构化数据建模的范式是否也应随之革新?

蚂蚁集团与浙江大学 AIforData 团队的探索给出了肯定的答案。Scaling Law 正从 NLP、CV 领域延伸至结构化数据领域——这或许预示着,那个高度依赖人工特征工程与场景化参数调优的时代,终将落幕。

“当算力的天平已然倾斜,平衡点也需被重新定义。”

展望未来,随着算力的持续提升与预训练范式的日益成熟,我们有理由相信,结构化数据建模将迎来属于自己的“大模型时刻”。

当H100算力提升200倍:结构化数据建模的平衡点是否该被重新定义?


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30702

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

    DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…

    2026年1月13日
    41000
  • 深度研究智能体:从信息搜索到自主科研的演进之路

    近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的“一次检索 + 一次生成”范式,难以支撑多步推理与长期研究流程,由此催生了深度研究(Deep Research, DR)这一新方向。 然而,随着相关工作的快速涌现,DR的概念也在迅速膨胀并趋于碎片化:不同工作在系统实现…

    2026年1月1日
    36500
  • DeepMind突破:多智能体系统规模化瓶颈揭示,任务匹配度成关键性能指标

    在AI领域,智能体(Agent)的研究与应用日益增多,原生多智能体工作的基础模型也已开始出现。 作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式。从编程助手到私人健康教练,AI应用正从单次问答转向持续的多步骤交互。尽管研究人员长期以来一直利用既定指标来优化传统机器学习模型的准确性,但AI智能体引入了新的复杂性。 与孤立的预测…

    2026年2月25日
    33400
  • 揭秘16层架构:如何构建成本优化、全链路可观测的生产级知识图谱系统Agentic GraphOS

    面向企业生产的、成本优化且全链路可观测的 GraphRAG 操作系统 Agentic GraphOS | 生产可用 · 多智能体 · 思维速度级扩展 本文将从零开始,完整介绍如何构建一套可投入生产的知识图谱系统——GraphOS。你将了解如何架构一个多智能体平台,智能地将查询路由到最具性价比的检索策略,在保持研究级准确率的同时实现 30–50% 的成本优化。…

    2026年1月8日
    36500
  • 从Jupyter到Web应用:用Python、FastAPI与LangChain构建可部署的AI工具

    从Jupyter到Web应用:用Python、FastAPI与LangChain构建可部署的AI工具(第1/2部分) 为何需要将AI脚本转化为Web应用 在Jupyter Notebook中成功验证一个AI模型(如问答或文本摘要)后,其价值往往受限于本地环境。团队无法协作,用户无法访问,模型的价值难以释放。 核心在于:AI的价值不仅在于模型本身,更在于其可访…

    2025年11月30日
    35300