LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

在人工智能的浪潮中,大语言模型(LLM)凭借其在文本生成、代码编写和多模态推理方面的卓越表现,已成为通用智能的代名词。然而,当我们把目光投向现实世界的关键系统——电网调度、用户画像、通信日志等,这些领域的核心数据往往以结构化表格的形式存在。令人意外的是,在这个看似“简单”的领域,包括LLM在内的现代深度学习模型却频频失手,其性能在多数真实场景下仍难以超越XGBoost、CatBoost等传统梯度提升方法。这引出了一个深刻的行业困境:为什么在非结构化数据上所向披靡的深度学习,在结构化数据建模中却长期陷入瓶颈?

清华大学崔鹏团队的最新研究成果LimiX,正是对这一核心问题的有力回应。LimiX-2M模型以仅2M的参数量,在同时支持分类、回归、缺失值插补等多任务的前提下,性能超越了XGBoost、CatBoost等经典模型,并在与AutoGluon和TabPFN的对比中展现出显著优势,仅次于其前期发布的LimiX-16M版本。这一突破不仅使中国在表格建模领域的研究站到了世界前沿,更以轻量化的设计为工业应用打开了新的可能性。

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

技术层面,LimiX的成功源于其针对结构化数据的深度优化。模型基于Transformer架构,但进行了关键改造:首先对特征与目标分别进行嵌入,在主模块中通过样本维度与特征维度的双重注意力机制,聚焦关键样本与关键特征。提取的高维表示随后分别输入回归头和分类头,从而同时支持回归与分类任务。这种设计使得模型能够更有效地捕捉表格数据中的复杂关系。

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

在11个权威评测基准上的平均性能表现显示,LimiX-16M与LimiX-2M版本包揽分类任务冠亚军,一举超越业界标杆AutoGluon,并大幅领先其他基于上下文学习的基础模型与传统树模型。这一成绩的取得,得益于LimiX强大的zero-shot能力,即在无任何任务特定微调的前提下实现优异表现。

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

具体到数据集测试,在BCCO-CLS上的分类性能对比中,LimiX-16M和LimiX-2M包揽前二。在CTR23上的回归性能对比中,LimiX-16M稳居榜首,LimiX-2M紧随其后位列第三。这些结果验证了模型在多样任务上的鲁棒性。

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

除了“开箱即用”的零样本能力,LimiX还支持微调以进一步提升性能。实验表明,在analcatdata_apnea2数据集上微调后,LimiX-2M的AUC相较于微调前提升11.4%,而所需时间仅相当于PFN-V2.5的60%。更值得一提的是,LimiX-2M可以在消费级显卡RTX4090上进行微调,而PFN-V2.5需要更大显存的显卡,这使得LimiX在科研和工程实践中更具友好性。

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX-2M的核心革新在于其嵌入层的结构性更新:引入了RBF(Radial Basis Function)数值嵌入机制。传统线性嵌入在处理数值特征时存在“低秩瓶颈”,即难以充分表达复杂的数据分布。RBF嵌入通过将数值特征映射到高维空间,利用径向基函数的非线性特性,显著提升了模型对数值关系的建模能力。这一设计使得LimiX-2M以仅1.94M的参数量(是LimiX-16M的八分之一),在多个数据集基准上取得接近LimiX-16M的性能表现,而非依赖传统的“剪枝”或“蒸馏”技术。

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

在训练数据方面,LimiX采用了完全基于生成数据的预训练策略。为确保生成过程的高效与可控,模型采用基于结构因果图(SCG)的数据生成方式:初始样本在有向无环图上传播,通过边映射与节点交互模拟真实因果依赖关系,再从因果图中采样得到训练数据。该方法既保证了数据的因果多样性,又提升了可控性与泛化能力。同时,模型在优化目标中加入了掩码重构机制:在训练过程中,通过对数据进行随机掩码操作,模型根据特征间的因果依赖关系,使用观测到的数据来重构缺失数据,从而增强对特征交互模式的建模能力。

从应用视角看,LimiX-2M作为一个高效、灵活、可靠的算法架构,具有多重优势:其开箱即用的特性基于上下文学习,无需训练或调参,自动完成数据预处理,降低了使用门槛;单模型通吃分类、回归、插补等多任务,实现了跨学科研究的无缝切换;在小样本场景下(如医学、生物领域)能高效泛化,从有限数据中提取最大价值;通过检索机制揭示预测依据,提升了模型的可解释性;轻量设计支持普通电脑流畅运行,使小型团队也能低成本开展前沿AI实验;完全离线运行的能力,保障了敏感数据安全,满足医疗、国防等高合规场景需求。

LimiX的出现,不仅是一次技术突破,更是对AI研究范式的重新思考。它证明了通过结构性创新而非单纯规模扩张,可以在特定领域实现超越传统方法的性能。对于表格数据建模这一长期被忽视的领域,LimiX提供了新的解决方案,有望在金融风控、医疗诊断、工业预测等场景中发挥重要作用。随着开源版本的发布,社区可以进一步探索其潜力,推动结构化数据AI应用进入新阶段。

— 图片补充 —

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈

LimiX:以2M参数颠覆表格数据建模,清华团队破解深度学习结构化瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/7508

(0)
上一篇 2025年11月13日 上午11:40
下一篇 2025年11月13日 上午11:51

相关推荐

  • 自动驾驶范式迁移:从数据闭环到训练闭环的深度技术解析

    在自动驾驶技术发展的关键转折点,行业正经历一场深刻的范式迁移。端到端架构虽曾统一技术栈并释放Scaling Law潜力,但随着数据瓶颈日益凸显,单纯依赖模仿学习已难以突破人类司机能力上限。ICCV 2025的最新动向显示,头部企业正形成共识:强化学习与云端生成式世界模型将成为下一代自动驾驶系统的核心基座。 特斯拉与理想汽车在顶会现场的实践分享,揭示了这一转型…

    2025年11月8日
    36700
  • 开源压缩工具caveman-compression:如何通过语言优化将大模型API成本降低40%以上

    随着大模型API的广泛应用,开发者面临日益增长的token成本压力。每月数千甚至上万元的API账单已成为许多AI项目的沉重负担。在这种背景下,开源项目caveman-compression提供了一种创新的解决方案:通过语言压缩技术,在保持语义完整性的前提下,显著减少token消耗,从而实现成本的大幅降低。 ### 语言压缩的核心原理:利用大模型的补全能力 c…

    2025年11月20日
    41300
  • OpenAI突然关闭Sora:烧钱机器停摆,战略重心转向下一代大模型与AGI

    万万没想到,就在刚刚,OpenAI 宣布关闭其视频生成模型 Sora。 官方声明中表示:「我们将告别 Sora 应用。感谢所有用 Sora 进行创作、分享作品并围绕它建立社区的用户:谢谢你们。你们用 Sora 创造的一切都很重要,我们也知道这个消息令人失望。我们很快会分享更多信息,包括应用和 API 的时间安排,以及如何保存你们的作品的相关细节。——Sora…

    2026年3月25日
    57700
  • 信仰与算法的终极博弈:前谷歌研究员如何向梵蒂冈预警AGI末日危机

    在人工智能技术飞速发展的今天,关于通用人工智能(AGI)可能带来的生存风险讨论已从硅谷实验室延伸至全球最古老的权力中心——梵蒂冈。前谷歌研究员约翰-克拉克·莱文(John-Clark Levin)正领导一场独特的游说行动,试图让天主教廷正视AGI可能引发的“代码末日”,这场信仰与算法之间的博弈,或将重塑人类在智能时代的命运轨迹。 莱文并非普通的科技从业者。作…

    2025年12月2日
    30400
  • ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

    百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…

    2026年1月24日
    2.3K00

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注