LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

2025年11月13日上午11:49 • AI产业动态 • 阅读 3

在人工智能的浪潮中，大语言模型（LLM）凭借其在文本生成、代码编写和多模态推理方面的卓越表现，已成为通用智能的代名词。然而，当我们把目光投向现实世界的关键系统——电网调度、用户画像、通信日志等，这些领域的核心数据往往以结构化表格的形式存在。令人意外的是，在这个看似“简单”的领域，包括LLM在内的现代深度学习模型却频频失手，其性能在多数真实场景下仍难以超越XGBoost、CatBoost等传统梯度提升方法。这引出了一个深刻的行业困境：为什么在非结构化数据上所向披靡的深度学习，在结构化数据建模中却长期陷入瓶颈？

清华大学崔鹏团队的最新研究成果LimiX，正是对这一核心问题的有力回应。LimiX-2M模型以仅2M的参数量，在同时支持分类、回归、缺失值插补等多任务的前提下，性能超越了XGBoost、CatBoost等经典模型，并在与AutoGluon和TabPFN的对比中展现出显著优势，仅次于其前期发布的LimiX-16M版本。这一突破不仅使中国在表格建模领域的研究站到了世界前沿，更以轻量化的设计为工业应用打开了新的可能性。

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

技术层面，LimiX的成功源于其针对结构化数据的深度优化。模型基于Transformer架构，但进行了关键改造：首先对特征与目标分别进行嵌入，在主模块中通过样本维度与特征维度的双重注意力机制，聚焦关键样本与关键特征。提取的高维表示随后分别输入回归头和分类头，从而同时支持回归与分类任务。这种设计使得模型能够更有效地捕捉表格数据中的复杂关系。

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

在11个权威评测基准上的平均性能表现显示，LimiX-16M与LimiX-2M版本包揽分类任务冠亚军，一举超越业界标杆AutoGluon，并大幅领先其他基于上下文学习的基础模型与传统树模型。这一成绩的取得，得益于LimiX强大的zero-shot能力，即在无任何任务特定微调的前提下实现优异表现。

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

具体到数据集测试，在BCCO-CLS上的分类性能对比中，LimiX-16M和LimiX-2M包揽前二。在CTR23上的回归性能对比中，LimiX-16M稳居榜首，LimiX-2M紧随其后位列第三。这些结果验证了模型在多样任务上的鲁棒性。

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

除了“开箱即用”的零样本能力，LimiX还支持微调以进一步提升性能。实验表明，在analcatdata_apnea2数据集上微调后，LimiX-2M的AUC相较于微调前提升11.4%，而所需时间仅相当于PFN-V2.5的60%。更值得一提的是，LimiX-2M可以在消费级显卡RTX4090上进行微调，而PFN-V2.5需要更大显存的显卡，这使得LimiX在科研和工程实践中更具友好性。

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX-2M的核心革新在于其嵌入层的结构性更新：引入了RBF（Radial Basis Function）数值嵌入机制。传统线性嵌入在处理数值特征时存在“低秩瓶颈”，即难以充分表达复杂的数据分布。RBF嵌入通过将数值特征映射到高维空间，利用径向基函数的非线性特性，显著提升了模型对数值关系的建模能力。这一设计使得LimiX-2M以仅1.94M的参数量（是LimiX-16M的八分之一），在多个数据集基准上取得接近LimiX-16M的性能表现，而非依赖传统的“剪枝”或“蒸馏”技术。

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

在训练数据方面，LimiX采用了完全基于生成数据的预训练策略。为确保生成过程的高效与可控，模型采用基于结构因果图（SCG）的数据生成方式：初始样本在有向无环图上传播，通过边映射与节点交互模拟真实因果依赖关系，再从因果图中采样得到训练数据。该方法既保证了数据的因果多样性，又提升了可控性与泛化能力。同时，模型在优化目标中加入了掩码重构机制：在训练过程中，通过对数据进行随机掩码操作，模型根据特征间的因果依赖关系，使用观测到的数据来重构缺失数据，从而增强对特征交互模式的建模能力。

从应用视角看，LimiX-2M作为一个高效、灵活、可靠的算法架构，具有多重优势：其开箱即用的特性基于上下文学习，无需训练或调参，自动完成数据预处理，降低了使用门槛；单模型通吃分类、回归、插补等多任务，实现了跨学科研究的无缝切换；在小样本场景下（如医学、生物领域）能高效泛化，从有限数据中提取最大价值；通过检索机制揭示预测依据，提升了模型的可解释性；轻量设计支持普通电脑流畅运行，使小型团队也能低成本开展前沿AI实验；完全离线运行的能力，保障了敏感数据安全，满足医疗、国防等高合规场景需求。

LimiX的出现，不仅是一次技术突破，更是对AI研究范式的重新思考。它证明了通过结构性创新而非单纯规模扩张，可以在特定领域实现超越传统方法的性能。对于表格数据建模这一长期被忽视的领域，LimiX提供了新的解决方案，有望在金融风控、医疗诊断、工业预测等场景中发挥重要作用。随着开源版本的发布，社区可以进一步探索其潜力，推动结构化数据AI应用进入新阶段。

— 图片补充 —

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/7508

结构化数据表格数据建模轻量化模型

赞 (0)

0 0

GRPO-Guard：破解流模型强化学习过优化难题，重塑视觉生成对齐新范式

上一篇 2025年11月13日上午11:40

UNCOMP：从矩阵熵悖论到KV Cache优化——揭秘大模型深层稀疏性的理论突破与实践创新

下一篇 2025年11月13日上午11:51

AI产业动态

MCP协议反思：当Agent工具标准化遭遇现实困境，轻量化CLI方案能否破局？

在人工智能代理（Agent）技术快速发展的浪潮中，模型上下文协议（MCP）一度被视为工具链标准化的理想解决方案。然而，随着实践深入，这一协议开始暴露出与生俱来的结构性问题。本文将从技术架构、性能瓶颈和实际应用场景三个维度，深入剖析MCP协议的局限性，并探讨一种基于命令行接口（CLI）的轻量化替代方案。 **一、MCP协议的技术架构困境** 从技术实现层面分析…

2025年11月7日
1000
AI产业动态

DemoHLM：单次演示生成海量数据，破解人形机器人移动操作三大难题

近日，北京大学与BeingBeyond的研究团队联合提出了DemoHLM框架，为人形机器人移动操作领域带来了突破性进展。该框架仅需在仿真环境中采集一次人类演示，即可自动生成海量训练数据，实现真实人形机器人在多任务场景下的泛化操作，有效解决了传统方法依赖硬编码、真实数据成本高昂、跨场景泛化能力差的核心痛点。移动操作作为人形机器人融入人类环境的核心能力，长期面…

2025年11月13日
2000
AI产业动态

AI反派困境：Moral RolePlay基准揭示大模型道德角色扮演的深层局限

在人类叙事艺术中，复杂角色的塑造始终是衡量作品深度的核心标尺。从莎士比亚笔下的麦克白到《蝙蝠侠》中的小丑，反派角色的心理深度与道德复杂性往往成为故事张力的关键来源。当人工智能开始涉足创意生成领域时，一个根本性问题浮现：这些基于海量人类数据训练的大语言模型，能否真正理解并模拟人类道德光谱中的阴暗面？腾讯混元数字人团队与中山大学联合发布的「Moral RoleP…

2025年11月22日
2000
AI产业动态

突破PEFT合并瓶颈：方向鲁棒性理论揭示与RobustMerge方案解析

在人工智能技术快速演进的浪潮中，多模态大模型已成为推动产业进步的核心引擎。然而，随着模型参数规模呈指数级增长，全量微调（Full Fine-Tuning, FFT）所需的海量计算资源已成为制约技术民主化的重要瓶颈。参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）技术，特别是LoRA（Low-Rank Adaptati…

2025年11月10日
3000
AI产业动态

从短片生成到长片叙事：Utopai Studios如何通过架构创新突破AI影视制作瓶颈

在AI视频生成技术快速发展的当下，Sora 2、Google Veo 3等主流模型已能生成视觉效果惊艳的短视频片段，但面对长视频乃至完整影视作品的创作需求时，这些模型往往显得力不从心。这种局限性并非偶然，而是源于当前技术范式的根本性约束。然而，好莱坞AI原生影视工作室Utopai Studios与全球创新投资平台Stock Farm Road（SFR）的数十…

2025年11月8日
2000

发表回复