强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会管用吗?

近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

论文链接: https://arxiv.org/pdf/2512.10949
代码链接: https://github.com/Ivan-Tang-3D/3DGen-R1

强化学习是否能够用于Text-to-3D生成,以加强3D自回归模型的逐步推理与生成过程?

在LLM推理和2D文生图中,RL已经证明可以显著提升CoT推理能力和生成质量。但3D物体更长、更稠密、更具几何约束。

因此相关方向研究常面临这几个问题:
1. 奖励如何同时刻画语义对齐、几何一致性和视觉质量?
2. 现有RL算法是否适合自回归式3D生成?
3. 缺乏专门考察“3D推理能力”的Benchmark,难以系统评估RL的真实贡献。

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

Progressive Investigation:四个层次拆解Text-to-3D+RL

1. Reward设计层

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

经过系统对比人类偏好、文本对齐、多视图一致性、3D美学等多种奖励组合。研究团队发现:

1)对齐人类偏好信号是提升整体3D质量的关键。其他奖励维度单独使用时带来的提升有限,但在叠加到偏好奖励之上时能够持续带来增益;

2)对于同一奖励维度而言,专门化的奖励模型通常比大型多模态模型(LMMs)表现出更强的鲁棒性。然而,通用多模态模型(Qwen-VL)在3D相关属性上出乎意料地鲁棒,为“低成本奖励”提供可能。

2. RL算法层

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

评估GRPO、DAPO、GSPO等在3D自回归生成中的表现。主要Insight:

1)相比序列级操作,3D自回归生成中的强化学习更偏好token级策略。
如表2所示,在相同奖励模型配置下,token级平均策略带来的提升显著大于序列级的重要性采样与剪切方法(GSPO)。

2)简单的技巧即可稳定训练,尤其是Dynamic Sampling,只要策略更新受控。完全移除KL惩罚会导致性能下降;而像Decoupled Clip这类更可控的方法,通过鼓励对低概率token的探索,仍能带来性能增益。

3)扩大量级的训练数据能够有效缓解偏好奖励带来的偏差并提升整体表现;适度增加RL迭代也能进一步优化模型,但过度训练可能损害泛化能力。

3. Benchmark层:MME-3DR

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

构建首个针对3D推理场景的系统评测基准MME-3DR:由空间&结构几何,机械可供性与物理合理性,生物/有机形态,长尾稀有实体和风格化/抽象形态五类组成。

MME-3DR希望更关注“在困难约束下是否还能保持一致、合理、可解释”,而非只展示多样性。研究团队发现:

1)近期的Text-to-3D模型在机械结构和非刚性生物体上表现尚可,但在其余三个类别上仍存在明显不足。RL训练在所有五类任务上都带来了显著提升。如图中雷达图所示。

2)MME-3DR能同时评估隐式推理与通用3D生成能力。图中柱状图显示,在随机采样的Toys4K测试集上,Trellis明显优于ShapeLLM-Omni。这一性能差距在MME-3DR中依然保持,进一步验证了其多样化物体覆盖带来的评测有效性。

4. RL范式层:Hi-GRPO & AR3D-R1

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

把3D生成看作天然的coarse-to-fine过程:
Step 1:高层语义先决定整体几何骨架;
Step 2:在几何稳定的前提下细化纹理与局部结构。

对两个step团队单独设计专有奖励模型集成进行监督,基于此提出层次化RL范式Hi-GRPO,并实现首个RL加持的Text-to-3D自回归模型AR3D-R1。

关键发现:RL正在帮3D生成模型“学会思考”

1. 不仅仅是“调美观”
在MME-3DR上,RL训练后的模型在空间几何、一致性和物理可行性等维度都有显著提升,表现出隐式3D推理能力的增强。

2. 范式对齐结构先验很重要
尊重“先几何、后纹理”的层次结构设计(Hi-GRPO),比简单在最终图像上打分更有效,也更可解释。

3. 性能与稳定性的二元博弈
奖励过于稀疏或RL迭代数过大,会带来训练不稳和模式坍缩;高质量人类偏好或强多模态奖励,可以在同等训练预算下取得更高回报。

4. 同时,结果清晰的显示出当前模型的能力边界
对极复杂几何、长尾概念和强风格化场景,模型仍会“逻辑崩坏”;真正可扩展的 3D RL 仍受限于算力与奖励获取成本。

更多可视化结果:

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

论文标题: Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
作者单位: 西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/14045

(0)
上一篇 2025年12月20日 下午12:18
下一篇 2025年12月20日 下午12:43

相关推荐

  • Meta AI基础设施十年演进:从GPU集群到自研芯片的下一代蓝图

    关键词:基础设施演进、AI集群、大语言模型、GPU扩展、自研芯片 我们仍处于人工智能工作负载演进和应用的早期阶段。过去几年我们一直忙碌不停,而未来几年的发展速度将更快。人工智能对硬件提出的需求,丝毫没有放缓的迹象。 在过去的21年里,Meta实现了指数级增长,从一个连接美国几所大学数千人的小型社交网络,发展成为拥有多款应用程序和新型硬件产品、服务全球超过34…

    6天前
    9000
  • 2025年AI技能全景图:从Prompt Engineering到AI Agent的九大核心能力解析

    我们正从“与 AI 聊天”的时代迈向“用 AI 构建”的时代。 科技领域每隔几年就会经历一次范式转移,但当前人工智能领域的变革,其深度与广度远超过去十年间的任何一次。 一个清晰的现实是:到了 2025 年,掌握 AI 技能与不掌握 AI 技能的人,其能力差距将以指数级速度扩大。 这并非危言耸听,而是正在发生的趋势。从“与 AI 对话”到“用 AI 构建”,是…

    2025年12月10日
    10300
  • GraphRAG深度解析:融合Neo4j与LangChain,构建下一代知识增强型LLM系统

    LLM 已从根本上改变了我们与数据交互、自动化推理以及构建智能系统的方式。然而,尽管其生成式能力令人印象深刻,LLM 天生并不理解关系、结构或长期的事实一致性。这一缺陷在我们尝试将 LLM 用于企业级知识系统、多跳推理或决策关键型应用时尤为明显。 这正是图数据库与 RAG 结合之处,二者共同为 AI 系统形成一种新的架构范式——将符号推理与神经生成相融合。 …

    2025年12月27日
    8800
  • 阿里云Operation Intelligence:大模型如何重塑AIOps,让运维从“人工救火”到“系统自愈”

    大模型的出现,给许多行业带来了颠覆性的改变,运维这个向来被视为稳定、保守的领域也不例外。虽然“AIOps”这个概念早在 2016 年由 Gartner 提出,但早期的智能运维更多是利用大数据和机器学习对传统运维流程进行效率上的提升。十年后的今天,大模型的强大能力,正推动着 AIOps 从辅助工具,演进为数智化转型中不可或缺的核心基础设施,让运维真正迈入智能化…

    2026年1月29日
    4300
  • OpenAI研究员揭秘:Codex内部评估机制与AI产品落地的50+实战经验

    昨日,两位来自 OpenAI 及前微软的 AI 产品一线从业者——Aishwarya Naresh Reganti 与 Kiriti Badam,在 Lenny 的播客节目中深入分享了他们在超过 50 个 AI 产品落地项目中的实践经验与教训。 这些经验源于反复的试错与总结。播客主持人 Lenny 提炼出一个核心观点:痛苦是新的护城河。 两位嘉宾均具备深厚的…

    2026年1月12日
    9700