大模型工程

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧

记忆机制是大型模型处理复杂任务的核心能力之一。在对话、自动化工作流等场景中，模型需要依赖记忆来维持长期上下文。这一需求在3D重建领域同样关键，尤其是在处理大范围场景或长序列视频时，跨帧信息的持续传递与整合至关重要。然而，现有的前馈式3D重建模型通常受限于较短的上下文窗口，难以有效建模长序列中的依赖关系。尽管近期出现的几何基础模型（如DUSt3R、MonST…

4天前

108000

大模型工程

哈工深团队突破线性注意力瓶颈！Norm×Direction分解实现视觉任务精度全面超越，70K+token超分任务显存降低92.3%

作者信息本文第一作者孟维康是哈尔滨工业大学（深圳）与鹏城实验室联合培养的博士生，本科毕业于哈尔滨工业大学，主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学（深圳）长聘教授、博士生导师，教育部青年长江学者，长期致力于高效能多模态机器学习研究，专注于高效与可信多模态大模型。研究背景随着 Transformer 在计算机视觉领域的广泛应用，处理高分…

4天前

120000

大模型工程

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

离线强化学习（Offline RL）面临一个核心挑战：训练数据集是固定且质量不均的。近年来，以决策Transformer（DT）为代表的基于Transformer的方法，因其将决策建模为条件序列生成而备受关注。然而，这些方法通常以“整条轨迹”作为学习单元：若一条轨迹的最终回报不高，即便其中包含有效的动作或局部成功的片段，其价值也容易被整体的低回报所“稀释”。…

5天前

103000

大模型工程

AI编程先锋卡帕西：IDE不会消失，我们需要的是更大的IDE——从文件管理到智能体协同的进化

在AI编程领域，安德烈·卡帕西（Andrej Karpathy）无疑是先行者。他曾公开表示，自己目前80%的代码由AI生成，其近期的一些开源项目（如autoresearch）也主要由AI完成。既然AI的编程能力已如此强大，传统的集成开发环境（IDE）是否终将被淘汰？对此，这位AI编程先锋给出了明确的否定答案。不会。这一观点迅速引发了广泛关注。 IDE不…

2026年3月12日

108000

大模型工程

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

给定几张场景图片，人类往往能在脑海中想象出该场景的三维布局。然而，当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理，难以有效表达图像中隐含的几何结构。为此，清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。论文地址：https://arxiv.org/pdf/2510.18632 代码地址：…

2026年3月11日

94000

大模型工程

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42% 随着多模态大模型向“全模态”演进，Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而，这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token，其中大量是冗余信息。注意力可视化实验揭示，在多模态…

2026年3月11日

96000

大模型工程

从动态计算到静态查表：STEM如何重构Transformer的记忆机制

近年来，随着大语言模型规模与知识密度的不断提升，研究者开始重新思考一个更本质的问题：模型中的参数应如何被组织，才能更高效地充当“记忆”。在标准 Transformer 的前馈网络（FFN）中，知识主要隐式存储在 up-projection 等密集矩阵里，并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效，但在参数的可寻址性、可编辑性与系统效率上存在…

2026年3月9日

117000

大模型工程

AI科学家30分钟破解数学难题！斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

用AI，特别是大语言模型和智能体来解决数学问题，正成为科研领域的新趋势。近日，斯坦福大学副教授James Zou与TogetherAI的研究者Federico Bianchi、Yongchan Kwon展示了一种新颖的研究方法。他们基于爱因斯坦、费曼等著名物理学家的“人格画像”构建了一批AI智能体，并创建了一个类似Kaggle的竞赛平台。这些智能体可以在平…

2026年3月9日

95000

大模型工程

GAN之父Ian Goodfellow携NLP先驱Chris Manning重磅发声：符号化表示与游戏数据，构建多模态世界模型的最佳路径

沉寂许久的 Ian Goodfellow，终于再次现身。这位提出生成对抗网络（GAN）的研究者，曾一手开启 AI 生成技术的早期浪潮。但在最近几年由大模型主导的新一轮生成式 AI 竞赛中，Goodfellow 的公开声音却并不多见。直到最近，他与 NLP 先驱 Chris Manning 等人共同发表了一篇文章，探讨了构建多模态世界模型的新路径。文章的…

2026年3月8日

89000

大模型工程

LLM与强化学习融合：开启智能推荐新纪元，首篇系统性综述发布

强化学习（RL）将推荐系统建模为序列决策过程，支持长期效益和非连续指标的优化，是推荐系统领域的主流建模范式之一。然而，传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。近期，大语言模型（LLM）的崛起带来了新机遇。LLM 凭借常识储备、推理能力和语义天赋，不仅能让智能体更懂用户，还能充当高保真的环境模拟器。LL…

2026年3月3日

174000

分类

排序

大模型工程

谷歌DeepMind联合伯克利推出LoGeR：突破性长时记忆架构，让3D重建跨越数千帧

哈工深团队突破线性注意力瓶颈！Norm×Direction分解实现视觉任务精度全面超越，70K+token超分任务显存降低92.3%

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

AI编程先锋卡帕西：IDE不会消失，我们需要的是更大的IDE——从文件管理到智能体协同的进化

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

从动态计算到静态查表：STEM如何重构Transformer的记忆机制

AI科学家30分钟破解数学难题！斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

GAN之父Ian Goodfellow携NLP先驱Chris Manning重磅发声：符号化表示与游戏数据，构建多模态世界模型的最佳路径

LLM与强化学习融合：开启智能推荐新纪元，首篇系统性综述发布