大模型训练

OpenClaw-RL：让AI越用越聪明的开源框架，北大博士团队破解AI智能体训练难题

过去一周，一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体，其体验过程颇具戏剧性：从用户争相部署，到因使用问题（如账号安全、文件误操作）而匆忙卸载，周期可能短至一周。那么，如何让此类 AI 智能体在使用中持续改进，而非引发问题？北京大学博士、美国普林斯顿大学博士后研究员杨灵（合作导师为王梦迪教授）及其…

3天前

190000

大模型训练

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

在大型语言模型（LLM）的开发流程中，后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为，模型必须通过强化学习（如PPO、GRPO或RLHF）或进化策略等算法，在反复的迭代和梯度优化中调整权重，才能在特定任务上达到理想性能。然而，MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

4天前

130000

大模型训练

AI自主科研新突破：Karpathy项目引发智能体群体协作，4天完成2000+实验

AI自主科研新突破：Karpathy项目引发智能体群体协作，4天完成2000+实验 Karpathy的Autoresearch项目仅用630行Python代码，就让AI自主完成了276次实验，筛选出29项有效改进，将语言模型的训练效率提升了约11%，全程无需人类干预。然而，更引人注目的进展发生在此之后。全球开发者社区接手项目，将其从“单个AI做实验”升级为…

4天前

102000

大模型训练

突破语言桎梏：用神经细胞自动机预训练大模型，性能提升6%，推理能力增强

如果有一天，大语言模型不再依赖人类语言进行训练，会发生什么？近年来，大模型能力的飞跃几乎都建立在一个前提之上：海量的文本数据。然而，随着高质量文本资源逐渐逼近极限，研究者开始提出一个更根本的问题：语言，真的是智能的起点吗？一项最新研究给出了一个出人意料的答案：或许不是。研究团队假设，让语言模型在学习语言之前，先在完全非语言的合成数据上进行“预预训练”（p…

5天前

125000

大模型训练

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤，研究方向为大模型智能体与强化学习，导师为兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够有效提升大语言模型（LLMs）在思维链（Chain-of-Thou…

6天前

106000

大模型训练

MetaClaw：让AI聊天中自我进化，无需GPU集群的在线强化学习系统

让AI聊天助手仅仅完成任务已不够，现在，开发者正致力于让 AI实现自我进化。关键之处在于，这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统，为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集，也无需人工微调，旨在让AI在与用户的日常对话中持续学习、自主变强。其核心在于将用户与AI的自然对话直接转化为训…

2026年3月12日

246000

大模型训练

超越语言建模：Meta与纽约大学探索统一多模态预训练，让AI直接理解现实世界

基础模型的能力爆发，源于海量文本的预训练。然而，文本只是人类对现实世界的一种抽象表达，是信息的有损压缩。借用柏拉图的“洞穴寓言”：语言模型擅长描述墙壁上的影子，却从未见过投射影子的实体。它们精于捕捉符号，却难以理解物理世界中高保真的规律、结构与因果。除了这一哲学局限，还存在一个现实瓶颈：高质量文本数据有限，且正逐渐枯竭。相比之下，视觉世界提供了近乎无限的…

2026年3月8日

79000

大模型训练

Claude破解苹果神经引擎！Mac变身AI训练神器，成本暴跌至电费零头

Claude破解苹果神经引擎！Mac变身AI训练神器，成本暴跌至电费零头（1/2）核心摘要开发者借助Claude，成功对苹果神经引擎（ANE）进行了逆向工程，绕过了苹果官方的CoreML框架限制，首次在M4芯片的ANE上实现了神经网络训练。这证明Mac设备内置的NPU具备强大的训练潜力，可能将低成本、高能效的AI训练带入个人电脑时代。 AI界迎来新突破，…

2026年3月8日

163000

大模型训练

FlashAttention-4震撼发布：Blackwell GPU上注意力机制速度媲美矩阵乘法，性能提升高达2.7倍

经过一年的开发，FlashAttention-4 正式发布。作为深度学习领域一项关键的底层优化技术，FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示，在 Blackwell GPU 上，注意力机制的执行速度现已几乎与矩阵乘法相当，尽管两者的瓶颈截然不同。当前，Tensor Core 的速度已变得极快…

2026年3月6日

328000

大模型训练

斯坦福博士生提出「持续自我提升式AI」：让模型自主进化，超越人类创造者

昨日，斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后，相关视频与资料迅速公开，系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。在答辩中，Zitong Yang 重点阐…

2026年3月5日

199000