大模型训练
-
OpenClaw-RL:让AI越用越聪明的开源框架,北大博士团队破解AI智能体训练难题
过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。 那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其…
-
MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力
在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…
-
AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验
AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验 Karpathy的Autoresearch项目仅用630行Python代码,就让AI自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11%,全程无需人类干预。 然而,更引人注目的进展发生在此之后。全球开发者社区接手项目,将其从“单个AI做实验”升级为…
-
突破语言桎梏:用神经细胞自动机预训练大模型,性能提升6%,推理能力增强
如果有一天,大语言模型不再依赖人类语言进行训练,会发生什么? 近年来,大模型能力的飞跃几乎都建立在一个前提之上:海量的文本数据。然而,随着高质量文本资源逐渐逼近极限,研究者开始提出一个更根本的问题:语言,真的是智能的起点吗? 一项最新研究给出了一个出人意料的答案:或许不是。研究团队假设,让语言模型在学习语言之前,先在完全非语言的合成数据上进行“预预训练”(p…
-
清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题
论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…
-
MetaClaw:让AI聊天中自我进化,无需GPU集群的在线强化学习系统
让AI聊天助手仅仅完成任务已不够,现在,开发者正致力于让 AI实现自我进化。 关键之处在于,这并非针对单一任务的性能提升。一项名为 MetaClaw 的新系统,为智能体套上了一层在线强化学习框架——它无需维护本地GPU集群、无需准备特定数据集,也无需人工微调,旨在让AI在与用户的日常对话中持续学习、自主变强。 其核心在于 将用户与AI的自然对话直接转化为训…
-
超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界
基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…
-
Claude破解苹果神经引擎!Mac变身AI训练神器,成本暴跌至电费零头
Claude破解苹果神经引擎!Mac变身AI训练神器,成本暴跌至电费零头(1/2) 核心摘要 开发者借助Claude,成功对苹果神经引擎(ANE)进行了逆向工程,绕过了苹果官方的CoreML框架限制,首次在M4芯片的ANE上实现了神经网络训练。这证明Mac设备内置的NPU具备强大的训练潜力,可能将低成本、高能效的AI训练带入个人电脑时代。 AI界迎来新突破,…
-
FlashAttention-4震撼发布:Blackwell GPU上注意力机制速度媲美矩阵乘法,性能提升高达2.7倍
经过一年的开发,FlashAttention-4 正式发布。 作为深度学习领域一项关键的底层优化技术,FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,注意力机制的执行速度现已几乎与矩阵乘法相当,尽管两者的瓶颈截然不同。 当前,Tensor Core 的速度已变得极快…
-
斯坦福博士生提出「持续自我提升式AI」:让模型自主进化,超越人类创造者
昨日,斯坦福大学博士生 Zitong Yang 顺利完成了其题为“持续自我提升式AI”的博士论文答辩。答辩结束后,相关视频与资料迅速公开,系统性地展示了他对未来AI发展路径的探索。针对当前AI模型存在的三大核心局限——训练后权重静态化、高质量人类数据面临枯竭、新算法发现高度依赖人力——他提出了一套明确的解决方案框架。 在答辩中,Zitong Yang 重点阐…
