智能体强化学习

  • AI攻克CUDA黑魔法!字节清华联手打造CUDA Agent,智能体强化学习实现内核生成性能飞跃

    关键词: CUDA 内核生成、智能体强化学习、性能优化、KernelBench、技能增强环境 在深度学习基础设施的底层,存在着一个被称为“黑魔法”的领域——CUDA 内核开发。当我们在 PyTorch 中写下几行简洁的代码时,很少有人意识到,这些高层操作最终会被编译成成百上千个在 NVIDIA GPU 上执行的底层内核程序。这些内核程序的编写和优化,直接决定…

    2026年3月3日
    12100
  • 熵平衡革命:AEPO算法如何破解智能体强化学习的探索-稳定困境

    在智能体强化学习(Agentic RL)的快速发展浪潮中,如何在探索潜力与训练稳定之间取得精妙平衡,已成为制约多轮智能体性能提升的核心瓶颈。传统的熵驱动式智能体强化学习方法虽然通过在高不确定性节点触发分支探索来提升推理路径的多样性,但这种依赖单一熵信号的机制在实践中暴露出显著缺陷:过度追求探索往往导致训练过程剧烈震荡,甚至引发策略熵坍塌,使智能体陷入局部最优…

    2025年11月1日
    19400