数学推理

  • 豆包大模型2.0重磅发布:21个月磨一剑,多模态理解与推理能力全面升级

    在 Seedance 2.0 和 Seedream 5.0 Lite 接连引发热潮之后,豆包推出了其核心的完全体——豆包大模型2.0。 这是时隔21个月的最大版本更新。 以 Seedance 2.0 为例,它已成为全民体验的AI应用。我们尝试制作了一段视频: 短短5秒,生成效果已足够逼真。 这也难怪海外用户开始研究如何注册中国手机号来体验了。 再如 Seed…

    2026年2月14日
    24900
  • Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

    谷歌近期发布了一项新的研究进展:其研究团队利用 Gemini 模型进行了一次系统性的数学攻关实验,目标直指著名的 Erdős Problems 数据库中约 700 个仍被标记为“开放”(未解决)的猜想。 实验成果显著:Gemini 在这批问题中成功推进了 13 个问题的解决进程。其中,5 个是由模型自主提出的全新解法,另外 8 个则是模型从文献中挖掘出了早已…

    2026年2月3日
    11300
  • ROVER:颠覆传统强化学习范式,随机策略价值评估开启LLM数学推理新纪元

    在人工智能领域,大语言模型(LLM)的数学推理能力一直是衡量其智能水平的重要标尺。近年来,基于可验证奖励的强化学习(RLVR)方法,如PPO、GRPO等,已成为提升模型推理能力的主流技术路径。然而,这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷:训练稳定性差、计算复…

    2025年10月31日
    21500