数学推理 - 鲸林向海

豆包大模型2.0重磅发布：21个月磨一剑，多模态理解与推理能力全面升级

在 Seedance 2.0 和 Seedream 5.0 Lite 接连引发热潮之后，豆包推出了其核心的完全体——豆包大模型2.0。这是时隔21个月的最大版本更新。以 Seedance 2.0 为例，它已成为全民体验的AI应用。我们尝试制作了一段视频：短短5秒，生成效果已足够逼真。这也难怪海外用户开始研究如何注册中国手机号来体验了。再如 Seed…

2026年2月14日

249000

AI产业动态

Gemini突破数学难题：半自动攻克13个Erdős猜想，揭示AI研究真实成本

谷歌近期发布了一项新的研究进展：其研究团队利用 Gemini 模型进行了一次系统性的数学攻关实验，目标直指著名的 Erdős Problems 数据库中约 700 个仍被标记为“开放”（未解决）的猜想。实验成果显著：Gemini 在这批问题中成功推进了 13 个问题的解决进程。其中，5 个是由模型自主提出的全新解法，另外 8 个则是模型从文献中挖掘出了早已…

2026年2月3日

113000

AI产业动态

ROVER：颠覆传统强化学习范式，随机策略价值评估开启LLM数学推理新纪元

在人工智能领域，大语言模型（LLM）的数学推理能力一直是衡量其智能水平的重要标尺。近年来，基于可验证奖励的强化学习（RLVR）方法，如PPO、GRPO等，已成为提升模型推理能力的主流技术路径。然而，这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷：训练稳定性差、计算复…

2025年10月31日

215000