推理时扩展
-
DynaAct:从“想得久”到“想得准”——动态动作空间如何重塑大模型推理范式
在R1与O1引领的“深度推理”浪潮之后,大模型推理领域正迎来一个关键的分叉点。这一变革的核心,源于计算范式从训练时扩展(train-time scaling)向推理时扩展(test-time scaling, TTS)的深刻转变。传统的long CoT方法通过大幅延长思维链来换取精度提升,但这本质上是一种“暴力计算”思路——它假设性能瓶颈在于“算得不够多”。…
在R1与O1引领的“深度推理”浪潮之后,大模型推理领域正迎来一个关键的分叉点。这一变革的核心,源于计算范式从训练时扩展(train-time scaling)向推理时扩展(test-time scaling, TTS)的深刻转变。传统的long CoT方法通过大幅延长思维链来换取精度提升,但这本质上是一种“暴力计算”思路——它假设性能瓶颈在于“算得不够多”。…