推理效率 - 鲸林向海

PRISM：专为离散扩散语言模型设计的高效测试时扩展框架，颠覆传统自回归推理范式

近年来，大模型能力的提升焦点正逐步从“训练时扩展”转向“推理时扩展”。从 Best-of-N、Self-Consistency 到更为复杂的搜索与验证框架，测试时扩展（Test-Time Scaling）已成为提升大模型复杂推理能力的关键范式。然而，一个长期被忽略的问题是：这些方法大多默认模型采用自回归生成方式。对于离散扩散语言模型（Discrete D…

1天前

77000

GPT-5.5理性算力工程：GB200 NVL72与推理效率的全栈创新

在 AI 模型迭代趋于渐进的 2026 年，GPT-5.5 的发布试图打破这一僵局。 OpenAI 于 4 月 23 日正式推出 GPT-5.5 及 GPT-5.5 Pro 模型。与此前单纯追求文本生成精度的路线不同，这款新模型将重心放在了“真实工作流”的完成度与推理经济学上。最引发工程界关注的是，GPT-5.5 在实现极高复杂任务处理能力的同时，成功将每 …

AI产业动态 2026年4月24日

262000

大模型推理

DRIFT框架：将知识获取与逻辑推理解耦，破解长上下文推理效率瓶颈

当长上下文成为负担：我们是否真的需要「把一切都塞进推理模型」？随着对大模型推理能力要求的提升，输入上下文的长度也在不断增长，1M tokens 及以上的上下文窗口正逐渐成为现实。然而，“读得更长”是否必然带来推理能力的提升？在实际应用中，情况往往并不理想。当推理模型直接处理超长原始文本时，瓶颈往往不再是“不会推理”，而是源于“读不完、读不动、读不准”：*…

2026年3月14日

365000

AI产业动态

通义Qwen3.5-Plus深度测评：开源战神部队的排头兵，推理效率与性价比双突破

短的结论：开源战神部队的排头兵基本情况： Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论，此前Qwen2.5-80B 曾战平旧款235B模型，如今这一策略再次上演：不到400B参数的Plus模型，在能力上已能追赶上一代万亿参数规模的Max模型。其单位Token的推理性能也达到了前所未有的优秀水平。要…

2026年2月18日

1.1K000

AI产业动态

Kimi-K2.5-Thinking实测：推理效率提升33%，Agent能力意外滑坡，开源模型新标杆？

月之暗面发布了 Kimi-K2.5-Thinking 新版本，官方称其为“Kimi迄今最智能的模型”，在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本（Kimi-K2.5-Thinking、Kimi-K2-Thinking）进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成…

2026年1月28日

2.1K000