推理效率

  • PRISM:专为离散扩散语言模型设计的高效测试时扩展框架,颠覆传统自回归推理范式

    近年来,大模型能力的提升焦点正逐步从“训练时扩展”转向“推理时扩展”。从 Best-of-N、Self-Consistency 到更为复杂的搜索与验证框架,测试时扩展(Test-Time Scaling)已成为提升大模型复杂推理能力的关键范式。 然而,一个长期被忽略的问题是:这些方法大多默认模型采用自回归生成方式。 对于离散扩散语言模型(Discrete D…

    1天前
    7700
  • GPT-5.5理性算力工程:GB200 NVL72与推理效率的全栈创新

    在 AI 模型迭代趋于渐进的 2026 年,GPT-5.5 的发布试图打破这一僵局。 OpenAI 于 4 月 23 日正式推出 GPT-5.5 及 GPT-5.5 Pro 模型。与此前单纯追求文本生成精度的路线不同,这款新模型将重心放在了“真实工作流”的完成度与推理经济学上。最引发工程界关注的是,GPT-5.5 在实现极高复杂任务处理能力的同时,成功将每 …

    AI产业动态 2026年4月24日
    26200
  • DRIFT框架:将知识获取与逻辑推理解耦,破解长上下文推理效率瓶颈

    当长上下文成为负担:我们是否真的需要「把一切都塞进推理模型」? 随着对大模型推理能力要求的提升,输入上下文的长度也在不断增长,1M tokens 及以上的上下文窗口正逐渐成为现实。然而,“读得更长”是否必然带来推理能力的提升? 在实际应用中,情况往往并不理想。当推理模型直接处理超长原始文本时,瓶颈往往不再是“不会推理”,而是源于“读不完、读不动、读不准”:*…

    2026年3月14日
    36500
  • 通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

    短的结论:开源战神部队的排头兵 基本情况: Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。 其单位Token的推理性能也达到了前所未有的优秀水平。要…

    2026年2月18日
    1.1K00
  • Kimi-K2.5-Thinking实测:推理效率提升33%,Agent能力意外滑坡,开源模型新标杆?

    月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成…

    2026年1月28日
    2.1K00