大模型推理

  • 颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

    造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …

    1天前
    8700
  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    3天前
    4800
  • 微软Re-TRAC框架:让AI智能体记住失败经验,4B模型性能超越大模型

    想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。 现有的深度…

    3天前
    4600
  • Co-rewarding:突破自监督RL瓶颈,无标注数据下稳定诱导大模型推理能力

    本文介绍的工作来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数…

    3天前
    4100