大模型推理

  • 通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

    短的结论:开源战神部队的排头兵 基本情况: Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。 其单位Token的推理性能也达到了前所未有的优秀水平。要…

    1天前
    2200
  • 华为发布扩散语言模型Agent:部分场景效率飙升8倍,开启AI智能体新范式

    大模型通往现实世界的“最后三公里”:Agent范式迎来效率革命 当前,衡量AI智能体(Agent)能力的标准已发生深刻变化。核心不再仅仅是“答对问题”,而是看其能否在面对多轮推理、工具调用及复杂协作时,以最短的路径和最少的交互成本,稳定地完成任务。 在此背景下,一个根本性问题凸显出来:当Agent的框架、工具、数据和训练方式均保持一致时,仅改变其底层语言模型…

    2026年2月10日
    8600
  • 扩散语言模型:从架构挑战到推理优化的深度探索

    ★ 原文链接:https://zhuanlan.zhihu.com/p/1998418717743289472 作者:王云鹤 在思考这一主题时,我首先回想起多年前一位前辈提出的问题:Transformer的下一代范式是什么? 我当时认为,Transformer是长期技术积累从量变到质变的成果,其思想(如Non-local模块)在早期视觉研究中已有体现,而卷积…

    2026年2月8日
    5900
  • 决战性能之巅!MLSys 2026 CUDA 内核优化大赛开启,用代码挑战 B200 GPU 极限

    关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习 一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…

    2026年1月25日
    15600
  • 思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

    在 LLM 时代,思维链(CoT)已成为解锁模型复杂推理能力的关键技术。然而,CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤,带来了巨大的计算开销和显存占用,严重制约了推理效率。 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体文本。这种方法虽然速度快,却是一个「黑…

    2026年1月23日
    8300
  • 让AI自我辩驳:Google角色反转提示技巧,准确率提升40%

    如何迫使 AI 自我辩驳,揪出错误推理,产出更锐利、更可靠的答案 绝大多数用户现在及未来都将通过网页与 AI 交互。他们唯一的工具是浏览器,结果完全取决于他们能写出的提示词。因此,多数人在使用先进 AI 工具时感到隐隐的失望,也就不足为奇。 你提出一个严肃的问题。AI 的回应自信、清晰、结构完备,乍看之下相当出色。但几分钟后,你开始觉得哪里不对劲——或许是漏…

    2026年1月21日
    7300
  • a16z创始人Marc Andreessen深度解读:中国AI崛起,Kimi推理能力媲美GPT-5,DeepSeek成全球超新星

    1月8日,硅谷传奇风险投资家、a16z联合创始人Marc Andreessen以一场长达80分钟的播客访谈,发表了其对人工智能革命的深度见解。这位曾以《软件正在吞噬世界》一文定义时代的投资人,以其一贯的宏观视角,剖析了全球AI格局的现状与未来。 访谈中,Marc Andreessen首先对AI革命的进程给出了极为乐观的评价。他认为,AI的传播速度远超互联网,…

    2026年1月9日
    16500
  • 阿里云百炼引领智能体工业化革命:从手工作坊到AI流水线,企业级应用全面升级

    如果 AI 工具早一点出现,我们的很多工作会不会提前几年完成? 近日,整个科技圈都在感叹 AI 工具带来的效率提升。一些硅谷 AI 大厂工程师现身说法,表示在使用了 AI 工具后,项目完成时长被大幅压缩。 谷歌首席工程师、Gemini API 负责人 Jaana Dogan 分享了她使用智能体的经历。有的人甚至认为,如果在读博时就有 Claude Code、…

    2026年1月9日
    13100
  • vLLM Playground:可视化界面让大模型推理部署零门槛

    用过 vLLM 的人都知道,它功能强大,但上手门槛不低。命令行参数繁多,容器配置复杂,生产部署更是令人头疼。 今天介绍的开源项目 vLLM Playground 正是为了解决这些问题而生。它提供了一个可视化的 vLLM 管理界面,让大模型的部署和使用变得简单直观。 真正的零配置 最便捷之处在于你无需手动安装 vLLM。只需打开 Web 界面,点击“Start…

    2025年12月29日
    14500
  • 五大AI开源神器:从GLM-4.7编程突破到手机集群推理,重塑开发新范式

    智谱开源 GLM-4.7 智谱 GLM-4.7 正式发布并官宣即将开源。 在 LiveCodeBench 和 Code Arena 等多个权威榜单中,它取得了国产第一、开源第一的成绩。其综合编程能力已直逼甚至在某些维度超越了 Claude 4.5 Sonnet。 近期,智谱已向港交所递交招股书,冲击全球大模型第一股。这表明国产大模型在编程这一核心赛道上,已具…

    2025年12月24日
    27300