技术专栏 深入大模型技术内核,从零构建与优化,驾驭AI未来的核心力量 全部专题

  • 置顶 LLM推理优化全景图:从基础设施到模型算法的全栈工程实践

    本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

    2025年10月2日
    59412
  • TileRT v0.1.3 发布:GLM-5 支持上线,推理速度高达 600 tokens/s,引领千亿模型毫秒级响应新时代

    关键词: TileRT、大语言模型、推理引擎、低延迟、编译器 副标题: 600 tokens/s!TileRT 让千亿参数模型推理进入毫秒时代 TileRT v0.1.3 是一次里程碑式的发布,标志着 TileRT 从仅支持 DeepSeek-V3.2 单一模型扩展为多模型架构支持。本版本新增了对最新 GLM-5 模型的完整推理支持,并在 8× NVIDIA…

    5小时前
    1000
  • Apple Silicon神经引擎潜力爆发:M4 Pro ANE实现3.8 TFLOPS,能效超GPU 80%

    关键词:Apple Silicon、专用硬件加速器(DSA)、ANE、NUC、HPC、性能评估 当我们在谈论苹果自研芯片 M1、M2、M3 乃至最新的 M4 时,我们在谈论什么?绝大多数人的第一反应是其惊人的能效比、无风扇的轻薄本体验,或是那颗用于剪辑 ProRes 视频的强大媒体引擎。 但在这些光鲜的表面之下,苹果芯片中其实一直藏着一个极为低调却又潜力巨大…

    10小时前
    900
  • 字节Seed-2.0-pro深度评测:挑战GPT与Gemini,多模态推理新标杆

    短的结论:通往下一个时代的钥匙 基本情况: 字节跳动推出的多模态大模型 Seed-2.0-pro,是其技术序列中的关键升级。此前,Doubao 1.8 版本已展现出接近国际领先水平的潜力,而如今经过全面打磨的 Seed-2.0-pro 旨在确立其顶尖地位。 综合来看,Seed-2.0-pro 无愧于“Pro”的定位,在核心能力上与 Gemini 3 Pro …

    11小时前
    800
  • 字节火山引擎豆包2.0重磅发布:多模态Agent新标杆,企业级AI生产力革命

    最强AI打工人来了!实测多模态、代码、复杂长任务表现亮眼。 春节将至,国内AI大模型赛道好不热闹,多款国产模型更新引爆海内外,不少海外网友都“跪求”体验方式,2026开年AI档,还要看中国玩家。 在这场AI盛宴之中,我们看到各类超级Agent走到舞台C位,AI逐渐深入到具体的工作流中,甚至开始帮企业啃下真正的“硬骨头”任务。AI从“玩具”转向“工具”, 这一…

    12小时前
    900
  • 从监狱到AI独角兽:Firmus如何用690亿债务融资打造1.6GW绿色算力工厂

    澳洲AI基础设施独角兽狂吸金,要建出1.6GW的数据“巨兽”。 他蹲过大牢,做过加密货币,现在转投AI基础设施,一次直接融资超100亿美元。这一句话,浓缩了澳洲AI基础设施独角兽Firmus联合创始人兼首席执行官Oliver Curtis的十年。 智东西2月14日报道,2月9日,Firmus宣布获得了约100亿美元(约合人民币690亿元) 的债务融资,融资由…

    12小时前
    800
  • 中国AI突破300年数学难题:强化学习系统PackingStar刷新高维亲吻数多项世界纪录

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 数学上有一个经典难题,名为亲吻数问题(Kissing Number Problem)。它困扰了人类三百余年,而最近,一项来自中国AI的研究,为这一领域带来了突破性进展。 这个问题探讨的是:在n维空间中,一个单位球体的周围,最多能有多少个同样大小的球体与它恰好相切(即“亲吻”),且彼此互不重叠。 亲吻数问题…

    12小时前
    800
  • 豆包大模型2.0重磅发布:21个月磨一剑,多模态理解与推理能力全面升级

    在 Seedance 2.0 和 Seedream 5.0 Lite 接连引发热潮之后,豆包推出了其核心的完全体——豆包大模型2.0。 这是时隔21个月的最大版本更新。 以 Seedance 2.0 为例,它已成为全民体验的AI应用。我们尝试制作了一段视频: 短短5秒,生成效果已足够逼真。 这也难怪海外用户开始研究如何注册中国手机号来体验了。 再如 Seed…

    12小时前
    1000
  • 清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

    RAM团队 投稿 量子位 | 公众号 QbitAI 让大模型像人类一样阅读!通过精读略读实现性能与效率的双重飞跃。 在长上下文场景中,Transformer架构的二次计算复杂度让推理速度急剧下降,而人类面对长文档时却能游刃有余——我们不会逐字阅读整本小说,而是对关键情节精读,对背景描述略读。 来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现…

    13小时前
    800
  • 仅500行代码!极简安全的Claude个人助手nanoclaw开源,实现容器级AI隔离

    基于 500 行 TypeScript 打造 nanoclaw 是一个极简的个人 AI 助手框架,主要使用 TypeScript 和 Node.js 编写,核心代码量约为 500 行。 相较于此前介绍的 4000 行代码的 nanochat,nanoclaw 更为轻量,并特别强调安全性。 开源项目简介 简而言之,nanoclaw 是一个轻量级、安全优先的 C…

    13小时前
    800
点击查看更多