技术专栏 深入大模型技术内核,从零构建与优化,驾驭AI未来的核心力量 全部专题
-
置顶 LLM推理优化全景图:从基础设施到模型算法的全栈工程实践
本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。
-
MiniMax-M2.5震撼上线:国产AI模型春节档激战,网页制作与编程能力全面升级
一句话做“黄金矿工”游戏、生成精美公司网站。作者 | 云鹏编辑 | 李水青 智东西2月12日消息,春节将至,国产AI大模型之战愈发火爆。短短1天多时间,DeepSeek、智谱、字节等多家厂商模型密集更新,MiniMax-M2.5正式上线,其重点提升了Agent和编程能力。 ▲MiniMax-M2.5已可选 MiniMax AI相关负责人在X平台上发文称,他想…
-
中国AI视频双雄并起:Seedance 2.0与Vidu Q3组团席卷全球
爆红社交平台、登顶全球评测,中国AI视频模型集体破圈。 作者 | 江宇编辑 | 漠影 在AI视频创作领域,Seedance 2.0的爆火不是偶然。这一次真正“破圈”,很大程度上源于它所具备的“导演思维”——剧本驱动、分镜清晰、节奏精准。它让人们意识到,一个好的AI视频更需要创意调度。而过去,创作者在AI视频中最难掌握的两个要素,恰恰就是理解故事结构与镜头语言…
-
华为MindScale算法架构升级:行业Agent实现工作流自进化与提示词自动化,KV Cache优化提升5.7倍效率
华为MindScale算法架构升级:行业Agent实现工作流自进化与提示词自动化,KV Cache优化提升5.7倍效率 在大模型的多种应用形态中,执行专业功能的行业Agent,无疑是提升生产效率、实现价值创造的利器。 然而,千行百业包含着大量的私域知识、专家经验和工具使用逻辑,使得智能体的行业应用构建存在各类门槛。 为了提升开发效率,业界提出了诸如Skill…
-
MeepleLM:首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统
MeepleLM团队 投稿 量子位 | 公众号 QbitAI 大模型桌游体验官 来了!不仅能快速给出评价与建议,还能模拟不同类型玩家的体验差异。 近期,来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ,这是首个能模拟真实玩家视角,并基于动态游戏体验给出建设性批评的虚拟试玩模型。 为了减轻AI评价的“悬浮感”…
-
GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器
GLM-5:开源AI新标杆,24小时自主编程打造GBA模拟器 当看到GLM-5正式发布后的能力,才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。 因为这一次,GLM-5直接把开源AI也拽进了长任务时代。 瞧,GLM-5直接身兼数职,自己连续跑代码超过24小时,完成700次工具调用、800次上下文切换之后…… 它直接用JavaScript,从零手…
-
国产AI大模型GLM-5横空出世:开源对标Claude Opus,10分钟傻瓜化部署Agent任务
前两天,海外科技社区仿佛集体化身侦探,陷入了一场热烈的猜谜游戏。 这一切源于一个名为 Pony Alpha 的匿名模型,它没有任何发布会,也没有任何公司认领,却凭借几个简单的 API 接口和惊艳的生成质量,在各大评测榜单上横空出世,迅速引爆了 X(原 Twitter)和 Reddit 等技术社区。 全球模型聚合平台 OpenRouter 于 2月6日首次公开…
-
GLM-5震撼发布:744B参数开源巨兽,长程智能体与复杂系统工程新标杆
GLM-5正式发布,其定位直指Claude,专注于解决复杂的系统工程与长程智能体任务。模型参数规模从GLM-4.5的355B(32B活跃)大幅跃升至744B(40B活跃),预训练数据量也从23T token扩充至28.5T token。 在技术层面,GLM-5采用了GlmMoeDsa架构,直接集成了来自DeepSeek的DSA稀疏注意力与MTP多标记预测技术…
-
全国首部具身智能数据闭环标准启动,破解AI自主进化核心瓶颈
“十五五”规划建议明确将具身智能列为六大未来产业之一,工信部亦将培育壮大具身智能等未来产业纳入2026年核心重点工作;北京、上海、杭州等多地同步跟进,专项政策密集出台、创新中心与产业联盟接连落地。国家战略与地方行动协同发力,共同推动具身智能从实验室示范迈向规模化产业落地新阶段。 数据闭环是具身智能区别于传统AI,实现自主学习和持续进化的核心命脉。 它推动企业…
-
高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率
关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…