技术专栏 深入大模型技术内核,从零构建与优化,驾驭AI未来的核心力量 全部专题
-
置顶 LLM推理优化全景图:从基础设施到模型算法的全栈工程实践
本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。
-
构建自更新知识图谱:利用LLM与Neo4j智能解析会议纪要
将非结构化会议记录转化为可查询的知识图谱,并支持增量更新——无需每次进行全量重处理。 会议记录是组织智能的金矿,其中记录了决策、行动项、参与者信息以及人与任务之间的关系。然而,多数组织仍将其视为静态文档,仅能进行基础的全文检索。 试想一下,能够像查询数据库一样查询你的会议记录: “谁参加过主题为‘预算规划’的会议?” “Sarah 在所有会议中被分配了哪些任…
-
Claude Code团队实战揭秘:10个AI编程效率倍增技巧
Claude Code创始人Boris Cherny近期公开了团队内部使用这款AI编程工具的完整经验。这些建议源于真实的开发场景,其中一些做法甚至与Boris本人的习惯有所不同。 1. 并行处理:同时启动多个工作区 同时启动3-5个独立的git工作树,每个运行一个独立的Claude会话。团队认为这是最大的生产力提升点。虽然Boris本人更倾向于使用多个git…
-
OpenClaw创始人揭秘:逆向API打造AI军团,80%手机App将被吞噬!
“80%的手机App会被吃掉!” 近日,热门项目 OpenClaw(原名 Clawdbot)的创始人 Peter Steinberger 在一次播客访谈中分享了新的见解。 他透露,自己已将 OpenClaw 的应用场景扩展到诸如查询外卖配送进度、调节智能床温度等日常事务。实现这种能力扩展的核心方法在于:逆向第三方服务的 API。 Peter 预测,未来 80…
-
AI创造AI系统:全球首个AI全生成深度学习框架VibeTensor深度解析
关键词:AI for AI System、Deep learning runtime、Agent development、CUDA 副标题:“完全由 AI 生成”是否是一个有误导性的宣传标签? 见【关键问题二】 一个从 Python 接口到 CUDA 内存管理,几乎完全由 AI 代码助手生成的深度学习框架,其背后究竟遵循着怎样的开发范式? 如果你关注 AI …
-
阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案
核心结论:速度是Agent时代的关键竞争力 模型背景: 阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。 在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3…
-
2024年1月GitHub热门开源项目盘点:从AI金融分析到无向量RAG,这些工具正在重塑开发效率
01 AI 金融分析 Agent:Dexter Dexter 是一款专注于金融研究的 AI 智能体。它能够像初级分析师一样工作,当你提出一个复杂的金融问题(例如分析某公司季度利润率变动的原因)时,它可以自主拆解任务并执行数据检索。 该智能体接入了实时市场数据源,能够查阅财报、损益表等关键财务文件,并内置了一套自我检查机制。当发现数据存在疑问时,它会进行反思并…
-
AI赋能Web 3D革命:Three.js周下载量突破400万,艺术生退学打造的开源传奇
一个并不常被普通用户提起的开源项目,刚刚刷新了自己的历史纪录。 近日,Three.js 官方 X 账号公布:Three.js 每周下载量已突破 400 万。 你或许没用过 Three.js,也未必听过它的名字,但你大概率已经见过它的作品。那些可以旋转的 3D 商品展示页、会随鼠标晃动的官网首页、可交互的数据可视化,甚至一些看似只是酷炫动画的 Web 页面背后…
-
像开发软件一样造世界,Agent2World来了,把世界模型做成可运行的符号环境
让模型真正“能行动”,往往需要一个可执行、可验证的符号世界模型(Symbolic World Model)。它并非抽象的文字描述,而是能被规划器或执行器直接调用的形式化定义,例如PDDL领域/问题,或可运行的环境代码/模拟器。一旦世界被“写成可运行的规则”,我们就能在同一套约束下进行推演、测试与复现:模型不再停留在“会说”,而是能回答“如果我这样做,会发生什…
-
AI Ping:清华系AI Infra重塑大模型API服务秩序,评测路由双机制破解黑盒焦虑
中国版 OpenRouter + Artificial Analysis,让每一枚 Token 都能流向它最该去的地方。 大模型 API 服务的「黑盒」焦虑 Clawdbot 的病毒式裂变,仿佛是一年前 Manus 的魅影重现。同样一夜之间站上风口,同样点燃了无数开发者对「泼天富贵」的想象,也顺手把 Token 烧成了新的「硬通货」。 一组数据更具体地揭示了…