冰儿
这个人很懒,什么都没有留下~
0
文章
0
粉丝
-
Design in Tiles (DiT):自动化框架实现Tile-Based多PE加速器上GEMM高效部署,性能超越英伟达GH200专家库
关键词: Design in Tiles (DiT)、Tile-Based Many-PE Accelerators、GEMM、Automated Deployment、Network on Chip (NoC)、Collective Primitives Design in Tiles: Automating GEMM Deployment on Tile…
-
Gemini3预训练负责人揭秘:从无限数据到数据受限,AI研究正演变为复杂系统工程
Gemini 3的逆袭,给业界带来了太多的惊喜和问号。 与此前不同的是,业界到现在似乎也没有逆向出Gemini3的秘方出来。 本周五,继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后,终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。 Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjo…
-
“微调已死”新佐证:谷歌革新AI学习范式,开创双向经验学习之路
谷歌提出ReasoningBank技术,使AI能通过从自身成功与失败的经验中学习,形成一个持续自我优化的闭环,从而减少对传统微调的依赖。
-
LLM推理优化全景图:从基础设施到模型算法的全栈工程实践
本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。
点击查看更多