冰儿的收藏_用户信息

冰儿

这个人很懒，什么都没有留下～

0 文章

0 粉丝

大模型工程

Design in Tiles (DiT)：自动化框架实现Tile-Based多PE加速器上GEMM高效部署，性能超越英伟达GH200专家库

关键词： Design in Tiles (DiT)、Tile-Based Many-PE Accelerators、GEMM、Automated Deployment、Network on Chip (NoC)、Collective Primitives Design in Tiles: Automating GEMM Deployment on Tile…

2025年12月27日
120011
大模型训练

Gemini3预训练负责人揭秘：从无限数据到数据受限，AI研究正演变为复杂系统工程

Gemini 3的逆袭，给业界带来了太多的惊喜和问号。与此前不同的是，业界到现在似乎也没有逆向出Gemini3的秘方出来。本周五，继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后，终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。 Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjo…

2025年12月21日
165010
大模型训练

“微调已死”新佐证：谷歌革新AI学习范式，开创双向经验学习之路

谷歌提出ReasoningBank技术，使AI能通过从自身成功与失败的经验中学习，形成一个持续自我优化的闭环，从而减少对传统微调的依赖。

2025年10月13日
184011
大模型推理

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践

本文基于真实的企业级AI平台研发与实践经验，首次以“系统分层、功能解耦”的架构思想，自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层（GPU集群、高速网络、存储加速）的硬件基石，到平台与调度层（Kubernetes、高级调度器、KServe）的资源管理中枢，再到服务与容器层的微观优化，以及AI网关层作为智能流量枢纽的核心能力。最终，深入探讨了推理引擎与算法层的核心优化技术，包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

2025年10月2日
535123

点击查看更多

冰儿

Design in Tiles (DiT)：自动化框架实现Tile-Based多PE加速器上GEMM高效部署，性能超越英伟达GH200专家库

Gemini3预训练负责人揭秘：从无限数据到数据受限，AI研究正演变为复杂系统工程

“微调已死”新佐证：谷歌革新AI学习范式，开创双向经验学习之路

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践