
冰儿
这个人很懒,什么都没有留下~
                        
                0
                文章
            
                    
                1
                评论
            
                    
                0
                粉丝
            
                    - 
        
        
“微调已死”新佐证:谷歌革新AI学习范式,开创双向经验学习之路
谷歌提出ReasoningBank技术,使AI能通过从自身成功与失败的经验中学习,形成一个持续自我优化的闭环,从而减少对传统微调的依赖。
 - 
        
        
LLM推理优化全景图:从基础设施到模型算法的全栈工程实践
本文基于真实的企业级AI平台研发与实践经验,首次以“系统分层、功能解耦”的架构思想,自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层(GPU集群、高速网络、存储加速)的硬件基石,到平台与调度层(Kubernetes、高级调度器、KServe)的资源管理中枢,再到服务与容器层的微观优化,以及AI网关层作为智能流量枢纽的核心能力。最终,深入探讨了推理引擎与算法层的核心优化技术,包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。
 
点击查看更多