模型架构
-
谷歌端侧双雄:T5Gemma 2架构回归与FunctionGemma智能体革命
在人工智能技术快速演进的浪潮中,谷歌近期在端侧模型领域推出两项重要创新——T5Gemma 2与FunctionGemma,这两项技术不仅代表了谷歌在模型架构上的深度思考,更预示着移动设备智能化的新方向。本文将从技术架构、应用场景和产业影响三个维度,对这两款模型进行深入分析。 T5Gemma 2与FunctionGemma均源自Gemma 3技术家族,但定位截…
-
华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命
在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…
-
从零到一:HuggingFace超长技术博客揭示LLM训练实战全流程
近期,HuggingFace发布了一份超过200页的技术博客,系统性地分享了训练先进大语言模型(LLM)的端到端经验。这份博客的核心价值在于直面LLM开发过程中的「混乱现实」,坦诚记录了哪些方法有效、哪些会失败,以及如何应对实际工程中遇到的陷阱。内容基于团队的实际项目经验,特别是他们近期使用384块H100 GPU训练3B参数模型SmolLM3的完整过程。 …