模型架构 - 鲸林向海

DRIFT框架：将知识获取与逻辑推理解耦，破解长上下文推理效率瓶颈

当长上下文成为负担：我们是否真的需要「把一切都塞进推理模型」？随着对大模型推理能力要求的提升，输入上下文的长度也在不断增长，1M tokens 及以上的上下文窗口正逐渐成为现实。然而，“读得更长”是否必然带来推理能力的提升？在实际应用中，情况往往并不理想。当推理模型直接处理超长原始文本时，瓶颈往往不再是“不会推理”，而是源于“读不完、读不动、读不准”：*…

5天前

121000

大模型工程

从动态计算到静态查表：STEM如何重构Transformer的记忆机制

近年来，随着大语言模型规模与知识密度的不断提升，研究者开始重新思考一个更本质的问题：模型中的参数应如何被组织，才能更高效地充当“记忆”。在标准 Transformer 的前馈网络（FFN）中，知识主要隐式存储在 up-projection 等密集矩阵里，并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效，但在参数的可寻址性、可编辑性与系统效率上存在…

2026年3月9日

119000

AI产业动态

2026年开源LLM选型指南：从模型规模到架构实战，打造安全可控的AI应用

到了2026年，关于AI的讨论焦点已经发生了根本性转变。我们早已告别了“聊天机器人演示”的早期阶段。如今，严肃的企业正在构建自己的内部AI解决方案。他们深刻认识到，虽然外部API服务便捷，但公司的核心数据才是最具价值的资产，他们不愿将处理这些数据的关键“大脑”长期租用给外部供应商。与此同时，技术领域也迎来了一个重大里程碑：开源大语言模型（LLM）的性能已经…

2026年2月6日

625000

大模型工程

揭秘70M小模型层数玄学：隐藏维度≥512是关键，32层成最佳配置

知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中，揭示了关于70M参数小模型的几个关键发现：首先，模型的具体架构选择其重要性被高估，相比之下，模型的“形状”——即深度与宽度的配比——更为关键。其次，小模型的层数选择存在明显的“玄学”现象：12层、32层和64层的模型表现优异，而16层、24层和48层的模型则效果不佳，其中…

2026年1月11日

160000

AI产业动态

谷歌端侧双雄：T5Gemma 2架构回归与FunctionGemma智能体革命

在人工智能技术快速演进的浪潮中，谷歌近期在端侧模型领域推出两项重要创新——T5Gemma 2与FunctionGemma，这两项技术不仅代表了谷歌在模型架构上的深度思考，更预示着移动设备智能化的新方向。本文将从技术架构、应用场景和产业影响三个维度，对这两款模型进行深入分析。 T5Gemma 2与FunctionGemma均源自Gemma 3技术家族，但定位截…

2025年12月19日

213000

AI产业动态

华为诺亚方舟实验室突破Transformer推理瓶颈：高阶注意力机制Nexus的架构革命

在人工智能领域，Transformer架构凭借其强大的序列建模能力，已成为大语言模型（LLM）和各类生成式AI应用的基石。然而，随着模型规模和应用场景的不断扩展，其核心组件——自注意力机制（Self-Attention）在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作，擅长捕捉长距离依赖和表面关联，但在面对需要多…

2025年12月5日

197000

AI产业动态

从零到一：HuggingFace超长技术博客揭示LLM训练实战全流程

近期，HuggingFace发布了一份超过200页的技术博客，系统性地分享了训练先进大语言模型（LLM）的端到端经验。这份博客的核心价值在于直面LLM开发过程中的「混乱现实」，坦诚记录了哪些方法有效、哪些会失败，以及如何应对实际工程中遇到的陷阱。内容基于团队的实际项目经验，特别是他们近期使用384块H100 GPU训练3B参数模型SmolLM3的完整过程。 …

2025年11月9日

226000