LLM架构
-
DeepSeek Engram 记忆神话破灭:外部记忆实为“伪负载”,结构优化才是性能关键
DeepSeek Engram 记忆神话破灭:外部记忆实为“伪负载”,结构优化才是性能关键(上) 关键词:DeepSeek Engram、LLM、外部记忆、 正则化、残差通路 在LLM架构创新中,DeepSeek Engram以“推理与知识分离”为核心主张,凭借外部N-gram记忆表的知识托管、O(1)检索等特性,一度被寄予解决Transformer原生知识…
-
AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南,AI社区高度关注
著名 AI 技术作家 Sebastian Raschka 近期发布了一份「LLM 架构画廊」,在 AI 社区内获得了高度关注和广泛赞誉。 图 1:LLM 架构图库及其视觉模型卡片概览。 该图库广受欢迎,Raschka 也已开始与合作伙伴生产实体海报,目前销量可观。 图 2:带有用于对比大小的随机物体的架构图库海报版本。 时隔仅一周多,Raschka 又发布了…
