Transformer

苹果新招：把Transformer的性能塞进Mamba，成本大降

近期，苹果公司公布了一项具有工程价值的关键技术进展：将性能强大但成本高昂的 Transformer 架构，改造为成本更低且性能损失极小的 Mamba 架构。这项升级类似于从高成本的特供能源，切换到普惠的基础设施。为什么要进行这种改造？核心原因在于，尽管 Transformer 在过去十年主导了深度学习领域，但其计算成本随序列长度呈平方级增长。处理短文本时…

2026年4月22日

176000

开源项目

穿越回1970年：用PDP-11汇编语言实现Transformer，5分钟训练成功！

试想，若将当今盛行的大模型技术带回1970年，会是何种景象？那个年代，没有GPU，没有CUDA，甚至没有浮点数运算单元，更不存在任何深度学习框架。唯有一台PDP-11小型机，以及一门近乎退出历史舞台的编程语言：汇编语言。近日，一位开发者给出了他的答案。他复现了当年的技术环境，使用1970年代的PDP-11汇编语言，成功实现并训练了一个Transforme…

2026年4月14日

374000

大模型推理

1比特注意力革命：BinaryAttention实现2倍FlashAttention2加速，突破Transformer部署瓶颈

关键词： Transformer、二值注意力、硬件加速、极低比特量化当注意力机制被“瘦身”到极致。 Transformer 架构的成功，很大程度上归功于其强大的注意力机制，它能捕捉序列中任意两个位置之间的依赖关系。然而，这种能力是有代价的：注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中，当处理高分辨率图像（如 1024×1…

2026年3月24日

332000

AI产业动态

AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南，AI社区高度关注

著名 AI 技术作家 Sebastian Raschka 近期发布了一份「LLM 架构画廊」，在 AI 社区内获得了高度关注和广泛赞誉。图 1：LLM 架构图库及其视觉模型卡片概览。该图库广受欢迎，Raschka 也已开始与合作伙伴生产实体海报，目前销量可观。图 2：带有用于对比大小的随机物体的架构图库海报版本。时隔仅一周多，Raschka 又发布了…

2026年3月23日

349000

大模型工程

MIT博士在Transformer内部造出计算机！LLM从此告别算数耻辱，几秒运行百万步程序

在Transformer内部构建计算机：突破大模型计算瓶颈引言近日，一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法，将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中，使大语言模型（LLM）获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精…

2026年3月21日

575000

大模型推理

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍

Transformer内嵌原生计算机！卡帕西点赞，大模型精确计算效率提升200倍当前大语言模型在推理任务上表现出色，但在需要多步骤、长上下文的精确计算任务中，其表现仍不理想。为此，一项获得卡帕西点赞的新研究提出了一种根本性解决方案：在大模型内部直接构建一台原生计算机。该方法摒弃了依赖外部工具的“外包”模式，创新性地在Transformer的权重中内嵌了…

2026年3月17日

406000

大模型工程

哈工深团队突破线性注意力瓶颈！Norm×Direction分解实现视觉任务精度全面超越，70K+token超分任务显存降低92.3%

作者信息本文第一作者孟维康是哈尔滨工业大学（深圳）与鹏城实验室联合培养的博士生，本科毕业于哈尔滨工业大学，主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学（深圳）长聘教授、博士生导师，教育部青年长江学者，长期致力于高效能多模态机器学习研究，专注于高效与可信多模态大模型。研究背景随着 Transformer 在计算机视觉领域的广泛应用，处理高分…

2026年3月15日

583000

大模型工程

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

离线强化学习（Offline RL）面临一个核心挑战：训练数据集是固定且质量不均的。近年来，以决策Transformer（DT）为代表的基于Transformer的方法，因其将决策建模为条件序列生成而备受关注。然而，这些方法通常以“整条轨迹”作为学习单元：若一条轨迹的最终回报不高，即便其中包含有效的动作或局部成功的片段，其价值也容易被整体的低回报所“稀释”。…

2026年3月14日

364000

大模型工程

从动态计算到静态查表：STEM如何重构Transformer的记忆机制

近年来，随着大语言模型规模与知识密度的不断提升，研究者开始重新思考一个更本质的问题：模型中的参数应如何被组织，才能更高效地充当“记忆”。在标准 Transformer 的前馈网络（FFN）中，知识主要隐式存储在 up-projection 等密集矩阵里，并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效，但在参数的可寻址性、可编辑性与系统效率上存在…

2026年3月9日

447000

大模型训练

FlashAttention-4震撼发布：Blackwell GPU上注意力机制速度媲美矩阵乘法，性能提升高达2.7倍

经过一年的开发，FlashAttention-4 正式发布。作为深度学习领域一项关键的底层优化技术，FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示，在 Blackwell GPU 上，注意力机制的执行速度现已几乎与矩阵乘法相当，尽管两者的瓶颈截然不同。当前，Tensor Core 的速度已变得极快…

2026年3月6日

1.0K000