Transformer

  • 苹果新招:把Transformer的性能塞进Mamba,成本大降

    近期,苹果公司公布了一项具有工程价值的关键技术进展:将性能强大但成本高昂的 Transformer 架构,改造为成本更低且性能损失极小的 Mamba 架构。这项升级类似于从高成本的特供能源,切换到普惠的基础设施。 为什么要进行这种改造? 核心原因在于,尽管 Transformer 在过去十年主导了深度学习领域,但其计算成本随序列长度呈平方级增长。处理短文本时…

    2026年4月22日
    17600
  • 穿越回1970年:用PDP-11汇编语言实现Transformer,5分钟训练成功!

    试想,若将当今盛行的大模型技术带回1970年,会是何种景象? 那个年代,没有GPU,没有CUDA,甚至没有浮点数运算单元,更不存在任何深度学习框架。唯有一台PDP-11小型机,以及一门近乎退出历史舞台的编程语言:汇编语言。 近日,一位开发者给出了他的答案。他复现了当年的技术环境,使用1970年代的PDP-11汇编语言,成功实现并训练了一个Transforme…

    2026年4月14日
    37400
  • 1比特注意力革命:BinaryAttention实现2倍FlashAttention2加速,突破Transformer部署瓶颈

    关键词: Transformer、二值注意力、硬件加速、极低比特量化 当注意力机制被“瘦身”到极致。 Transformer 架构的成功,很大程度上归功于其强大的注意力机制,它能捕捉序列中任意两个位置之间的依赖关系。然而,这种能力是有代价的:注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中,当处理高分辨率图像(如 1024×1…

    2026年3月24日
    33200
  • AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南,AI社区高度关注

    著名 AI 技术作家 Sebastian Raschka 近期发布了一份「LLM 架构画廊」,在 AI 社区内获得了高度关注和广泛赞誉。 图 1:LLM 架构图库及其视觉模型卡片概览。 该图库广受欢迎,Raschka 也已开始与合作伙伴生产实体海报,目前销量可观。 图 2:带有用于对比大小的随机物体的架构图库海报版本。 时隔仅一周多,Raschka 又发布了…

    2026年3月23日
    34900
  • MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序

    在Transformer内部构建计算机:突破大模型计算瓶颈 引言近日,一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法,将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中,使大语言模型(LLM)获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精…

    2026年3月21日
    57500
  • Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍

    Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…

    2026年3月17日
    40600
  • 哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%

    作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…

    2026年3月15日
    58300
  • PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

    离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。…

    2026年3月14日
    36400
  • 从动态计算到静态查表:STEM如何重构Transformer的记忆机制

    近年来,随着大语言模型规模与知识密度的不断提升,研究者开始重新思考一个更本质的问题:模型中的参数应如何被组织,才能更高效地充当“记忆”。 在标准 Transformer 的前馈网络(FFN)中,知识主要隐式存储在 up-projection 等密集矩阵里,并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效,但在参数的可寻址性、可编辑性与系统效率上存在…

    2026年3月9日
    44700
  • FlashAttention-4震撼发布:Blackwell GPU上注意力机制速度媲美矩阵乘法,性能提升高达2.7倍

    经过一年的开发,FlashAttention-4 正式发布。 作为深度学习领域一项关键的底层优化技术,FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,注意力机制的执行速度现已几乎与矩阵乘法相当,尽管两者的瓶颈截然不同。 当前,Tensor Core 的速度已变得极快…

    2026年3月6日
    1.0K00