Transformer
-
Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍
Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…
-
哈工深团队突破线性注意力瓶颈!Norm×Direction分解实现视觉任务精度全面超越,70K+token超分任务显存降低92.3%
作者信息本文第一作者孟维康是哈尔滨工业大学(深圳)与鹏城实验室联合培养的博士生,本科毕业于哈尔滨工业大学,主要研究方向为高效能基础模型。通讯作者张正教授是哈尔滨工业大学(深圳)长聘教授、博士生导师,教育部青年长江学者,长期致力于高效能多模态机器学习研究,专注于高效与可信多模态大模型。 研究背景随着 Transformer 在计算机视觉领域的广泛应用,处理高分…
-
PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%
离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。…
-
从动态计算到静态查表:STEM如何重构Transformer的记忆机制
近年来,随着大语言模型规模与知识密度的不断提升,研究者开始重新思考一个更本质的问题:模型中的参数应如何被组织,才能更高效地充当“记忆”。 在标准 Transformer 的前馈网络(FFN)中,知识主要隐式存储在 up-projection 等密集矩阵里,并通过输入相关的矩阵乘法被动态激活。这种方式在表达力上有效,但在参数的可寻址性、可编辑性与系统效率上存在…
-
FlashAttention-4震撼发布:Blackwell GPU上注意力机制速度媲美矩阵乘法,性能提升高达2.7倍
经过一年的开发,FlashAttention-4 正式发布。 作为深度学习领域一项关键的底层优化技术,FlashAttention 迎来了重大版本更新。其核心作者、普林斯顿大学助理教授 Tri Dao 表示,在 Blackwell GPU 上,注意力机制的执行速度现已几乎与矩阵乘法相当,尽管两者的瓶颈截然不同。 当前,Tensor Core 的速度已变得极快…
-
前OpenAI研究VP挑战Transformer霸权,10亿美元融资打造持续学习AI新范式
Transformer 是当前大语言模型(LLM)发展的核心基础,但一些顶尖研究者正积极寻求替代路径。其中甚至包括 Transformer 的创造者之一、Sakana AI 联合创始人兼 CTO Llion Jones。他在 Sakana 的官方博客中直言不讳地写道:“为什么 Transformer 的这位创造者受够了 Transformer”。 “我不是说…
-
大模型语义向量化的信号处理原理:从信息论到Transformer的深度解析
引言 本文将从信号处理的角度,解读大模型语义向量化背后的信息论原理,并从时间序列的视角分析 Transformer 架构及其与 Granger 因果性的关联。 我们首先提出一个核心观点:大模型的输入是 Token 的语义嵌入(即语义向量),这一过程本质上是将自然语言处理问题转换为信号处理问题。因此,向量化对于大模型至关重要,它与信号处理、信息论有着深刻的联系…
-
揭秘马斯克开源X推荐算法:纯AI驱动的端到端系统如何重塑社交媒体内容分发
马斯克开源𝕏推荐算法:一个纯AI驱动的端到端系统 目前,GitHub上已完整公开了马斯克开源的𝕏推荐算法系统。 开源文件明确指出,这是一个几乎完全由AI模型驱动的算法系统。 我们移除了所有人工设计特征和绝大多数启发式规则。 消息一出,社区反响热烈,一条获得高赞的评论写道: 不可思议!没有其他平台能做到如此透明。 马斯克本人也迅速转发了𝕏工程团队的原帖,但他此…
-
DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE
DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…
-
AI生产力真相:Anthropic联创揭秘内部数据,代码加速遇瓶颈,维修工也难逃AI替代
Anthropic联合创始人Jack Clark近期参与了一场深度对话,同台的还有知名前对冲基金经理Michael Burry、Dwarkesh播客创始人Dwarkesh Patel以及软件创业者Patrick McKenzie。 四位业界人士的讨论揭示了关于AI生产力的一些反直觉细节和数据。 AI工具真的提升了生产力吗?多数人的直觉答案是肯定的,但Jack…
