注意力机制
-
Claude惊现严重身份混淆漏洞!黑客可注入恶意指令,大模型安全再敲警钟
Claude惊现严重身份混淆漏洞,大模型安全再敲警钟 近期,一个关于Claude模型的严重漏洞在技术社区引发了广泛讨论。该漏洞使得模型无法区分用户输入与系统指令,甚至可能将恶意注入的指令误认为合法请求。 一位软件工程师(某教育初创公司CTO)在Hacker News发帖,称这是其“迄今为止在Claude代码中见过的最严重的bug”。该帖迅速吸引了数万名开发者…
-
1比特注意力革命:BinaryAttention实现2倍FlashAttention2加速,突破Transformer部署瓶颈
关键词: Transformer、二值注意力、硬件加速、极低比特量化 当注意力机制被“瘦身”到极致。 Transformer 架构的成功,很大程度上归功于其强大的注意力机制,它能捕捉序列中任意两个位置之间的依赖关系。然而,这种能力是有代价的:注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中,当处理高分辨率图像(如 1024×1…
-
AI技术作家Sebastian Raschka发布LLM架构画廊与注意力变体可视化指南,AI社区高度关注
著名 AI 技术作家 Sebastian Raschka 近期发布了一份「LLM 架构画廊」,在 AI 社区内获得了高度关注和广泛赞誉。 图 1:LLM 架构图库及其视觉模型卡片概览。 该图库广受欢迎,Raschka 也已开始与合作伙伴生产实体海报,目前销量可观。 图 2:带有用于对比大小的随机物体的架构图库海报版本。 时隔仅一周多,Raschka 又发布了…
-
MIT博士在Transformer内部造出计算机!LLM从此告别算数耻辱,几秒运行百万步程序
在Transformer内部构建计算机:突破大模型计算瓶颈 引言近日,一项来自MIT博士Christos Tzamos及其团队的研究引发了AI社区的广泛关注。该研究通过一种创新的方法,将一台完整的WebAssembly解释器直接编码到Transformer模型的权重之中,使大语言模型(LLM)获得了内在的、确定性的计算能力。这项突破旨在从根本上解决LLM在精…
-
Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍
Transformer内嵌原生计算机!卡帕西点赞,大模型精确计算效率提升200倍 当前大语言模型在推理任务上表现出色,但在需要多步骤、长上下文的精确计算任务中,其表现仍不理想。 为此,一项获得卡帕西点赞的新研究提出了一种根本性解决方案:在大模型内部直接构建一台原生计算机。 该方法摒弃了依赖外部工具的“外包”模式,创新性地在Transformer的权重中内嵌了…
-
17岁高中生实现Ilya预言!Kimi团队“旋转”注意力机制,训练效率提升25%,马斯克都来围观
17岁高中生实现Ilya预言:Kimi团队“旋转”注意力机制,训练效率提升25% 一位17岁的高中生,以共同第一作者的身份,在Kimi团队将OpenAI首席科学家Ilya Sutskever提出的一个设想变成了现实。 Ilya曾有一个著名的预言:将按时间顺序处理数据的LSTM网络“旋转90度”——即把时间轴替换为模型的深度轴——就演变成了当今主流的残差网络(…
-
扩散语言模型:从架构挑战到推理优化的深度探索
★ 原文链接:https://zhuanlan.zhihu.com/p/1998418717743289472 作者:王云鹤 在思考这一主题时,我首先回想起多年前一位前辈提出的问题:Transformer的下一代范式是什么? 我当时认为,Transformer是长期技术积累从量变到质变的成果,其思想(如Non-local模块)在早期视觉研究中已有体现,而卷积…
-
突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率
Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…
-
清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临
在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…
-
ContextGen:双重注意力机制突破多实例图像生成瓶颈,布局控制与身份保真实现协同优化
随着扩散模型在单图像生成领域的日益成熟,研究焦点正逐步转向更具挑战性的多实例图像生成(Multi-Instance Image Generation, MIG)任务。这一任务要求模型在生成包含多个主体的图像时,不仅能精确控制各实例的空间布局,还需保持每个主体与参考图像的高度身份一致性。然而,现有方法往往难以兼顾这两大核心需求:专注于布局控制的技术常忽略身份注…
