ViT³

  • 清华团队提出ViT³:用深度学习革新序列建模,线性复杂度超越Transformer

    序列建模是大语言模型与计算机视觉等领域的核心基础问题。目前广泛采用的Transformer模型,其计算复杂度会随序列长度呈平方级增长,这在处理长序列任务时带来了显著的计算瓶颈。因此,学术界一直在积极探索具备线性计算复杂度的高效序列建模新方法。 测试时训练(Test-Time Training,TTT)模型作为一种新兴的序列建模范式,将注意力操作重新定义为在线…

    15小时前
    4300