清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

RAM团队 投稿

量子位 | 公众号 QbitAI

让大模型像人类一样阅读!通过精读略读实现性能与效率的双重飞跃。

在长上下文场景中,Transformer架构的二次计算复杂度让推理速度急剧下降,而人类面对长文档时却能游刃有余——我们不会逐字阅读整本小说,而是对关键情节精读,对背景描述略读

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现:现有任务相关的压缩方法不仅陷入效率瓶颈——要么一次性加载全文 (效率低) ,要么自回归逐步压缩 (速度慢) ,更难以兼顾“保留关键信息”与“保持自然语言可解释性”。

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

受人类阅读认知启发,他们提出全新框架RAM (Read As HuMan) ,首次将“精读+略读”混合策略引入上下文压缩,不仅在多个长文本基准上取得卓越表现,更在平均1.6万token的输入上实现12倍端到端加速

像人类一样阅读:精读重要内容,略读背景内容

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

研究团队从认知科学中汲取灵感:人类阅读时会动态分配注意力——对与目标高度相关的内容进行精读 (close reading) ,保留全部语义细节;对次要背景信息采用略读 (skimming) ,快速提取核心语义。

RAM将这一行为转化为可计算的自适应压缩策略:

  • 精读区: 高相关片段完整保留原始文本,确保关键信息零损失,维持自然语言可解释性。
  • 略读区: 低相关片段通过查询引导压缩为单个语义向量,极致削减冗余内容。
  • 混合表示: 精读文本与略读向量按原顺序拼接,形成“显式+隐式”混合上下文,既保留关键细节又大幅缩短长度。

更关键的是,RAM突破了现有方法的效率瓶颈:所有片段与查询并行编码,彻底规避了全文一次性加载的二次复杂度,也摆脱了自回归压缩的串行等待,真正实现“压缩即推理”的高效流水线。

授人以渔:让模型学会“何时精读、何时略读”

仅有策略不够,如何让模型精准判断“哪些内容值得精读”?RAM引入对比学习优化决策边界:

  • 利用正负样本对 (含答案片段/无关片段) 训练查询-片段相关性判别器。
  • 通过查询引导的注意力计算计算片段重要性,动态决定段落的保留 (精读) 和压缩 (略读)
  • 略读过程采用查询引导加权平均:对每个token计算与查询的相似度,聚焦提取与任务相关的语义“精华”。

这种设计使RAM在训练阶段仅需单次训练,即可泛化至多种任务 (问答、摘要) 与任意压缩比例 (2x–32x)。更令人惊喜的是,尽管训练时最大长度仅2万token,RAM在3.2万tokens的NarrativeQA测试中性能反超未压缩原文,展现出强大的长度外推能力——它学会的不是记忆固定模式,而是组合式语义表征。

实践出真知:效率与性能的双重飞跃

多种任务上表现出色

在NaturalQuestions、HotpotQA等四大问答基准与MultiNews摘要任务上,RAM以LLaMA-3.1-8B和Qwen3-4B为基座,在4x/8x压缩下均展现出优越性能。以Qwen3-4B为例,4x压缩时EM分数达66.59 (输入原文时32.77),证明压缩非但未损伤性能,反而通过去噪提升了推理质量。

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

12倍加速,长文秒级响应

在平均1.6万token、最长3.2万token设置的NarrativeQA数据集上,RAM端到端延迟仅0.20秒 (32x压缩),相比于输入原始提示词 (端到端时延1.23秒)——提速约6倍。压缩阶段耗时仅0.08秒,真正实现“压缩成本可忽略”。

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

压缩鲁棒性:从2x到32x稳如磐石

当压缩率从2x提升至32x,RAM的EM分数仍稳定高于基线。这证明RAM在各种压缩率下的表现具有鲁棒性,从2倍压缩率到32倍压缩率稳如磐石。

清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

总结

RAM的工作为长上下文LLM部署提供了新范式:它不再将压缩视为“不得已的妥协”,而是通过模拟人类认知策略,将效率与性能转化为协同增益。

  • 方法论创新: 首次将“精读+略读”混合策略算法化,打破效率-保真度权衡。
  • 工程突破: 并行化设计使压缩成本趋近于零,真正满足工业级实时需求。
  • 认知启示: 证明借鉴人类信息处理机制,可为AI系统设计提供强大灵感。

当大模型学会像人类一样“有重点地阅读”,长文本不再是负担,而是可高效驾驭的知识海洋。RAM不仅压缩了上下文长度,更压缩了AI与人类认知之间的距离。

论文标题:
Read As Human: Compressing Context via Parallelizable Close Reading and Skimming
论文链接:
https://arxiv.org/abs/2602.01840
代码链接:
https://github.com/Twilightaaa/RAM


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21566

(0)
上一篇 2026年2月14日 下午3:27
下一篇 2026年2月14日 下午3:51

相关推荐

  • AI图像检测泛化难题破解:腾讯优图提出双重数据对齐方法,从源头消除偏差特征

    在AIGC技术迅猛发展的浪潮中,仅凭一行简单的提示词就能生成高度逼真的图像内容,这无疑标志着人工智能生成能力的重大突破。然而,技术进步往往伴随着新的挑战——虚假新闻的泛滥、身份欺诈的频发、版权侵犯的争议等问题日益凸显,使得AI生成图像检测技术成为维护数字内容安全的关键防线。当前检测技术面临的核心困境在于泛化能力不足:许多检测模型在标准基准测试中表现优异,一旦…

    2025年11月30日
    42300
  • SpaceX幕后操盘手格温·肖特韦尔:从拒绝马斯克到拯救火箭帝国的技术领袖

    鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 2026年全球资本市场的头号悬念,非SpaceX的“世纪IPO” 莫属。 SpaceX预计将在今年以1.5万亿美元的目标估值和超300亿美元的融资规模,正式向全球最大IPO纪录发起冲击。 然而这一次,马斯克不再是聚光灯下的全部焦点。 最近夺走他风头的是那位长期站在马斯克身后,SpaceX真正的操盘手——格…

    2026年1月24日
    35900
  • 医生深夜急救遇AI幻觉:通用大模型如何成为医疗决策的定时炸弹?

    凌晨一点,一家三甲医院的急诊室里,一位62岁男性患者被紧急送来,他正经历急性STEMI并发急性心衰。血压飙升至185/105 mmHg,血氧饱和度仅有91%。护士已经推来除颤仪,催促医生“心电捕手”确认替格瑞洛的用药剂量。 由于患者肾功能不全,标准剂量极易引发致命性脑出血,而减量又可能导致支架内再次形成血栓。面对堆积如山的指南和文献,医生必须在短短三分钟内找…

    2天前
    5600
  • AI重构叙事边界:跨角色嵌入技术让憨豆与汤姆同台共演,破解风格错乱世纪难题

    在传统影视与动画创作中,角色往往被禁锢于各自的世界观与视觉风格中——卡通角色的夸张变形与真人演员的写实表演如同平行宇宙,鲜有交集。然而,近期阿联酋MBZUAI研究团队发布的一项突破性研究,通过创新的跨角色嵌入技术,首次实现了不同风格角色的自然同框互动,标志着AI生成视频技术正迈向一个虚构与现实深度融合的新纪元。 这项研究的核心突破在于解决了长期困扰生成式视频…

    2025年11月16日
    36500
  • 快手AI人才地震:大模型掌舵人离职,华为搜索实验室主任加盟,两年间9位高管变动

    AI人才换挡期来了? 据多个独立信源透露,快手科技副总裁、基础大模型及推荐模型负责人周国睿即将离职。其内部系统状态已显示为休假,签名改为“Log Out”。有消息称其或将加入Meta,也有传闻指向TikTok。 职场平台脉脉信息显示,周国睿于2021年加入快手,此前曾在阿里妈妈担任高级算法专家。在快手期间,他先后负责直播、本地生活推荐业务,并于2024年升任…

    2025年12月31日
    61000