ICLR 2026
-
ICLR 2026中国论文占比43.7%反超美国,欧洲5.3%不及新加坡+韩国
一场无声的“反超”已然落定。 ICLR 2026,全球人工智能三大顶级会议之一,近日于巴西里约热内卢圆满落幕。一位社区研究者对全部 5356 篇被接收论文进行了细致的机构归属分析:他逐一提取每篇论文 PDF 首页上的署名单位,经过清洗与归一化处理,最终绘制出一张震撼学术界的 Treemap 热力图。 数据显示:中国大陆占比 43.7%,美国占比 31.9%,…
-
夜间第一人称视觉AI集体失明?EgoNight基准揭示大模型夜晚理解力大幅下降
人类在夜里走路,即便光线昏暗也能认出熟人、避开障碍。 但AI的第一人称视觉模型到了晚上基本等于“瞎了”。 昏暗光照、反光、噪声、运动模糊,再加上佩戴式设备的抖动和遮挡…让视觉理解这道题,夜间难度直接翻倍。 来自INSAIT、华东师范大学、港科大(广州)、南开大学、复旦大学等机构的研究者提出EgoNight 基准,系统聚焦夜间第一人称视觉理解 这一长期被忽视的…
-
MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快
长上下文推理已成为视觉-语言模型(VLM)和大语言模型(LLM)的默认形态。然而,真正的性能瓶颈往往潜藏在推理端的键值(KV)缓存中。随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而严重压制模型吞吐量。 因此,KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存,却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…
-
谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震
一场席卷市场的震荡,意外牵出了一桩学术争议。 本周五晚,谷歌研究团队的一篇论文陷入学术不端指控,成为AI社区关注的焦点。苏黎世联邦理工学院(ETH Zurich)的博士后研究员高健扬发文指出,谷歌研究团队的论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》在…
-
HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持
随着多模态大语言模型(MLLM)支持的上下文长度不断增长,高分辨率图像和长视频输入会产生远多于文本的视觉标记(Token)。在自注意力机制二次计算复杂度的制约下,这些海量视觉Token迅速成为模型推理效率的瓶颈。 现有研究通常采用渐进式剪枝来减少视觉Token,但大多采用固定的剪枝策略,未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。 通过对MLL…
-
工具文档质量成AI智能体瓶颈?ICLR 2026新研究:简单文档扩展即可显著提升工具检索性能
在大模型时代,工具调用(Tool-Use)已成为智能体能力的核心。从代码生成到复杂API调用,大语言模型正在学会使用各类工具。然而,一个日益凸显的现实问题是:工具真的难找。 来自宁波东方理工大学/宁波数字孪生研究院沈晓宇团队的一项研究,在ICLR 2026发表论文《Tools Are Under-Documented: Simple Document Exp…
-
Prompt Learning的进化之路:从静态优化到SIPDO闭环自进化系统
Prompt 作为一种接口,直接决定了大型语言模型(LLM)与智能体系统的行为模式与性能上限。对提示(prompt)的理解与控制,本质上决定了系统能力能被释放到何种程度。提示学习(prompt learning)的出现,使这一过程从经验驱动走向可系统化研究,并逐步形成了一条清晰的发展脉络。回顾这条路径,本身就有助于我们理解提示学习是如何一步步构建起来的。 然…
-
破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为
破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为 自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题,对抗性场景生成 成为了一种高效的仿真测试手段。 然而,现有方法面临一个经典的“跷跷板”难题:要么生成的场景极具攻击性但物理上不真实,要么过于保守而失去了测试价值,难以触及系统的长尾失效边界。 更关键的是…
-
西湖大学AutoFigure:智能体绘图框架实现学术插图自动化,ICLR 2026入选成果
你是否也经历过这样的困境: 论文截稿在即,面对大段的文字,绘制图表和PPT插图却耗费了大量精力; 尝试用AI工具生成图片,结果要么逻辑混乱,要么文字模糊不清; 好不容易调整好了提示词,生成的图片却是一张无法编辑的“死图”。 这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点,如今有望被解决。 现在,你可以将大段的文字材料直接交给 AutoFigure ,这…
-
北航开源Code2Bench:双扩展动态评测,终结代码大模型高分幻觉
在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在检验其对训练语料库的「记忆力」? 现有的代码基准正面临两大核心挑战:数据污染的风险,以及测试严谨性不足。前者使评测可能退化为「开卷考试」,后者则常常导致一种「正…
