ICLR 2026

ICLR 2026中国论文占比43.7%反超美国，欧洲5.3%不及新加坡+韩国

一场无声的“反超”已然落定。 ICLR 2026，全球人工智能三大顶级会议之一，近日于巴西里约热内卢圆满落幕。一位社区研究者对全部 5356 篇被接收论文进行了细致的机构归属分析：他逐一提取每篇论文 PDF 首页上的署名单位，经过清洗与归一化处理，最终绘制出一张震撼学术界的 Treemap 热力图。数据显示：中国大陆占比 43.7%，美国占比 31.9%，…

2天前

201000

大模型评测

夜间第一人称视觉AI集体失明？EgoNight基准揭示大模型夜晚理解力大幅下降

人类在夜里走路，即便光线昏暗也能认出熟人、避开障碍。但AI的第一人称视觉模型到了晚上基本等于“瞎了”。昏暗光照、反光、噪声、运动模糊，再加上佩戴式设备的抖动和遮挡…让视觉理解这道题，夜间难度直接翻倍。来自INSAIT、华东师范大学、港科大（广州）、南开大学、复旦大学等机构的研究者提出EgoNight 基准，系统聚焦夜间第一人称视觉理解这一长期被忽视的…

2026年4月24日

185000

大模型推理

MixKV：打破KV缓存压缩的隐形天花板，让长上下文推理既稳又快

长上下文推理已成为视觉-语言模型（VLM）和大语言模型（LLM）的默认形态。然而，真正的性能瓶颈往往潜藏在推理端的键值（KV）缓存中。随着上下文长度增加，KV缓存线性膨胀，导致显存占用与带宽开销飙升，进而严重压制模型吞吐量。因此，KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存，却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

2026年3月31日

246000

AI产业动态

谷歌ICLR顶会论文陷抄袭风波：TurboQuant核心技术被指两年前已由ETH团队提出，引发AI圈学术地震

一场席卷市场的震荡，意外牵出了一桩学术争议。本周五晚，谷歌研究团队的一篇论文陷入学术不端指控，成为AI社区关注的焦点。苏黎世联邦理工学院（ETH Zurich）的博士后研究员高健扬发文指出，谷歌研究团队的论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》在…

2026年3月29日

725000

大模型推理

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

随着多模态大语言模型（MLLM）支持的上下文长度不断增长，高分辨率图像和长视频输入会产生远多于文本的视觉标记（Token）。在自注意力机制二次计算复杂度的制约下，这些海量视觉Token迅速成为模型推理效率的瓶颈。现有研究通常采用渐进式剪枝来减少视觉Token，但大多采用固定的剪枝策略，未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。通过对MLL…

2026年3月23日

339000

大模型工程

工具文档质量成AI智能体瓶颈？ICLR 2026新研究：简单文档扩展即可显著提升工具检索性能

在大模型时代，工具调用（Tool-Use）已成为智能体能力的核心。从代码生成到复杂API调用，大语言模型正在学会使用各类工具。然而，一个日益凸显的现实问题是：工具真的难找。来自宁波东方理工大学/宁波数字孪生研究院沈晓宇团队的一项研究，在ICLR 2026发表论文《Tools Are Under-Documented: Simple Document Exp…

2026年3月18日

396000

大模型工程

Prompt Learning的进化之路：从静态优化到SIPDO闭环自进化系统

Prompt 作为一种接口，直接决定了大型语言模型（LLM）与智能体系统的行为模式与性能上限。对提示（prompt）的理解与控制，本质上决定了系统能力能被释放到何种程度。提示学习（prompt learning）的出现，使这一过程从经验驱动走向可系统化研究，并逐步形成了一条清晰的发展脉络。回顾这条路径，本身就有助于我们理解提示学习是如何一步步构建起来的。然…

2026年2月27日

518000

大模型工程

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题，对抗性场景生成成为了一种高效的仿真测试手段。然而，现有方法面临一个经典的“跷跷板”难题：要么生成的场景极具攻击性但物理上不真实，要么过于保守而失去了测试价值，难以触及系统的长尾失效边界。更关键的是…

2026年2月26日

256000

AI产品库

西湖大学AutoFigure：智能体绘图框架实现学术插图自动化，ICLR 2026入选成果

你是否也经历过这样的困境：论文截稿在即，面对大段的文字，绘制图表和PPT插图却耗费了大量精力；尝试用AI工具生成图片，结果要么逻辑混乱，要么文字模糊不清；好不容易调整好了提示词，生成的图片却是一张无法编辑的“死图”。这种“审美与逻辑难以兼顾、生成与编辑相互割裂”的痛点，如今有望被解决。现在，你可以将大段的文字材料直接交给 AutoFigure ，这…

2026年2月22日

2.1K000

大模型工程

北航开源Code2Bench：双扩展动态评测，终结代码大模型高分幻觉

在衡量大语言模型（LLM）代码生成能力的竞赛中，一个日益严峻的问题正浮出水面：当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时，我们究竟是在评估其真实的泛化推理能力，还是在检验其对训练语料库的「记忆力」？现有的代码基准正面临两大核心挑战：数据污染的风险，以及测试严谨性不足。前者使评测可能退化为「开卷考试」，后者则常常导致一种「正…

2026年2月21日

292000