核心创新:GAR(Grasp Any Region)突破传统MLLMs局限,既能精准描述用户指定区域,又能建模区域间关系,支持复杂组合推理
技术亮点:通过RoI-Aligned特征回放技术,兼顾局部细节与全局上下文,在GAR-Bench测试中表现超越GPT-4o,直逼最强推理模型
应用前景:为构建自然图像Dense Caption提供新路径,可助力多模态预训练、AIGC数据生成,并可作为Reward Model使用
开源信息:论文、代码、模型已全面开源,支持gradio本地部署
GAR展现了强大的区域理解能力,甚至能zero-shot迁移至视频任务,为多模态理解开辟了新方向!