RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

在计算机视觉领域,预训练基座模型的演进正推动着多模态智能的边界。近日,格灵深瞳公司灵感团队发布的视觉模型基座RICE(MVT v1.5)在ICCV25会议上获得Highlight荣誉,标志着视觉表征学习从全局语义理解向细粒度区域感知的重要转变。这一突破不仅刷新了多项视觉任务榜单,更揭示了视觉预训练技术发展的深层逻辑。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

MVT系列的发展轨迹清晰地展现了视觉预训练理念的迭代过程。从MVT v1.0开始,团队就确立了“margin表征代表语义”的核心观点,这一理念源于格灵深瞳在人脸识别领域的技术积累。团队认识到,视觉知识的本质在于差异化表征——正如不同人脸具有独特特征,视觉语义的有效表征关键在于建立不同概念之间的明确边界。MVT v1.0采用CLIP预训练模型提取海量图文特征,通过kmeans算法聚类为百万类别,为图像建立精细化的语义标签体系。这种方法超越了传统batch学习的限制,在图像分类、检索等任务上达到SOTA水平。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

然而,单一标签的局限性在MVT v1.1中得到解决。团队发现,人类对事物的认知具有多义性,强制赋予单一标签会导致语义信息的损失。为此,MVT v1.1引入top-k软标签机制,为每张图像分配多个相关标签,显著提升了视觉编码的语义丰富度。这一改进体现了从“硬分类”到“软语义”的思维转变,为后续的区域级学习奠定了基础。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE(MVT v1.5)的突破在于对图像构成本质的深刻洞察。团队研究发现,图像信息往往由多个弱关联的视觉元素拼接而成,直接对全图进行监督会忽略局部语义的独立性。这种认知促使团队转向区域级对象学习范式。通过SAM模型对400M图像进行区域搜索,提取出2B个区域级对象,并聚类为百万个语义类别。同时,团队使用PaddleOCR从50M图片中提取400M字符区域,将字符本身作为语义标签,实现了文本与视觉的无缝融合。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

技术实现上,RICE的创新体现在Region Attention Layer模块的设计。模型采用经典ViT结构作为Encoder,在最后一层视觉特征图中引入mask机制,提取属于同一对象的视觉特征。完整图片的class embedding作为Query,对区域级视觉特征进行QKV注意力计算,生成Region Class Embedding用于分类损失计算。这种设计使每张图像能够同时学习约10个区域级对象,显著提升了训练效率和语义粒度。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

与基于全图语义编码的MVT v1.1相比,RICE在训练过程中实现了视觉特征差异性的有效提升。实验表明,随着训练进行,视觉编码器对图像内部元素的语义表征变得更加丰富和细致。这种区域感知能力使模型能够更好地理解图像的复合语义结构,为下游任务提供更强大的特征支持。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

在检测任务验证中,RICE展现了卓越的性能。不仅在COCO和LVIS等经典数据集上表现出色,在包含100种不同场景的Roboflow100检测任务中,RICE与先进视觉基座进行公平比较,在几乎所有指标上获得最佳结果。区域级语义学习的预训练方法使模型在目标检测任务上具有天然优势,能够更准确地定位和识别复杂场景中的对象。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

多模态分割任务方面,RICE采用LLaVA系列框架和LISA训练方法,在refCOCO系列所有子集上均实现显著提升。区域级学习使模型能够更好地理解指代表达与视觉区域之间的对应关系,提升了分割的准确性和鲁棒性。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

令人惊讶的是,尽管基于图像训练,RICE在视频追踪任务中同样表现优异。其ROPE位置编码方式和跨图像区域级对象聚类方法,使模型能够处理不同尺寸的视频输入,并对不同帧中的相同目标进行持续追踪。在四个视频追踪相关任务中,RICE均取得领先表现,特征可视化显示模型能够有效跟踪跨帧的同类物体。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

多模态问答任务成为检验视觉基座能力的试金石。在LLaVA系列主流架构中,使用RICE作为视觉编码器在多个基准测试中获得更好效果。特别值得注意的是,由于预训练方法无缝兼容光学字符识别,基于RICE的多模态模型在OCR相关任务上展现出显著优势。技术报告显示,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比的全开源卓越工作。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE的成功揭示了视觉预训练的两个关键原则:首先,差异化语义表征是有效学习的基础,确保不同下游任务能够轻松区分和识别语义信息;其次,图像中的视觉元素往往具有弱关联性,区域级学习能够更完整地表征图像信息。这些洞见不仅推动了当前技术的发展,更为未来研究指明了方向。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

展望未来,MVT系列即将开启v2.0视频编码工作。图像仅是对场景的静态捕捉,而视频则是对真实世界的动态记录,蕴含着更丰富的时间维度和上下文信息。视频编码将成为通往AGI之路的重要里程碑,MVT团队将继续沿着差异化语义表征的路线,探索视频时代的新SOTA。视觉预训练技术正从静态理解向动态感知演进,这一转变将深刻影响多模态智能的发展轨迹。

代码地址:https://github.com/deepglint/MVT

论文地址:https://arxiv.org/abs/2507.20025

模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

— 图片补充 —

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8892

(0)
上一篇 2025年10月29日 下午2:55
下一篇 2025年10月29日 下午5:07

相关推荐

  • QQ浏览器AI化转型深度解析:从工具到智能体的全场景重构

    在人工智能浪潮席卷全球的当下,传统互联网产品正面临前所未有的转型压力。作为拥有上亿用户的国民级应用,QQ浏览器近期宣布全面升级为AI浏览器,这一战略转向不仅体现了腾讯在AI领域的深厚布局,更预示着浏览器行业将从信息工具向智能服务平台演进的根本性变革。本文将从技术架构、产品设计、用户体验及行业影响四个维度,深入剖析QQ浏览器的AI化转型路径。 从技术底层来看,…

    2025年12月19日
    12400
  • AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期

    12月8日 【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Ag…

    2025年12月15日
    11100
  • GPT-5的思考革命:动态推理深度与受控思考机制解析

    在人工智能发展的历史长河中,从简单的模式识别到复杂的逻辑推理,每一次技术突破都标志着机器智能向人类认知的进一步靠近。OpenAI最新透露的GPT-5模型,通过引入“动态推理深度控制”机制,实现了从被动响应到主动思考的根本性转变。这一突破不仅体现在模型性能的提升上,更在于它赋予了AI一种前所未有的能力——时间感。当机器学会根据问题复杂度自主分配思考时间,人类与…

    2025年11月17日
    7300
  • 马斯克预言AI+机器人三年内解决美国38万亿国债危机,揭示Tesla、SpaceX、xAI、Starlink融合成AI文明操作系统

    【导读】马斯克预言:AI与机器人三年内可化解美国债务危机。与此同时,华尔街正悄然转向,押注下一代算力架构。 当美国国债规模攀升至38万亿美元,财政赤字持续膨胀之际,埃隆·马斯克提出了一个大胆的解决方案:无需增税或削减开支,依靠人工智能(AI)和机器人,便可在三年内解决美国的预算危机。 他认为,未来三年内,AI驱动的商品与服务产出增速将超越通货膨胀;二十年内,…

    2025年12月2日
    9900
  • 图智能体革命:用图结构突破LLM Agent的四大瓶颈

    在人工智能领域,大型语言模型智能体(LLM Agent)正以前所未有的速度重塑技术格局。从自动化网页浏览、智能软件开发到复杂的具身控制系统,这些智能体展现出的自主能力令人瞩目。然而,在表面的繁荣之下,整个领域正面临深刻的系统性挑战。当前多数智能体系统在可靠规划、长期记忆维护、海量工具管理和多智能体协调等关键能力上仍显稚嫩,呈现出明显的“碎片化”发展态势和明显…

    2025年11月9日
    8200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注