RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

在计算机视觉领域,预训练基座模型的演进正推动着多模态智能的边界。近日,格灵深瞳公司灵感团队发布的视觉模型基座RICE(MVT v1.5)在ICCV25会议上获得Highlight荣誉,标志着视觉表征学习从全局语义理解向细粒度区域感知的重要转变。这一突破不仅刷新了多项视觉任务榜单,更揭示了视觉预训练技术发展的深层逻辑。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

MVT系列的发展轨迹清晰地展现了视觉预训练理念的迭代过程。从MVT v1.0开始,团队就确立了“margin表征代表语义”的核心观点,这一理念源于格灵深瞳在人脸识别领域的技术积累。团队认识到,视觉知识的本质在于差异化表征——正如不同人脸具有独特特征,视觉语义的有效表征关键在于建立不同概念之间的明确边界。MVT v1.0采用CLIP预训练模型提取海量图文特征,通过kmeans算法聚类为百万类别,为图像建立精细化的语义标签体系。这种方法超越了传统batch学习的限制,在图像分类、检索等任务上达到SOTA水平。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

然而,单一标签的局限性在MVT v1.1中得到解决。团队发现,人类对事物的认知具有多义性,强制赋予单一标签会导致语义信息的损失。为此,MVT v1.1引入top-k软标签机制,为每张图像分配多个相关标签,显著提升了视觉编码的语义丰富度。这一改进体现了从“硬分类”到“软语义”的思维转变,为后续的区域级学习奠定了基础。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE(MVT v1.5)的突破在于对图像构成本质的深刻洞察。团队研究发现,图像信息往往由多个弱关联的视觉元素拼接而成,直接对全图进行监督会忽略局部语义的独立性。这种认知促使团队转向区域级对象学习范式。通过SAM模型对400M图像进行区域搜索,提取出2B个区域级对象,并聚类为百万个语义类别。同时,团队使用PaddleOCR从50M图片中提取400M字符区域,将字符本身作为语义标签,实现了文本与视觉的无缝融合。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

技术实现上,RICE的创新体现在Region Attention Layer模块的设计。模型采用经典ViT结构作为Encoder,在最后一层视觉特征图中引入mask机制,提取属于同一对象的视觉特征。完整图片的class embedding作为Query,对区域级视觉特征进行QKV注意力计算,生成Region Class Embedding用于分类损失计算。这种设计使每张图像能够同时学习约10个区域级对象,显著提升了训练效率和语义粒度。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

与基于全图语义编码的MVT v1.1相比,RICE在训练过程中实现了视觉特征差异性的有效提升。实验表明,随着训练进行,视觉编码器对图像内部元素的语义表征变得更加丰富和细致。这种区域感知能力使模型能够更好地理解图像的复合语义结构,为下游任务提供更强大的特征支持。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

在检测任务验证中,RICE展现了卓越的性能。不仅在COCO和LVIS等经典数据集上表现出色,在包含100种不同场景的Roboflow100检测任务中,RICE与先进视觉基座进行公平比较,在几乎所有指标上获得最佳结果。区域级语义学习的预训练方法使模型在目标检测任务上具有天然优势,能够更准确地定位和识别复杂场景中的对象。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

多模态分割任务方面,RICE采用LLaVA系列框架和LISA训练方法,在refCOCO系列所有子集上均实现显著提升。区域级学习使模型能够更好地理解指代表达与视觉区域之间的对应关系,提升了分割的准确性和鲁棒性。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

令人惊讶的是,尽管基于图像训练,RICE在视频追踪任务中同样表现优异。其ROPE位置编码方式和跨图像区域级对象聚类方法,使模型能够处理不同尺寸的视频输入,并对不同帧中的相同目标进行持续追踪。在四个视频追踪相关任务中,RICE均取得领先表现,特征可视化显示模型能够有效跟踪跨帧的同类物体。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

多模态问答任务成为检验视觉基座能力的试金石。在LLaVA系列主流架构中,使用RICE作为视觉编码器在多个基准测试中获得更好效果。特别值得注意的是,由于预训练方法无缝兼容光学字符识别,基于RICE的多模态模型在OCR相关任务上展现出显著优势。技术报告显示,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比的全开源卓越工作。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE的成功揭示了视觉预训练的两个关键原则:首先,差异化语义表征是有效学习的基础,确保不同下游任务能够轻松区分和识别语义信息;其次,图像中的视觉元素往往具有弱关联性,区域级学习能够更完整地表征图像信息。这些洞见不仅推动了当前技术的发展,更为未来研究指明了方向。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

展望未来,MVT系列即将开启v2.0视频编码工作。图像仅是对场景的静态捕捉,而视频则是对真实世界的动态记录,蕴含着更丰富的时间维度和上下文信息。视频编码将成为通往AGI之路的重要里程碑,MVT团队将继续沿着差异化语义表征的路线,探索视频时代的新SOTA。视觉预训练技术正从静态理解向动态感知演进,这一转变将深刻影响多模态智能的发展轨迹。

代码地址:https://github.com/deepglint/MVT

论文地址:https://arxiv.org/abs/2507.20025

模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

— 图片补充 —

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8892

(0)
上一篇 2025年10月29日 下午2:55
下一篇 2025年10月29日 下午5:07

相关推荐

  • 量子力学百年之辩:从哥本哈根到关系性与主观贝叶斯——观察者的回归与物理实在的重构

    量子力学自诞生以来,其数学形式体系已得到无数实验验证,成为现代物理学的基石。然而,关于其背后物理实在的诠释问题,却引发了长达一个世纪的深刻争论。这场争论的核心在于:量子理论描述的究竟是独立于观察者的客观世界,还是观察者与世界互动中形成的认知图景?2025年,在黑尔戈兰岛举行的量子力学百年纪念会议上,关系量子力学(RQM)与主观贝叶斯主义(QBism)的倡导者…

    2025年12月18日
    8300
  • AI智能体重塑学术评审:从审稿辅助到研究范式变革的深度剖析

    在人工智能技术飞速发展的当下,学术论文评审体系正面临前所未有的挑战与机遇。随着全球顶级学术会议如ICLR、CVPR等陆续出台关于大模型使用的审稿规范,AI在学术评审中的角色已从理论探讨进入实践应用阶段。然而,规范与现实之间存在着显著差距——即使在ICLR 2026这样实施“最严管控规则”的会议上,仍有高达五分之一的审稿意见被证实由大模型一键生成。这一现象不仅…

    2025年11月25日
    8400
  • 突破显存壁垒:CLM系统如何让3D高斯泼溅技术在大场景渲染中实现消费级GPU部署

    3D高斯泼溅(3D Gaussian Splatting,简称3DGS)作为近年来新兴的视角合成技术,正以其高效的渲染能力和出色的图像质量,在计算机视觉与图形学领域掀起变革浪潮。该技术通过将3D场景表示为大量各向异性的3D高斯体,能够从一组带有位姿的输入图像中,迭代训练出能够捕捉场景外观与几何细节的表示模型。 用户可利用训练完成的场景表示,实时渲染出任意新视…

    2025年11月11日
    7800
  • GPT-5.2深度解析:专业AI如何重塑知识工作范式

    在人工智能技术快速迭代的浪潮中,OpenAI于近期正式发布了GPT-5.2系列模型,标志着通用人工智能在专业领域的应用迈入了新的阶段。本次更新并非简单的性能提升,而是针对高复杂度知识型工作场景的系统性优化,其技术架构与能力边界值得深入探讨。 GPT-5.2系列包含三个针对性版本:GPT‑5.2 Instant(即时版)注重响应速度与轻量级任务处理;GPT‑5…

    2025年12月12日
    8400
  • 从特征拼接失败到策略共识突破:多模态机器人感知的范式转移

    在机器人技术快速发展的今天,多模态感知融合已成为提升机器人环境交互能力的关键路径。然而,传统方法在处理稀疏模态任务时暴露出的严重缺陷,正推动着研究范式的根本性转变。由伊利诺伊大学香槟分校、哈佛大学、哥伦比亚大学和麻省理工学院联合完成的这项研究,通过《Multi-Modal Manipulation via Policy Consensus》论文(链接:htt…

    2025年12月3日
    8300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注