
在计算机视觉领域,预训练基座模型的演进正推动着多模态智能的边界。近日,格灵深瞳公司灵感团队发布的视觉模型基座RICE(MVT v1.5)在ICCV25会议上获得Highlight荣誉,标志着视觉表征学习从全局语义理解向细粒度区域感知的重要转变。这一突破不仅刷新了多项视觉任务榜单,更揭示了视觉预训练技术发展的深层逻辑。

MVT系列的发展轨迹清晰地展现了视觉预训练理念的迭代过程。从MVT v1.0开始,团队就确立了“margin表征代表语义”的核心观点,这一理念源于格灵深瞳在人脸识别领域的技术积累。团队认识到,视觉知识的本质在于差异化表征——正如不同人脸具有独特特征,视觉语义的有效表征关键在于建立不同概念之间的明确边界。MVT v1.0采用CLIP预训练模型提取海量图文特征,通过kmeans算法聚类为百万类别,为图像建立精细化的语义标签体系。这种方法超越了传统batch学习的限制,在图像分类、检索等任务上达到SOTA水平。

然而,单一标签的局限性在MVT v1.1中得到解决。团队发现,人类对事物的认知具有多义性,强制赋予单一标签会导致语义信息的损失。为此,MVT v1.1引入top-k软标签机制,为每张图像分配多个相关标签,显著提升了视觉编码的语义丰富度。这一改进体现了从“硬分类”到“软语义”的思维转变,为后续的区域级学习奠定了基础。

RICE(MVT v1.5)的突破在于对图像构成本质的深刻洞察。团队研究发现,图像信息往往由多个弱关联的视觉元素拼接而成,直接对全图进行监督会忽略局部语义的独立性。这种认知促使团队转向区域级对象学习范式。通过SAM模型对400M图像进行区域搜索,提取出2B个区域级对象,并聚类为百万个语义类别。同时,团队使用PaddleOCR从50M图片中提取400M字符区域,将字符本身作为语义标签,实现了文本与视觉的无缝融合。

技术实现上,RICE的创新体现在Region Attention Layer模块的设计。模型采用经典ViT结构作为Encoder,在最后一层视觉特征图中引入mask机制,提取属于同一对象的视觉特征。完整图片的class embedding作为Query,对区域级视觉特征进行QKV注意力计算,生成Region Class Embedding用于分类损失计算。这种设计使每张图像能够同时学习约10个区域级对象,显著提升了训练效率和语义粒度。

与基于全图语义编码的MVT v1.1相比,RICE在训练过程中实现了视觉特征差异性的有效提升。实验表明,随着训练进行,视觉编码器对图像内部元素的语义表征变得更加丰富和细致。这种区域感知能力使模型能够更好地理解图像的复合语义结构,为下游任务提供更强大的特征支持。

在检测任务验证中,RICE展现了卓越的性能。不仅在COCO和LVIS等经典数据集上表现出色,在包含100种不同场景的Roboflow100检测任务中,RICE与先进视觉基座进行公平比较,在几乎所有指标上获得最佳结果。区域级语义学习的预训练方法使模型在目标检测任务上具有天然优势,能够更准确地定位和识别复杂场景中的对象。

多模态分割任务方面,RICE采用LLaVA系列框架和LISA训练方法,在refCOCO系列所有子集上均实现显著提升。区域级学习使模型能够更好地理解指代表达与视觉区域之间的对应关系,提升了分割的准确性和鲁棒性。

令人惊讶的是,尽管基于图像训练,RICE在视频追踪任务中同样表现优异。其ROPE位置编码方式和跨图像区域级对象聚类方法,使模型能够处理不同尺寸的视频输入,并对不同帧中的相同目标进行持续追踪。在四个视频追踪相关任务中,RICE均取得领先表现,特征可视化显示模型能够有效跟踪跨帧的同类物体。

多模态问答任务成为检验视觉基座能力的试金石。在LLaVA系列主流架构中,使用RICE作为视觉编码器在多个基准测试中获得更好效果。特别值得注意的是,由于预训练方法无缝兼容光学字符识别,基于RICE的多模态模型在OCR相关任务上展现出显著优势。技术报告显示,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比的全开源卓越工作。

RICE的成功揭示了视觉预训练的两个关键原则:首先,差异化语义表征是有效学习的基础,确保不同下游任务能够轻松区分和识别语义信息;其次,图像中的视觉元素往往具有弱关联性,区域级学习能够更完整地表征图像信息。这些洞见不仅推动了当前技术的发展,更为未来研究指明了方向。

展望未来,MVT系列即将开启v2.0视频编码工作。图像仅是对场景的静态捕捉,而视频则是对真实世界的动态记录,蕴含着更丰富的时间维度和上下文信息。视频编码将成为通往AGI之路的重要里程碑,MVT团队将继续沿着差异化语义表征的路线,探索视频时代的新SOTA。视觉预训练技术正从静态理解向动态感知演进,这一转变将深刻影响多模态智能的发展轨迹。
代码地址:https://github.com/deepglint/MVT
论文地址:https://arxiv.org/abs/2507.20025
模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560
— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8892
