RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

在计算机视觉领域,预训练基座模型的演进正推动着多模态智能的边界。近日,格灵深瞳公司灵感团队发布的视觉模型基座RICE(MVT v1.5)在ICCV25会议上获得Highlight荣誉,标志着视觉表征学习从全局语义理解向细粒度区域感知的重要转变。这一突破不仅刷新了多项视觉任务榜单,更揭示了视觉预训练技术发展的深层逻辑。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

MVT系列的发展轨迹清晰地展现了视觉预训练理念的迭代过程。从MVT v1.0开始,团队就确立了“margin表征代表语义”的核心观点,这一理念源于格灵深瞳在人脸识别领域的技术积累。团队认识到,视觉知识的本质在于差异化表征——正如不同人脸具有独特特征,视觉语义的有效表征关键在于建立不同概念之间的明确边界。MVT v1.0采用CLIP预训练模型提取海量图文特征,通过kmeans算法聚类为百万类别,为图像建立精细化的语义标签体系。这种方法超越了传统batch学习的限制,在图像分类、检索等任务上达到SOTA水平。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

然而,单一标签的局限性在MVT v1.1中得到解决。团队发现,人类对事物的认知具有多义性,强制赋予单一标签会导致语义信息的损失。为此,MVT v1.1引入top-k软标签机制,为每张图像分配多个相关标签,显著提升了视觉编码的语义丰富度。这一改进体现了从“硬分类”到“软语义”的思维转变,为后续的区域级学习奠定了基础。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE(MVT v1.5)的突破在于对图像构成本质的深刻洞察。团队研究发现,图像信息往往由多个弱关联的视觉元素拼接而成,直接对全图进行监督会忽略局部语义的独立性。这种认知促使团队转向区域级对象学习范式。通过SAM模型对400M图像进行区域搜索,提取出2B个区域级对象,并聚类为百万个语义类别。同时,团队使用PaddleOCR从50M图片中提取400M字符区域,将字符本身作为语义标签,实现了文本与视觉的无缝融合。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

技术实现上,RICE的创新体现在Region Attention Layer模块的设计。模型采用经典ViT结构作为Encoder,在最后一层视觉特征图中引入mask机制,提取属于同一对象的视觉特征。完整图片的class embedding作为Query,对区域级视觉特征进行QKV注意力计算,生成Region Class Embedding用于分类损失计算。这种设计使每张图像能够同时学习约10个区域级对象,显著提升了训练效率和语义粒度。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

与基于全图语义编码的MVT v1.1相比,RICE在训练过程中实现了视觉特征差异性的有效提升。实验表明,随着训练进行,视觉编码器对图像内部元素的语义表征变得更加丰富和细致。这种区域感知能力使模型能够更好地理解图像的复合语义结构,为下游任务提供更强大的特征支持。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

在检测任务验证中,RICE展现了卓越的性能。不仅在COCO和LVIS等经典数据集上表现出色,在包含100种不同场景的Roboflow100检测任务中,RICE与先进视觉基座进行公平比较,在几乎所有指标上获得最佳结果。区域级语义学习的预训练方法使模型在目标检测任务上具有天然优势,能够更准确地定位和识别复杂场景中的对象。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

多模态分割任务方面,RICE采用LLaVA系列框架和LISA训练方法,在refCOCO系列所有子集上均实现显著提升。区域级学习使模型能够更好地理解指代表达与视觉区域之间的对应关系,提升了分割的准确性和鲁棒性。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

令人惊讶的是,尽管基于图像训练,RICE在视频追踪任务中同样表现优异。其ROPE位置编码方式和跨图像区域级对象聚类方法,使模型能够处理不同尺寸的视频输入,并对不同帧中的相同目标进行持续追踪。在四个视频追踪相关任务中,RICE均取得领先表现,特征可视化显示模型能够有效跟踪跨帧的同类物体。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

多模态问答任务成为检验视觉基座能力的试金石。在LLaVA系列主流架构中,使用RICE作为视觉编码器在多个基准测试中获得更好效果。特别值得注意的是,由于预训练方法无缝兼容光学字符识别,基于RICE的多模态模型在OCR相关任务上展现出显著优势。技术报告显示,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比的全开源卓越工作。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

RICE的成功揭示了视觉预训练的两个关键原则:首先,差异化语义表征是有效学习的基础,确保不同下游任务能够轻松区分和识别语义信息;其次,图像中的视觉元素往往具有弱关联性,区域级学习能够更完整地表征图像信息。这些洞见不仅推动了当前技术的发展,更为未来研究指明了方向。

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

展望未来,MVT系列即将开启v2.0视频编码工作。图像仅是对场景的静态捕捉,而视频则是对真实世界的动态记录,蕴含着更丰富的时间维度和上下文信息。视频编码将成为通往AGI之路的重要里程碑,MVT团队将继续沿着差异化语义表征的路线,探索视频时代的新SOTA。视觉预训练技术正从静态理解向动态感知演进,这一转变将深刻影响多模态智能的发展轨迹。

代码地址:https://github.com/deepglint/MVT

论文地址:https://arxiv.org/abs/2507.20025

模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

— 图片补充 —

RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8892

(0)
上一篇 2025年10月29日 下午2:55
下一篇 2025年10月29日 下午5:07

相关推荐

  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    100
  • ChatGPT Pro广告风波:OpenAI商业化迷途与AI产品伦理边界

    12月1日,ChatGPT Pro用户群体爆发集体不满,标志着OpenAI商业化策略与用户体验之间首次公开化的激烈冲突。这一事件不仅揭示了AI产品在盈利压力下的伦理困境,更折射出整个生成式AI行业从技术探索向商业变现转型的阵痛。 事件的核心矛盾在于:月费200美元的顶级订阅服务ChatGPT Pro,在用户毫无预警的情况下,界面突然弹出“Find a fit…

    2025年12月3日
    200
  • 突破硬件限制:异步采集与视频扩散模型协同实现低成本高速4D重建

    在三维视觉领域,捕捉高速动态场景并将其转化为可供分析、交互的数字化4D时空一直是个技术难题。无论是影视制作中需要捕捉的瞬间动作细节,还是虚拟现实应用中用户期望的沉浸式交互体验,都对高速4D重建技术提出了迫切需求。然而,传统方法面临硬件成本高昂、数据通量巨大等瓶颈,难以实现大规模应用。 当前4D采集技术主要面临两大挑战。硬件方面,传统高速摄影需要120FPS甚…

    5天前
    500
  • 无需重训的视觉革命:PH-Reg自蒸馏框架如何高效消除ViT密集特征伪影

    在计算机视觉领域,Vision Transformers(ViTs)凭借其强大的全局建模能力,已成为图像分类、目标检测等任务的主流架构。然而,近期研究发现,ViT模型在生成密集特征图时,会出现与局部语义不一致的伪影(artifact),这些伪影会严重削弱模型在语义分割、深度估计等需要高空间精度的下游任务中的性能表现。传统解决方案通常需要在模型架构中引入reg…

    2025年11月19日
    200
  • AgentFS:基于SQLite的AI智能体状态管理革命,单文件封装完整运行时

    在AI智能体(Agent)系统快速发展的当下,状态管理、审计追踪和合规性保障成为制约其规模化应用的关键技术瓶颈。传统解决方案往往依赖复杂的分布式数据库或云存储服务,不仅增加了系统架构的复杂性,还带来了性能开销、数据迁移困难和平台依赖等问题。近日,由Pekka Enberg与Turso数据库的Glenn Snelling合作开发的AgentFS项目,为这一领域…

    2025年11月6日
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注