AI考古新突破：北大发布全球首个古希腊陶罐3D视觉问答数据集VaseVQA-3D与专用模型VaseVLM

2025年11月6日下午9:06 • AI产业动态 • 阅读 358

在人工智能技术不断渗透各专业领域的今天，文化遗产保护与考古研究迎来了革命性的工具。北京大学研究团队近日发布了全球首个面向古希腊陶罐的3D视觉问答数据集VaseVQA-3D，并配套推出了专用视觉语言模型VaseVLM，标志着AI技术正式从通用图像识别迈向专业化、结构化的文化遗产理解新阶段。

传统视觉语言模型（VLM）如GPT-4V、Gemini等在开放域视觉理解方面表现出色，能够准确描述日常场景中的物体与活动。然而，当面对文化遗产这类高度专业化对象时，这些通用模型往往显得力不从心。古希腊陶罐作为西方文明的重要物质载体，其纹饰、器形、制作工艺与文化背景构成了复杂的语义体系，需要深厚的专业知识才能准确解读。现有模型受限于训练数据的领域覆盖不足，难以理解陶罐的时代特征、艺术风格与技术细节，导致在文化遗产应用场景中几乎“失效”。

北京大学团队针对这一技术瓶颈，提出了系统性解决方案。研究指出，高质量、结构化的专业数据是突破AI文化遗产理解障碍的关键。为此，团队构建了VaseVQA-3D数据集，这一创新成果不仅填补了3D文化遗产AI数据集的空白，更为视觉语言模型在专业领域的应用提供了标准化基准。

数据集的构建过程体现了严谨的学术态度与技术创新。团队首先从现有资源中收集了3万多张古希腊陶器的2D照片，通过三重筛选机制确保数据质量：ResNet-50模型进行图像质量检测，剔除模糊与残缺图像；CLIP模型进行语义过滤，区分“碎片”与“完整器物”；多视角选优算法自动挑选最佳视角图像。经过这一流程，最终保留了3880张高质量图像作为基础素材。

更为关键的技术突破在于2D到3D的转换过程。团队采用TripoSG技术将筛选后的2D图像转换为664个高保真GLB格式3D模型，这些模型能够实现360度旋转观察，模拟真实考古研究中的器物检视体验。为了保证3D模型的质量，团队专门选取了24个高质量3D陶器作为标准样板，建立了严格的质量检验流程。

数据标注环节同样体现了创新思维。团队利用GPT-4o生成考古专业问答对，最终形成了4460组“问题-答案”数据，涵盖陶罐的六大核心属性：材质、工艺、形制、年代、装饰、归属。每个3D模型还配备了详细的文字描述，形成了完整的语义标注体系。这一数据集不仅规模可观，更重要的是其结构化、多维度的特性，为模型训练提供了丰富的监督信号。

基于这一高质量数据集，团队进一步开发了专用视觉语言模型VaseVLM。该模型以Qwen2.5-VL为基底，通过两阶段强化训练策略实现专业化能力提升。第一阶段采用监督微调（SFT），使用360度旋转视频与考古描述训练模型的基础识别能力；第二阶段引入强化学习与可验证奖励机制（RLVR），将考古知识拆分为六个语义维度，模型在每个维度上的回答都会获得相应的奖励反馈。这种训练方式使VaseVLM能够像专业考古学家一样，从多个维度综合分析陶罐特征，输出符合学术标准的描述与判断。

在性能评估方面，VaseVLM在多项Vase-3D视觉问答任务上表现卓越。相比现有最强基线模型，VaseVLM在R@1准确率上提升了12.8%，词汇相似度提升了6.6%。更为重要的是，在10位考古专家的人工评分中，VaseVLM生成的描述平均得分达到4.57/5分，显著优于通用大模型。这一结果表明，专用模型在文化遗产领域的专业性与准确性方面具有明显优势。

VaseVQA-3D数据集与VaseVLM模型的发布具有多重意义。从技术层面看，它展示了AI在专业领域应用的可行路径：通过构建高质量领域数据集、设计专业化训练策略，通用模型可以转化为领域专家。从文化遗产保护角度看，这一技术为数字考古提供了全新工具，能够辅助研究人员快速分析大量文物数据，提高研究效率。从教育传播角度，3D可视化与智能问答结合，为公众理解文化遗产提供了沉浸式、互动式的新体验。

展望未来，该项目计划将技术框架拓展到更多文化遗产领域，建立更完善的数字遗产展示与理解体系。随着数据集的不断丰富与模型的持续优化，AI有望成为文化遗产保护与研究的重要助力，推动考古学进入智能化新时代。