在人工智能快速发展的浪潮中,多模态大模型(MLLM)已成为连接视觉与语言智能的关键桥梁。然而,长期以来,全开源MLLM的性能始终被闭源和半开源模型所压制,形成了明显的技术壁垒。清华大学与腾讯混元团队联合推出的Bee项目,正是对这一困境的深刻回应。该项目不仅是一个模型,更是一套全栈式、完全开放的解决方案,旨在通过数据质量革命,从根本上拉近开源社区与顶尖模型之间的差距。

当前MLLM领域呈现出清晰的三层结构:顶尖的闭源模型(如Gemini 2.5、GPT-5)占据性能制高点;权重开放但数据私有的半开源模型(如Qwen2.5-VL、InternVL)构成中间层;而性能远远落后的全开源模型则处于底层。这种分层现象背后,隐藏着深刻的技术根源。

Bee团队经过深入研究,发现性能差距的核心瓶颈并非模型结构本身,而在于SFT(监督微调)阶段的数据质量鸿沟。现有开源数据集普遍存在两大顽疾:一是普遍的噪声问题,包括事实错误、图文不匹配、格式混乱和低质量图像;二是复杂推理数据匮乏,极度缺乏高级能力(如长链条思维链CoT)所需的数据支撑。因此,Bee项目明确提出,全开源社区最可行的路径不是盲目追求数据“数量”,而是聚焦于“数据质量”的根本提升。
为了系统性地解决数据质量问题,团队构建了HoneyPipe这一基于DataStudio框架的自动化数据增强流程。该流程的核心价值在于其透明可复现的三阶段增强过程:

第一阶段是噪声与无关性过滤,结合规则过滤(如剔除小尺寸/极端宽高比图像)和模型过滤(使用Qwen2.5-VL-72B等强模型),确保图文的语义一致性。第二阶段是短CoT增强与验证,这是双层CoT策略的基础层,使用先进模型将原始的简短回答扩充为包含明确步骤的“短CoT”响应,并通过“LLM-as-a-Judge”进行保真度验证。第三阶段是长CoT增强循环,针对复杂问题样本,使用顶尖专有MLLM生成深度、多步骤的“长CoT”解题过程。
这套“过滤-循环增强-验证”的精细流程,最终产出了高质量的数据集Honey-Data-15M。该数据集包含1500万精心策划的样本,其核心特征在于双层CoT推理结构:约1220万短CoT样本用于培养模型扎实的基础逻辑和分步推理能力;约270万长CoT样本专为复杂问题设计,要求模型进行更深层次的综合分析和推理。

数据集的来源多样化,策略性地覆盖了7大领域,确保了模型的全面发展:

为了验证Honey-Data-15M的卓越效果,团队开发了Bee-8B模型。该模型采用Qwen3-8B作为LLM基础,SigLIP2-so400m-patch14-384作为视觉编码器,以及一个简单的两层MLP作为投影器。训练过程采用五阶段配方:

第一阶段进行MLP预热,仅训练投影器;第二阶段进行视觉-语言对齐,全参数训练混合数据;第三阶段是关键的多模态SFT,在完整的Honey-Data-15M上进行训练;第四阶段进行高效精炼SFT,在精心挑选的1M高质量子集上进行精调;第五阶段采用策略优化RL,使用GRPO算法提升输出可靠性。

Bee-8B的表现验证了数据质量优先策略的有效性。在数学与推理任务方面,Bee-8B-RL在MathVerse基准上达到67.0分,显著超越InternVL3.5-8B的61.5分;在LogicVista上以61.3分登顶;在DynaMath上以41.3分夺魁。在图表与文档任务方面,Bee-8B-RL在最具挑战性的CharXiv-RQ(图表推理)上获得57.3分,以近12%的优势超越所有对手。在通用VQA任务方面,Bee-8B-RL在MMStar、MMMU-Pro、MMVet和CountBench等多个综合基准上均取得了优秀的SOTA分数。
Bee项目的意义不仅在于技术突破,更在于其方法论创新。它向开源社区证明,通过透明、可复现的方法论优先保证数据质量,是比盲目堆砌数据量更有效的策略。该项目提供的全栈式开源套件,包括Honey-Data-15M数据集、HoneyPipe策管方法论以及SOTA的Bee-8B模型,为全开源MLLM的发展开辟了新的路径。在人工智能民主化的进程中,Bee项目的数据质量革命将产生深远影响,推动整个行业向更加开放、透明和高效的方向发展。
— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7692
