Bee项目：以数据质量革命重塑全开源多模态大模型格局

2025年11月11日下午12:08 • AI产业动态 • 阅读 405

在人工智能快速发展的浪潮中，多模态大模型（MLLM）已成为连接视觉与语言智能的关键桥梁。然而，长期以来，全开源MLLM的性能始终被闭源和半开源模型所压制，形成了明显的技术壁垒。清华大学与腾讯混元团队联合推出的Bee项目，正是对这一困境的深刻回应。该项目不仅是一个模型，更是一套全栈式、完全开放的解决方案，旨在通过数据质量革命，从根本上拉近开源社区与顶尖模型之间的差距。

当前MLLM领域呈现出清晰的三层结构：顶尖的闭源模型（如Gemini 2.5、GPT-5）占据性能制高点；权重开放但数据私有的半开源模型（如Qwen2.5-VL、InternVL）构成中间层；而性能远远落后的全开源模型则处于底层。这种分层现象背后，隐藏着深刻的技术根源。

Bee团队经过深入研究，发现性能差距的核心瓶颈并非模型结构本身，而在于SFT（监督微调）阶段的数据质量鸿沟。现有开源数据集普遍存在两大顽疾：一是普遍的噪声问题，包括事实错误、图文不匹配、格式混乱和低质量图像；二是复杂推理数据匮乏，极度缺乏高级能力（如长链条思维链CoT）所需的数据支撑。因此，Bee项目明确提出，全开源社区最可行的路径不是盲目追求数据“数量”，而是聚焦于“数据质量”的根本提升。

为了系统性地解决数据质量问题，团队构建了HoneyPipe这一基于DataStudio框架的自动化数据增强流程。该流程的核心价值在于其透明可复现的三阶段增强过程：

第一阶段是噪声与无关性过滤，结合规则过滤（如剔除小尺寸/极端宽高比图像）和模型过滤（使用Qwen2.5-VL-72B等强模型），确保图文的语义一致性。第二阶段是短CoT增强与验证，这是双层CoT策略的基础层，使用先进模型将原始的简短回答扩充为包含明确步骤的“短CoT”响应，并通过“LLM-as-a-Judge”进行保真度验证。第三阶段是长CoT增强循环，针对复杂问题样本，使用顶尖专有MLLM生成深度、多步骤的“长CoT”解题过程。

这套“过滤-循环增强-验证”的精细流程，最终产出了高质量的数据集Honey-Data-15M。该数据集包含1500万精心策划的样本，其核心特征在于双层CoT推理结构：约1220万短CoT样本用于培养模型扎实的基础逻辑和分步推理能力；约270万长CoT样本专为复杂问题设计，要求模型进行更深层次的综合分析和推理。

数据集的来源多样化，策略性地覆盖了7大领域，确保了模型的全面发展：

为了验证Honey-Data-15M的卓越效果，团队开发了Bee-8B模型。该模型采用Qwen3-8B作为LLM基础，SigLIP2-so400m-patch14-384作为视觉编码器，以及一个简单的两层MLP作为投影器。训练过程采用五阶段配方：

第一阶段进行MLP预热，仅训练投影器；第二阶段进行视觉-语言对齐，全参数训练混合数据；第三阶段是关键的多模态SFT，在完整的Honey-Data-15M上进行训练；第四阶段进行高效精炼SFT，在精心挑选的1M高质量子集上进行精调；第五阶段采用策略优化RL，使用GRPO算法提升输出可靠性。

Bee-8B的表现验证了数据质量优先策略的有效性。在数学与推理任务方面，Bee-8B-RL在MathVerse基准上达到67.0分，显著超越InternVL3.5-8B的61.5分；在LogicVista上以61.3分登顶；在DynaMath上以41.3分夺魁。在图表与文档任务方面，Bee-8B-RL在最具挑战性的CharXiv-RQ（图表推理）上获得57.3分，以近12%的优势超越所有对手。在通用VQA任务方面，Bee-8B-RL在MMStar、MMMU-Pro、MMVet和CountBench等多个综合基准上均取得了优秀的SOTA分数。

Bee项目的意义不仅在于技术突破，更在于其方法论创新。它向开源社区证明，通过透明、可复现的方法论优先保证数据质量，是比盲目堆砌数据量更有效的策略。该项目提供的全栈式开源套件，包括Honey-Data-15M数据集、HoneyPipe策管方法论以及SOTA的Bee-8B模型，为全开源MLLM的发展开辟了新的路径。在人工智能民主化的进程中，Bee项目的数据质量革命将产生深远影响，推动整个行业向更加开放、透明和高效的方向发展。

— 图片补充 —