空间智能领域迎来里程碑:SenseNova-SI实现全面超越
在空间智能这一前沿研究领域,一项重要进展近日引发行业关注。商汤科技发布的开源模型SenseNova-SI,在多项关键能力评估中超越了李飞飞团队研发的Cambrian-S模型,标志着国产AI技术在该领域取得突破性进展。

从空间感知能力的综合评估数据来看,SenseNova-SI在多个维度上的表现均优于Cambrian-S,形成了全面的能力优势。进一步的技术基准测试显示,无论是开源还是闭源模型,无论是2B还是8B参数规模,SenseNova-SI在主流空间智能基准测试中都取得了当前最优成绩。
技术范式转型:从参数竞赛回归科研本质
商汤科技联合创始人、首席科学家林达华在技术交流中指出,这一进展反映了AI技术发展路径的重要转变。”在空间智能这一关键赛道上,基于长期的技术积累,我们已经达到了国际领先水平。”林达华表示,”但这不仅仅是单一模型的性能超越,更预示着AI技术范式正在经历深刻变革。”
林达华强调,单纯依赖参数规模扩展的技术路径正逐渐显现局限性。随着Scaling Law的边际效应开始递减,AI行业需要重新思考发展方向。”我们正站在技术发展的十字路口,需要从单纯追求参数规模转向回归科研本质。”
商汤科技选择的技术路径是聚焦原生多模态和空间智能的基础研究,致力于实现从语言理解到世界理解的跨越。”这代表着从Words到Worlds的技术迁移,在这一转型过程中,中国科技企业已经建立了重要的技术优势。”林达华补充道。
多模态AI的局限与突破
回顾过去三年的AI发展历程,从ChatGPT到GPT-4的快速演进,行业经历了一段以算力和数据驱动的高速增长期。然而到2024年下半年,技术发展呈现新的特征:虽然模型在基准测试中的分数持续提升,但模型对物理世界的理解能力和复杂逻辑的泛化能力并未实现质的飞跃。
林达华分析指出:”原有的技术路径虽然将模型性能推向了新的高度,但也逐渐触及了天花板。模型分数的提升速度加快,但真正的智能理解能力增长有限。”这一观察与OpenAI前首席科学家Ilya Sutskever提出的”回归研究”理念形成了共鸣。
当前顶尖大语言模型在数学和编程任务上已达到高水平表现,但在理解物理世界、处理三维空间关系方面仍存在明显不足。”未来的通用人工智能不应局限于文本交互,而应具备理解物理世界、整合多感官信息的能力。”林达华表示,”人类的智能本质是多模态的,AI的发展需要从语言理解扩展到世界交互。”
传统多模态架构的技术瓶颈
现有大多数多模态大模型存在显著的技术局限性。林达华举例说明:即便是性能领先的模型,在面对简单视觉任务时也常出现错误判断。例如,当展示人手图片询问手指数量时,模型往往基于先验知识而非实际视觉信息进行回答,即使图片显示的手指数量与常识不符。
类似地,在三维空间理解任务中,多数模型难以准确判断物体从不同视角观察的形态。”这些现象表明,模型并未真正理解视觉信息。”林达华解释道,”传统拼接式架构中,视觉编码器将图像转换为语言模型可处理的Token,但这一过程导致大量空间信息和物理细节丢失。”
在这种架构下,语言模型基于文本先验而非视觉证据进行推理,如同”闭眼学习了十年后突然睁眼看世界”,仍试图用语义概念硬套视觉信息。”模型不是真正理解三维空间关系,而是在进行概率性猜测。”林达华指出,”视觉信号在进入处理流程时就被降维和简化,关键的空间结构和物理规律信息大量流失。”
原生多模态的技术革新
为解决这些根本性挑战,商汤科技提出了全新的技术方案。公司近期开源的NEO架构及其衍生的SenseNova-SI模型,代表了原生多模态研究的重要进展。
林达华阐述了原生多模态的核心理念:”在NEO架构中,我们摒弃了’视觉编码器+语言模型’的拼接模式。从最底层的Transformer模块开始,每个处理单元都能同时处理视觉和语言信号。”
这一架构实现了技术层面的重要创新:视觉Token和文本Token不再按顺序处理或相互翻译,而是共同进入模型的每一层进行处理。商汤科技专门设计的混合注意力机制,使模型能够保持对两种模态信息的同步理解和整合,为真正的多模态智能奠定了基础。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4472
