开源AI

  • Emu3.5:原生多模态世界模型的突破与全场景应用解析

    Emu3.5是由北京智源研究院最新发布的大规模多模态世界模型,其核心创新在于原生支持视觉与语言的联合状态预测。该模型采用统一的下一token预测目标进行端到端预训练,训练数据规模超过10万亿token,主要来源于互联网视频的连续帧及其转录文本,这为模型理解动态视觉序列与语言描述的关联性奠定了坚实基础。 模型架构设计上,Emu3.5天然接受交错的视觉-语言输入…

    2025年11月1日
    400