开源AI
-
AI前沿速递:美团LongCat与Moonshot Kimi-K2引领多模态与思考模型新突破
11月3日 【开源】 美团发布 LongCat-Flash-Omni-FP8,这是一个拥有 5600 亿参数(激活 270 亿)的开源全模态模型,专精于实时音视频交互。该模型采用高性能捷径连接混合专家(MoE)架构,并整合了零计算专家、高效的多模态感知模块与语音重建模块。通过课程启发式渐进训练策略,它在保持强大单模态能力的同时,实现了全面的多模态理解与生成能…
-
Emu3.5:原生多模态世界模型的突破与全场景应用解析
Emu3.5是由北京智源研究院最新发布的大规模多模态世界模型,其核心创新在于原生支持视觉与语言的联合状态预测。该模型采用统一的下一token预测目标进行端到端预训练,训练数据规模超过10万亿token,主要来源于互联网视频的连续帧及其转录文本,这为模型理解动态视觉序列与语言描述的关联性奠定了坚实基础。 模型架构设计上,Emu3.5天然接受交错的视觉-语言输入…