全模态大模型
-
面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代
你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…
-
FysicsWorld:全球首个物理世界全模态评测基准,开启AI感知真实环境新纪元
近年来,多模态大语言模型正经历快速的范式转变,研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容,更要将视觉理解与生成整合进统一架构,实现模态间的协同交互。 这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来,正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…
-
RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代
复旦大学、上海创智学院与新加坡国立大学联合推出的全模态端到端操作大模型RoboOmni,标志着机器人交互范式从被动执行向主动服务的根本性转变。该模型通过统一视觉、文本、听觉与动作模态,实现了动作生成与语音交互的协同控制,并开源了140K条语音-视觉-文字“情境指令”真机操作数据集,为具身智能领域提供了重要的技术突破和数据资源。 在传统机器人交互中,系统通常依…