实时交互

  • Streamo:让视频大模型学会“何时说话”,实时流式交互不再卡顿

    当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时,其在真实交互场景中的应用却面临两大核心挑战:如何处理无界的连续视频流,以及如何让模型在动态的视频流中自主决定回答的时机。 近期,香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于:将“何时回答”本身转化为模型需要预测的 token,通过一个端到端的训练框架,将离…

    16小时前
    3100
  • 中国团队突破空间智能核心技术:InSpatio-WorldFM开源实时3D世界模型,开启AI物理交互新纪元

    AI领域最前沿的方向“世界模型”,正在经历一场深刻变革。 互联网上,虚拟智能体在数字世界中灵活穿梭;现实中,具身机器人却仍受困于试验场,难以应对复杂的物理空间。这道横跨虚拟与现实的鸿沟,其核心在于智能体对空间智能感知的缺失。 2024年,空间智能这一关键赛道被正式点燃,成为全球科技竞争的焦点。其中,构建一个拥有永久一致性的3D场景,让智能体不仅能“看见”空间…

    2026年3月6日
    40900
  • 华为天才少年创业:全球首个虚实融合实时交互视频模型X1,让童年幻想“滚球兽”走进现实

    还记得童年的那个愿望吗? 随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。 彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。 而现…

    2026年2月9日
    11200
  • MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命

    空气炸锅“叮”了一声。 我还没反应过来,AI先开口了:“好了,它已经叮了。” 这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5。 手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。 不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。 AI开始竖起耳朵,瞪大眼睛 既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、…

    2026年2月4日
    12200
  • 面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代

    你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…

    2026年2月4日
    21500
  • 蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频

    蚂蚁开源世界模型,为机器人造“元宇宙训练场”。 智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面(来源:Hugging Face) LingBot-Worl…

    2026年1月29日
    18000
  • 蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

    蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果: 通用的世界模型——LingBot-World。 该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…

    2026年1月29日
    35500
  • 对话式AI的情感革命:从文字交互到实时陪伴的万亿产业跃迁

    在人工智能技术快速演进的今天,一段小女孩与AI玩具告别的视频引发了广泛的社会讨论。这看似简单的场景背后,实则揭示了对话式AI技术正在突破传统交互边界,悄然融入人类情感世界的深层变革。当AI不再仅仅是冰冷的工具,而是能够承载情感连接的伙伴时,我们正站在人机关系重塑的历史节点上。 传统AI交互大多停留在“短信时代”的异步模式:用户输入问题,AI输出文字回复。这种…

    2025年11月5日
    18700
  • 美团LongCat-Flash-Omni:全模态实时交互开源模型的架构突破与产业影响

    在AI模型竞争日趋白热化的当下,美团最新开源的LongCat-Flash-Omni模型以“全模态实时交互”为核心卖点,不仅刷新了开源多模态模型的性能基准,更在架构设计层面展现了独特的技术路径。这款总参数560B、激活参数仅27B的MoE架构模型,成功实现了多模态能力与推理效率的平衡,标志着开源大模型在实用化道路上迈出了关键一步。 从性能表现来看,LongCa…

    2025年11月3日
    17500