实时交互 - 鲸林向海

Thinking Machines Lab发布首个交互模型TML-Interaction-Small，彻底打破人机一问一答模式

从iPhone 4S时代起，人机交互就一直停留在单轮“你问我答”的模式。即便在智能体技术如此成熟的今天，这种局面仍未改变。为何与机器的对话始终是一问一答，无法像人与人交流那样自然流畅？当前业界的主流做法，仍然是在传统的基于轮次（turn-based）的大模型外层，套上一个VAD（语音活动检测）外壳，强行将其塞入实时交互的场景中。就在刚刚，备受瞩目的Th…

12小时前

92000

AI产品库

OpenAI前CTO创企发布实时交互模型：200ms微回合，让AI边听边说边想

AI交互告别“回合制”：200ms微回合，让模型边听边说边思考 AI的交互方式终于突破了“回合制”的桎梏。 Thinking Machines Lab（以下简称 TML）近日发布了其首个模型，将实时交互能力直接嵌入模型的原生架构中。联合创始人翁荔亲自出镜演示，展示了这一颠覆性的变化：从传统的“人说完→AI答→人再说→AI再答”，进化为“人和AI可以随时插话…

17小时前

124000

AI产业动态

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

近期，世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH（Alibaba Token Hub）事业群，正式发布了其首个主动式实时交互世界模型产品——HappyOyster（快乐生蚝）。据官方介绍，HappyOyster基于原生多模态架构，是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开：漫游（Wander）、导演（Dir…

2026年4月17日

663000

大模型工程

Streamo：让视频大模型学会“何时说话”，实时流式交互不再卡顿

当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时，其在真实交互场景中的应用却面临两大核心挑战：如何处理无界的连续视频流，以及如何让模型在动态的视频流中自主决定回答的时机。近期，香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于：将“何时回答”本身转化为模型需要预测的 token，通过一个端到端的训练框架，将离…

2026年3月19日

430000

开源项目

中国团队突破空间智能核心技术：InSpatio-WorldFM开源实时3D世界模型，开启AI物理交互新纪元

AI领域最前沿的方向“世界模型”，正在经历一场深刻变革。互联网上，虚拟智能体在数字世界中灵活穿梭；现实中，具身机器人却仍受困于试验场，难以应对复杂的物理空间。这道横跨虚拟与现实的鸿沟，其核心在于智能体对空间智能感知的缺失。 2024年，空间智能这一关键赛道被正式点燃，成为全球科技竞争的焦点。其中，构建一个拥有永久一致性的3D场景，让智能体不仅能“看见”空间…

2026年3月6日

1.1K000

AI产业动态

华为天才少年创业：全球首个虚实融合实时交互视频模型X1，让童年幻想“滚球兽”走进现实

还记得童年的那个愿望吗？随着《数码宝贝》进化曲的响起，屏幕前的你我或许都曾幻想过：要是那只从数码蛋中破壳而出的滚球兽，真的可以从电视屏幕那端跳出来，就好了。彼时，我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来，增强现实（AR）技术曾一度带来了希望，但几经潮起潮落，结果仍停留在「预先制作的内容叠加」层面，数字角色无法真正感知环境。而现…

2026年2月9日

460000

AI产业动态

MiniCPM-o4.5：全模态AI实现边看边听边说的实时交互革命

空气炸锅“叮”了一声。我还没反应过来，AI先开口了：“好了，它已经叮了。” 这不是语音助手升级，而是面壁智能刚开源的全模态模型MiniCPM-o4.5。手机往厨房一放，它能一边跟你说话，一边盯着灶台、听动静。不再是“你问一句、它答一句”，而是边看、边听、主动说的AI。 AI开始竖起耳朵，瞪大眼睛既然这AI这么能盯，还能提醒，那是不是干脆给它挂在教室、…

2026年2月4日

366000

AI产业动态

面壁开源全双工全模态大模型MiniCPM-o 4.5：9B参数实现“活人感”交互，开启人机对话新时代

你有没有想过一个问题：为什么和 AI 对话，总觉得少了点「人味儿」？不是它回答得不够准确，也不是它理解不了你的意思，而是每次交互都很机械。你问一句，等它答完，然后突然画面一转，它对现实世界的观察仿佛瞬间「掉线」。那几秒里，AI 仿佛顺手关掉了眼睛和耳朵，陷入一种「间歇性失明失聪」的状态，根本不能根据眼前瞬息万变的画面实时调整自己的反应。这种感觉，就像两个…

2026年2月4日

907000

AI产业动态

蚂蚁开源LingBot-World世界模型：挑战谷歌Genie 3，一张图生成10分钟稳定交互视频

蚂蚁开源世界模型，为机器人造“元宇宙训练场”。智东西1月29日报道，蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面（来源：Hugging Face） LingBot-Worl…

2026年1月29日

344000

AI产业动态

蚂蚁灵波开源世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3

蚂蚁灵波开源通用世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3 在连续开源机器人的眼睛（LingBot-Depth）与大脑（LingBot-VLA）之后，蚂蚁灵波（Ant LingBot）团队再次发布了一项重要成果：通用的世界模型——LingBot-World。该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…

2026年1月29日

711000