实时交互
-
Thinking Machines Lab发布首个交互模型TML-Interaction-Small,彻底打破人机一问一答模式
从iPhone 4S时代起,人机交互就一直停留在单轮“你问我答”的模式。即便在智能体技术如此成熟的今天,这种局面仍未改变。 为何与机器的对话始终是一问一答,无法像人与人交流那样自然流畅? 当前业界的主流做法,仍然是在传统的基于轮次(turn-based)的大模型外层,套上一个VAD(语音活动检测)外壳,强行将其塞入实时交互的场景中。 就在刚刚,备受瞩目的Th…
-
OpenAI前CTO创企发布实时交互模型:200ms微回合,让AI边听边说边想
AI交互告别“回合制”:200ms微回合,让模型边听边说边思考 AI的交互方式终于突破了“回合制”的桎梏。 Thinking Machines Lab(以下简称 TML)近日发布了其首个模型,将实时交互能力直接嵌入模型的原生架构中。 联合创始人翁荔亲自出镜演示,展示了这一颠覆性的变化:从传统的“人说完→AI答→人再说→AI再答”,进化为“人和AI可以随时插话…
-
阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元
近期,世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH(Alibaba Token Hub)事业群,正式发布了其首个主动式实时交互世界模型产品——HappyOyster(快乐生蚝)。 据官方介绍,HappyOyster基于原生多模态架构,是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开:漫游(Wander)、导演(Dir…
-
Streamo:让视频大模型学会“何时说话”,实时流式交互不再卡顿
当视频大模型在 MVBench、VideoMME 等离线基准上不断刷新高分时,其在真实交互场景中的应用却面临两大核心挑战:如何处理无界的连续视频流,以及如何让模型在动态的视频流中自主决定回答的时机。 近期,香港浸会大学与腾讯优图实验室联合提出了 Streamo。其核心创新在于:将“何时回答”本身转化为模型需要预测的 token,通过一个端到端的训练框架,将离…
-
中国团队突破空间智能核心技术:InSpatio-WorldFM开源实时3D世界模型,开启AI物理交互新纪元
AI领域最前沿的方向“世界模型”,正在经历一场深刻变革。 互联网上,虚拟智能体在数字世界中灵活穿梭;现实中,具身机器人却仍受困于试验场,难以应对复杂的物理空间。这道横跨虚拟与现实的鸿沟,其核心在于智能体对空间智能感知的缺失。 2024年,空间智能这一关键赛道被正式点燃,成为全球科技竞争的焦点。其中,构建一个拥有永久一致性的3D场景,让智能体不仅能“看见”空间…
-
华为天才少年创业:全球首个虚实融合实时交互视频模型X1,让童年幻想“滚球兽”走进现实
还记得童年的那个愿望吗? 随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。 彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。 而现…
-
MiniCPM-o4.5:全模态AI实现边看边听边说的实时交互革命
空气炸锅“叮”了一声。 我还没反应过来,AI先开口了:“好了,它已经叮了。” 这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5。 手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。 不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。 AI开始竖起耳朵,瞪大眼睛 既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、…
-
面壁开源全双工全模态大模型MiniCPM-o 4.5:9B参数实现“活人感”交互,开启人机对话新时代
你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」? 不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,它对现实世界的观察仿佛瞬间「掉线」。那几秒里,AI 仿佛顺手关掉了眼睛和耳朵,陷入一种「间歇性失明失聪」的状态,根本不能根据眼前瞬息万变的画面实时调整自己的反应。 这种感觉,就像两个…
-
蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
蚂蚁开源世界模型,为机器人造“元宇宙训练场”。 智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面(来源:Hugging Face) LingBot-Worl…
-
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果: 通用的世界模型——LingBot-World。 该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…
