豆包AI现场激辩罗永浩：实时语音大模型通过“人机舌战”极限公测

罗永浩的年度科技创新分享大会，刷屏全网。

复盘整场四个多小时的直播，观众集体回味讨论的焦点似乎就两个：

第一，不知是因为迟到了40多分钟，还是提前就有谋划，罗永浩现场宣布给所有购票观众退票。

第二，罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点，火爆出圈。

光看二位的辩题，就已火药味十足——关于锤子手机是否好用。一方，是锤子科技创始人罗永浩，立场鲜明地为自己的昔日作品辩护“锤子手机做得挺好的”。另一方，则是AI豆包，手持数据与用户体验，冷静反驳“锤子手机做得不怎么样”。

整场交锋金句频出、逻辑对冲，掌声与笑声不断，被网友调侃为“老罗科技春晚上最搞笑名场面”。

老罗也现场直言：“现在如果是辩论或吵架，我试过的所有大模型产品里，豆包是最厉害的”、“跟它吵架能吵出心流来”。

这场辩论，表面上是二人的斗嘴，实质上，却是在数百万观众注视下，对新一代实时交互AI能力进行的一次极限公测。

下面，我们就回到现场，拆解每一个精彩回合。

现场复盘：拆解豆包如何“接招”与“出招”

老罗一句“你准备好了吗”话音刚落，豆包几乎是零延迟响应。

最开始，豆包语气还算轻松，抛出一句：“我觉得锤子手机可能不算成功吧”。但这句试探性的开场，立刻被老罗抓住逻辑漏洞，强势打断：“我没说成功，我是说做得好…它倒闭了我们都知道的。”

老罗的打断，带着明确的辩论策略与轻微的情绪施压。

而豆包的反应不仅迅速，其情绪承接和控制能力也立刻显现，声调中带上了更具对抗性的“生气”色彩，反驳道：“那好的标准总不能只看设计吧？它的硬件品控出过不少问题。”

老罗再次插话，称锤子手机不仅是设计做得好，人机交互也非常好，有一些创新还被各大手机厂商借鉴了。

豆包完全没有被带偏，它在理解老罗逻辑的同时，精准记住了此前“品控”的论述，并以此为基础进行组合打击，抛出一通吐槽：

就算有些交互被借鉴，也不代表产品整体好啊。

你看它的TNT工作站定价高还得依赖手机，实际体验根本没达到预期，这不就是华而不实吗？

眼看豆包句句犀利，老罗也是破防，称其“就挺讨厌的”。

接下来，老罗直接上花招，要求豆包“每句话加一个OK”。

作为一个AI，对于用户指令，豆包自然是遵循的。在阴阳怪气这一块，豆包也拿捏了，老罗差点笑出声。

但老罗显然没玩够，毫不留情地吐槽豆包每句都加OK太死板，要求它一句夹OK，一句不夹，这样就更像人了。

豆包则很有人情味地说了一句“行吧那我调整一下”，像极了无奈的真·打工人…然后一秒切换状态，继续开大：

锤子的交互创新是有，但不能掩盖硬伤啊，比如续航和发热问题，当年很多用户吐槽过的，这对手机来说很影响体验的OK。而且它的生态一直没做起来，很多功能的实用性其实打折扣的。就算有亮点，也得综合看整体表现吧OK？

老罗眼看自己处于下风，又开始“开骂”：“你用过吗？你就在那儿振振有词的，你怎么用，你也没有手”。

（这部分高能片段对应以下视频2:40-3:40）

豆包气势上却一点不输，表示自己看了大量用户反馈和评测，是有依据的。

有意思的是，当老罗追问数据评测来源是什么时，豆包脱口而出“ZEALER”，老罗当场暴跳。众所周知，2014年ZEALER与罗永浩围绕锤子手机的直播辩论，被称为“世纪约架”。

现场观众也炸了，老罗只能挑刺，说豆包忘了加OK了。

这背后，体现了豆包对复杂问题和隐含意图的深刻理解，以及将知识库信息迅速组织成有力论据的能力。

最后，老罗问豆包是不是训练过情绪，豆包则回答“没有真正的情绪啦，只是在根据你的话调整表达”。

这话确实也没毛病。而且豆包意识到了话题跑偏，多次试图将话题引回到辩题，其多轮长上下文理解能力可见一斑。

看完整场PK，现场效果精彩纷呈。但仔细一想，豆包终究是个AI，能和一个以“能说会道”著称的人类在公开直播中辩论而不翻车，这背后没有足够硬的技术是做不到的。

豆包为何如此厉害？

豆包的实时语音交互能力，一度被视作国内AI语音赛道“独一份”的存在。支撑起这种亮眼表现的，正是背后的豆包端到端实时语音模型。该模型自发布初代版本以来，团队已进行了多轮迭代与优化，主要提升包括以下几个维度：

多轮长上下文理解能力显著增强：在多轮、快速、话题跳跃的辩论中，豆包能始终紧扣主线，精准回溯历史论点，这直接体现了模型在长程记忆与逻辑关联上的进步。
智商、情商拟人表现大幅提升：豆包不仅能进行逻辑反驳，更能根据对话氛围和对方的情绪调整策略，交互智商大幅超过之前的版本。
指令遵循的深度和稳定性进一步提升：能在交互过程中坚持人设和指令要求，具有深度可定制性。
更好的情绪承接和控制能力：正如老罗察觉到的，豆包能根据用户的语气和内容，实时调整自己的表达情绪。
更极致的低延迟：端到端的响应速度无限逼近真人对话节奏。

总之，豆包并非仅仅在“文本对话”能力上进行了升级，而是通过底层架构的创新，在实时性、拟人性、可控性这三个维度上构建了综合优势。

与老罗的辩论，正是这套系统在极限场景下的一次公开测试。

目前，豆包APP已上线老罗同款功能“一辩高下”。打开豆包APP，点选“打电话-选择情景-一辩高下”，即可体验同款辩论搭子。此外，这一模型版本也即将在火山引擎上线API。

大型现场直播版图灵测试

回看这场“人机舌战”，它清晰地标记了一个重要节点：实时交互式AI的能力，已经抵达了可以进入实战应用的关键阶段。

过去的语音助手是“指令-响应”工具，本质是功能映射。而现在以豆包为代表的AI，展现出了“意图-理解-博弈-共识”的认知对齐能力。AI正在从被动执行的工具，演进为能够与人类展开更深度、复杂互动的“对话型伙伴”。

与此同时，评估AI能力的方式或许也正在被重新定义。实验室的基准测试已然不够用，真正的考验来自于更复杂的现实场景。像这场辩论，模糊的立场、隐含的价值判断、设陷式的逻辑追问，以及持续施加的情绪压力，构成了一种没有标准答案、只有博弈策略的开放式“压力测试”。

这种能力的突破，意味着更多实际应用场景将成为可能。在客服领域，AI将能处理更复杂的投诉和协商；在教育场景中，它可以成为更有挑战性的对话伙伴；在个人助理方面，它能理解更模糊的意图并管理多步骤任务。更重要的是，这种实时、自然的交互方式，将让人机协作变得更加顺畅。

豆包与老罗的这一战，或许就是这个时代的“大型现场直播版图灵测试”。在人类引以为傲的复杂实时思维博弈领域，AI展现了足以匹配、甚至在某些维度上超越人类的交互深度与逻辑韧性。

老罗在直播中还提到，对于那些一出门吵架就不会吵，回家之后才想起来“哎呀，我要那么吵就好了”的人，就需要有个人一起练。这简直就在演我，这就和豆包对吵去。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16615

豆包AI现场激辩罗永浩：实时语音大模型通过“人机舌战”极限公测

豆包AI现场激辩罗永浩：实时语音大模型通过“人机舌战”极限公测

现场复盘：拆解豆包如何“接招”与“出招”

豆包为何如此厉害？

大型现场直播版图灵测试

相关推荐

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

GPT-5.1-high深度评测：推理能力飙升10%，但成本暴涨5.6倍，性价比失衡引争议

MiniMax-M2.1实测：性能提升4%但响应时间翻倍，成本增加21.6%的深度评测

智谱GLM-4.7深度评测：Agentic Coding新标杆还是仍有短板？

SWE-Bench：从1.96%到72.8%，AI编程能力的革命性突破与未来展望