Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

在人工智能语音合成领域,一场基于架构创新的技术竞赛正在悄然展开。近日,语音AI公司Cartesia宣布完成1亿美元B轮融资,英伟达作为投资方赫然在列。与此同时,该公司发布了新一代语音模型Sonic-3,凭借状态空间模型(SSM)架构实现了前所未有的类人情感表达能力。这一系列动作不仅标志着语音AI技术路线的多元化发展,更预示着实时交互语音应用即将迎来新的突破。

Cartesia的发展轨迹堪称硅谷技术创业的典范案例。公司创始团队清一色来自斯坦福AI实验室,这种学术背景为其技术路线选择奠定了坚实基础。与当前主流语音AI普遍采用的Transformer架构不同,Cartesia从一开始就瞄准了状态空间模型(SSM)在实时语音生成领域的应用潜力。这种前瞻性的技术选择,使得公司在成立仅两年后就获得了种子轮融资,并于同年推出了首款核心产品Sonic语音模型。

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

技术架构的差异决定了产品性能的边界。传统Transformer在处理语音生成任务时,需要反复遍历对话历史,这种“回放式”处理机制在多轮对话场景下容易产生延迟和卡顿。而SSM架构模拟了人类大脑的思维模式,能够持续感知上下文和对话氛围,无需每句话都从头开始处理。这种架构优势在Sonic-3中得到了充分体现:模型延迟仅90毫秒,端到端响应时间190毫秒,成为当前速度最快的语音生成系统之一。更重要的是,SSM的持续状态保持能力,使得模型能够更自然地处理对话中的情感连贯性。

从产品迭代节奏来看,Cartesia展现了惊人的执行效率。今年3月完成6400万美元A轮融资并发布Sonic-2.0后,仅半年时间就推进到B轮融资和Sonic-3的发布。这种“技术研发与商业拓展并行”的发展模式,在竞争激烈的大模型领域显得尤为难得。Sonic-3相较于前代产品的最大突破在于情感表达的细腻度——模型不仅能够准确捕捉语言中的情绪波动,还能自然地表达笑声、语气起伏等微妙的情感变化,这在语音AI的情感合成领域具有里程碑意义。

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

创始团队的技术背景是Cartesia能够快速崛起的关键因素。CEO Karan Goel的成长轨迹颇具传奇色彩:从印度理工学院德里分校到卡内基梅隆大学,再到斯坦福AI实验室师从AI教父Chris Ré,这条技术精英的成长路径为其创业奠定了坚实基础。在校期间,Karan Goel就与现任首席科学家Albert Gu等团队成员在SSM领域进行深入研究,相关论文成果直接转化为公司的核心技术。Albert Gu作为Mamba架构的共同发明人之一,其技术专长为Cartesia的产品开发提供了重要支撑。

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

从行业竞争格局来看,语音AI正在成为大模型商业化落地的重要突破口。与文本生成模型相比,语音合成技术在用户体验、应用场景等方面具有更直接的感知价值。Cartesia选择SSM架构而非跟随Transformer主流,这种差异化竞争策略在技术同质化严重的当下显得尤为明智。SSM在长序列处理、实时响应等方面的优势,恰好契合了语音交互对低延迟、高自然度的要求。

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

值得注意的是,语音AI赛道的竞争正在全球范围内加速。就在Cartesia发布新品的同一天,国内AI公司MiniMax也推出了语音模型MiniMax Speech 2.6,将响应延迟压缩到250ms以内,支持40多种语言和口音。这种技术指标的快速提升,反映出语音AI领域正在进入性能竞赛的新阶段。不同技术路线的并行发展,将为整个行业带来更多创新可能性。

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

从商业化前景分析,语音AI的变现能力在大模型细分领域中表现突出。实时语音合成在客服、教育、娱乐、智能助手等场景具有广泛的应用空间,而情感表达能力的提升将进一步拓展其在虚拟偶像、有声内容创作等领域的应用深度。Cartesia获得英伟达的投资,也预示着硬件厂商开始关注特定架构的优化机会,这可能为SSM生态的发展注入新的动力。

技术创新的价值最终需要通过产品体验来验证。Sonic-3在情感表达方面的突破,不仅仅是技术参数的提升,更是人机交互自然度的重要进步。当AI能够理解并表达微妙的情感变化时,语音交互的边界将被重新定义。这种进步对于构建真正智能的对话系统具有重要意义。

Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

展望未来,语音AI的发展将呈现技术多元化、应用场景细分化、商业化加速化三大趋势。Cartesia的成功案例表明,在Transformer主导的大模型时代,基于不同架构的创新依然存在巨大机会。随着SSM等新兴架构在语音领域的成熟,我们有望看到更多差异化的技术解决方案涌现。而资本对特定技术路线的青睐,也将推动整个行业向更加多元、健康的方向发展。在这个技术快速迭代的时代,能够坚持技术创新与商业落地并重的企业,更有可能在激烈的竞争中脱颖而出。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/8309

(0)
上一篇 2025年11月3日 上午9:04
下一篇 2025年11月3日 上午10:53

相关推荐

  • 中国AI突破300年数学难题:强化学习系统PackingStar刷新高维亲吻数多项世界纪录

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 数学上有一个经典难题,名为亲吻数问题(Kissing Number Problem)。它困扰了人类三百余年,而最近,一项来自中国AI的研究,为这一领域带来了突破性进展。 这个问题探讨的是:在n维空间中,一个单位球体的周围,最多能有多少个同样大小的球体与它恰好相切(即“亲吻”),且彼此互不重叠。 亲吻数问题…

    2026年2月14日
    10000
  • 智能机器人产业生态构建:从技术突破到全要素协同的深度解析

    随着人工智能技术的飞速发展,智能机器人产业正迎来前所未有的变革机遇。从工业自动化到服务型机器人,从人形机器人到特种应用,智能机器人正逐步渗透到社会经济的各个领域。然而,产业的蓬勃发展背后,仍面临着技术瓶颈、产业链协同不足、应用场景碎片化等多重挑战。如何构建健康、可持续的产业生态,成为当前智能机器人领域亟待解决的核心问题。 从技术层面来看,智能机器人的发展高度…

    2025年11月10日
    21400
  • MeepleLM:首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统

    MeepleLM团队 投稿 量子位 | 公众号 QbitAI 大模型桌游体验官 来了!不仅能快速给出评价与建议,还能模拟不同类型玩家的体验差异。 近期,来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ,这是首个能模拟真实玩家视角,并基于动态游戏体验给出建设性批评的虚拟试玩模型。 为了减轻AI评价的“悬浮感”…

    2026年2月12日
    10800
  • AI赋能图表美化:beautiful-mermaid与Pretty-mermaid-skills联手,三天斩获4700+GitHub Star

    作为开发者,在编写技术文档时,Mermaid 是一个常用工具,通过几行代码即可生成流程图,效率极高。 然而,Mermaid 生成的图表也存在一个明显的短板:其默认样式较为普通,视觉上缺乏吸引力。 当我们需要将图表粘贴到 PPT 中进行演示,或发布到博客时,其单调的线条和背景往往显得不够专业。 近日,GitHub 上一个开源项目迅速走红,短短三天内便斩获了 4…

    2026年2月1日
    82900
  • MemGovern框架:让AI从GitHub历史经验中学习,Bug修复率提升至69.8%

    MemGovern框架:让AI从GitHub历史经验中学习,Bug修复率提升至69.8% 当前,大语言模型驱动的代码智能体在自动化软件工程领域带来了变革,但它们普遍面临“封闭世界”的认知局限:现有的智能体往往试图从零开始修复Bug,或者仅依赖仓库内的局部上下文,而忽略了GitHub等平台上积累的浩瀚历史人类经验。 事实上,人类工程师在解决复杂问题时,往往会搜…

    2026年1月16日
    25100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注