语音识别
-
AI周报:阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破
1月5日 【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:* 方言类:龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类:龙飞* 语音助手类:龙小淳、龙小夏、YUMI* 社交陪伴类:龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类:龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…
-
从AI先驱到华尔街巨鳄:Hinton首位博士生的跨界传奇
一张照片,一段往事 最近,一张老照片在AI圈内重新引发了热议。 这张照片是1986年CMU首届联结主义夏令营的合影。 有人将这张合影誉为AI界的“索尔维会议”。对于研究神经网络、计算神经科学和计算语言学的后辈而言,几乎都能在这张照片里找到自己领域的开创者。 照片中被圈出的,是深度学习的奠基人、图灵奖得主Geoffrey Hinton。正是在他的坚持下,神经网…
-
AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件
11月17日 【闭源|语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。 11月18日 【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…