AI周报：阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破

2026年1月12日上午11:46 • AI产业动态 • 阅读 218

1月5日

【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：
* 方言类：龙嘉怡、龙老铁
* 出海营销类
* 诗词朗诵类：龙飞
* 语音助手类：龙小淳、龙小夏、YUMI
* 社交陪伴类：龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩
* 有声书类：龙三叔、龙媛、龙悦、龙修、龙楠
* 新闻播报类：龙书

详情请参见：https://help.aliyun.com/zh/model-studio/cosyvoice-voice-list

1月6日

【闭源】 阿里通义千问发布语音识别模型 qwen3-asr-flash 和 qwen3-asr-flash-2025-09-08。该模型支持 OpenAI 兼容模式，为开发者提供标准化的语音文件识别接口，旨在简化集成流程，提升语音转文字应用的开发效率。

详情请参见：https://help.aliyun.com/zh/model-studio/qwen-speech-recognition

1月7日

【开源】 腾讯Youtu团队开源小型大语言模型 Youtu-LLM-2B。该模型仅包含19.6亿参数，支持128k长上下文，并具备原生智能体（agentic）能力。

详情请参见：https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-LLM-2B

1月8日

【开源】 Qwen团队推出基于Qwen3-VL模型构建的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列，专为多模态信息检索和跨模态理解场景设计。

该系列模型在统一框架下实现强大的多模态通用性，可高效处理文本、图像、截图和视频输入，在图文检索、视频文本匹配、VQA及多模态聚类等任务中表现领先。其中，Embedding模型通过共享语义空间生成跨模态向量表示，支持高效相似度计算；Reranker模型则用于精准评估混合模态输入对的相关性分数。两者协同的两阶段检索流程可显著提升检索精度。

模型继承了Qwen3-VL对30+语言的支持，提供灵活的向量维度、可定制指令及量化优化性能，便于集成到全球化应用场景中。

详情请参见：https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding-and-Rerank

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17738