
1月5日
【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:
* 方言类:龙嘉怡、龙老铁
* 出海营销类
* 诗词朗诵类:龙飞
* 语音助手类:龙小淳、龙小夏、YUMI
* 社交陪伴类:龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩
* 有声书类:龙三叔、龙媛、龙悦、龙修、龙楠
* 新闻播报类:龙书
详情请参见:https://help.aliyun.com/zh/model-studio/cosyvoice-voice-list
1月6日
【闭源】 阿里通义千问发布语音识别模型 qwen3-asr-flash 和 qwen3-asr-flash-2025-09-08。该模型支持 OpenAI 兼容模式,为开发者提供标准化的语音文件识别接口,旨在简化集成流程,提升语音转文字应用的开发效率。
详情请参见:https://help.aliyun.com/zh/model-studio/qwen-speech-recognition
1月7日
【开源】 腾讯Youtu团队开源小型大语言模型 Youtu-LLM-2B。该模型仅包含19.6亿参数,支持128k长上下文,并具备原生智能体(agentic)能力。
详情请参见:https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-LLM-2B
1月8日
【开源】 Qwen团队推出基于Qwen3-VL模型构建的 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列,专为多模态信息检索和跨模态理解场景设计。
该系列模型在统一框架下实现强大的多模态通用性,可高效处理文本、图像、截图和视频输入,在图文检索、视频文本匹配、VQA及多模态聚类等任务中表现领先。其中,Embedding模型通过共享语义空间生成跨模态向量表示,支持高效相似度计算;Reranker模型则用于精准评估混合模态输入对的相关性分数。两者协同的两阶段检索流程可显著提升检索精度。
模型继承了Qwen3-VL对30+语言的支持,提供灵活的向量维度、可定制指令及量化优化性能,便于集成到全球化应用场景中。
详情请参见:https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding-and-Rerank
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17738
