多模态检索

2026年1月AI大模型前沿速览：通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：方言类（龙嘉怡、龙老铁）、出海营销类、诗词朗诵类（龙飞）、语音助手类（龙小淳、龙小夏、YUMI）、社交陪伴类（龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩）、有声书类（龙三叔、龙媛、龙悦、龙修、龙楠…

AI产业动态 2026年2月2日

544000

AI产业动态

AI周报：阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破

1月5日【闭源】阿里通义发布语音合成模型 CosyVoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：* 方言类：龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类：龙飞* 语音助手类：龙小淳、龙小夏、YUMI* 社交陪伴类：龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类：龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…

2026年1月12日

219000

AI产业动态

突破CLIP瓶颈：HiMo-CLIP如何通过语义层级建模实现长文本图像检索SOTA

在多模态人工智能领域，视觉-语言对齐一直是核心挑战之一。传统的CLIP模型虽然在短文本图像检索上表现出色，但在处理长文本描述时却暴露出明显的局限性：随着文本描述的详细化，模型的匹配分数不升反降，这与人类的认知逻辑背道而驰。最近，中国联通数据科学与人工智能研究院团队在AAAI 2026上发表的研究成果HiMo-CLIP，通过创新的语义层级建模方法，成功解决了这…

2025年12月1日

206000