多模态检索

  • AI周报:阿里通义语音模型升级、腾讯开源2B小模型、Qwen3-VL多模态检索新突破

    1月5日 【闭源】 阿里通义发布语音合成模型 CosyVoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:* 方言类:龙嘉怡、龙老铁* 出海营销类* 诗词朗诵类:龙飞* 语音助手类:龙小淳、龙小夏、YUMI* 社交陪伴类:龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩* 有声书类:龙三叔、龙媛、龙悦、龙修、龙楠* 新闻…

    2026年1月12日
    4700
  • 突破CLIP瓶颈:HiMo-CLIP如何通过语义层级建模实现长文本图像检索SOTA

    在多模态人工智能领域,视觉-语言对齐一直是核心挑战之一。传统的CLIP模型虽然在短文本图像检索上表现出色,但在处理长文本描述时却暴露出明显的局限性:随着文本描述的详细化,模型的匹配分数不升反降,这与人类的认知逻辑背道而驰。最近,中国联通数据科学与人工智能研究院团队在AAAI 2026上发表的研究成果HiMo-CLIP,通过创新的语义层级建模方法,成功解决了这…

    2025年12月1日
    7900