2026年1月AI大模型前沿速览:通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日

【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:方言类(龙嘉怡、龙老铁)、出海营销类、诗词朗诵类(龙飞)、语音助手类(龙小淳、龙小夏、YUMI)、社交陪伴类(龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩)、有声书类(龙三叔、龙媛、龙悦、龙修、龙楠)、新闻播报类(龙书)。

1月6日

【闭源】阿里通义千问发布语音识别模型qwen3-asr-flash和qwen3-asr-flash-2025-09-08,支持OpenAI兼容模式,为开发者提供标准化的语音文件识别接口,旨在简化集成流程,提升语音转文字应用的开发效率。

1月7日

【开源】腾讯Youtu团队开源Youtu-LLM-2B小型大语言模型,该模型仅包含19.6亿参数,支持128k长上下文,并具备原生智能体(agentic)能力。

1月8日

【开源】Qwen团队推出Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,基于近期开源的Qwen3-VL模型构建,专为多模态信息检索和跨模态理解场景设计。Embedding模型通过共享语义空间生成跨模态向量表示;Reranker模型则用于精准评估混合模态输入对的相关性。两者协同的两阶段检索流程旨在显著提升精度。模型继承Qwen3-VL的30+语言支持,并提供灵活的向量维度、可定制指令及量化优化。

1月12日

【闭源】阿里通义千问发布qwen-image-plus-2026-01-09图像生成快照版模型,作为qwen-image-max的蒸馏加速版,该模型支持快速生成高质量图像,在保持生成质量的同时大幅提升推理速度,为高频图像生成场景提供高效解决方案。

1月13日

【开源】智谱AI联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。模型采用创新的“自回归+扩散编码器”混合架构,旨在兼顾全局指令理解与局部细节刻画,有效解决海报、PPT等知识密集型场景生成难题。在文字渲染方面,在CVTG-2K和LongText-Bench榜单获得开源第一,尤其擅长汉字生成。

【开源】清华大学、中国人民大学、面壁智能与OpenBMB开源社区联合发布AgentCPM-Explore智能体模型,这是一个具备GAIA、Xbench等8个长难智能体任务处理能力的4B端侧模型,支持超过100轮不重复且稳定的环境交互。同时开源全流程工具链,包括工具沙盒调度平台AgentDock、异步强化学习框架AgentRL和智能体测评平台AgentToLeaP,支持社区完整复现与自定义扩展。

1月14日

【开源】百川智能推出Baichuan-M3-235B开源医疗增强大语言模型,其核心创新在于显式建模临床决策过程,而非简单生成表面答案。通过Fact-Aware RL技术,在不依赖外部工具情况下实现较低的幻觉率。在部署方面,W4量化将内存占用降至原始的26%,结合Gated Eagle3推测解码技术,推理速度提升96%。

1月16日

【开源】阶跃星辰原生语音推理模型Step-Audio-R1.1在最新更新的Artificial Analysis Speech Reasoning榜单中登顶,以96.4%准确率超越Grok、Gemini、GPT-Realtime等主流模型,刷新历史最好成绩。该模型在性能与速度的综合权衡上全面领先,兼顾实时对话和复杂语音推理能力。

【开源】Black Forest Labs开源FLUX.2 [klein]模型家族,包括4B、9B两个尺寸,是目前最快的图像生成模型系列。该系列在单一紧凑架构中统一了生成和编辑能力,在现代硬件上实现端到端推理低至0.5秒以内,同时在消费级GPU上仅需13GB显存即可运行。官方还提供FP8和NVFP4量化版本,在RTX GPU上分别实现最高1.6倍和2.7倍的推理加速,显存占用分别降低40%和55%。

【开源】美团LongCat团队正式发布并开源LongCat-Flash-Thinking-2601,作为已发布模型的升级版,2601版本在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上均达到开源模型SOTA水平。这是首个完整开源并支持在线免费体验“重思考模式”的模型,可同时启动8个并行思考进程。

【闭源】阿里通义千问发布qwen3-tts-vc-realtime-2026-01-15实时语音合成最新快照模型,语音复刻效果进一步优化,较上一版本更自然、更贴近原声,旨在为实时语音合成应用提供更高质量的音色克隆能力。

1月17日

【闭源】阿里通义发布wan2.6-i2v-flash图生视频模型,支持生成有声与无声视频,两类视频按各自计费规则独立计费。该模型具备多镜头叙事能力与音频处理能力,旨在为视频创作提供更丰富的表现形式和更灵活的创作工具。

1月20日

【闭源】阿里通义千问发布图像编辑模型Max系列
阿里通义千问发布图像编辑模型Max系列,包括 qwen-image-edit-maxqwen-image-edit-max-2026-01-16 两个版本。该系列模型具备更稳定、丰富的编辑能力,增强了工业设计与几何推理能力,并提升了角色一致性与编辑的精准度,为专业图像编辑场景提供更强大的技术支持。

【开源】智谱AI发布GLM-4.7-Flash混合思考模型
智谱AI发布GLM-4.7-Flash混合思考模型,总参数量30B,激活参数量仅3B,作为同级别SOTA模型为轻量化部署提供兼顾性能与效率的新选择。在SWE-bench Verified、τ²-Bench等主流基准测试中,综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507,在相同和近似尺寸模型系列中取得开源SOTA分数,以最小的激活参数实现最优性能。

【开源】LightOn发布LightOnOCR-2-1B高效端到端视觉语言模型
LightOn发布LightOnOCR-2-1B高效端到端10亿参数视觉语言模型,用于将文档(PDF、扫描件、图像)转换为干净且自然顺序的文本,无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练,增强了法语文档、arXiv论文和扫描件的覆盖范围,改进了LaTeX处理能力,并实现了更干净的归一化。支持表格、收据、表单、多栏布局和数学符号的多功能解析,并集成图像边界框预测能力。

1月22日

【开源】FlashLabs发布Chroma-4B先进多模态模型
FlashLabs开发的Chroma-4B先进多模态模型正式发布,旨在理解并生成跨多种模态的内容,包括文本和音频。作为虚拟人模型,Chroma能够处理听觉输入,并同时以文本和合成语音进行响应,从而实现自然的语音交互。

【闭源】百度发布原生全模态大模型文心5.0正式版
百度在文心Moment大会上宣布,原生全模态大模型文心5.0正式版上线,参数达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多种信息的输入与输出。目前,个人用户可在文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。

1月23日

【开源】通义千问开源Qwen3-TTS系列高性能多语言文本到语音模型
通义千问Qwen团队开源Qwen3-TTS系列高性能多语言文本到语音模型,支持10种语言(含中、英、日、韩等)及方言音色,专为全球应用设计。核心特点包括:基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征,保留副语言信息并实现高保真重建;采用离散多码本端到端架构,消除传统LM+DiT的信息瓶颈和级联误差;支持极致低延迟流式生成,端到端延迟仅97ms,满足实时交互需求。

1月27日

【闭源】阿里通义发布qwen3-max-2026-01-23
阿里通义发布 qwen3-max-2026-01-23,相较2025年9月23日版本,有效融合了思考模式与非思考模式,显著提升了模型的整体性能。在思考模式下,模型集成了Web搜索、网页信息提取和代码解释器三项工具,通过在思考过程中引入外部工具,在复杂问题上实现更高的准确率,为需要深度推理和多工具协同的场景提供强大支持。

【闭源】Mistral发布Mistral Vibe 2.0终端原生编码智能体
Mistral发布Mistral Vibe 2.0终端原生编码智能体重大升级版,由最先进的Devstral 2模型家族驱动。支持构建自定义子智能体、执行前澄清确认、通过斜杠命令加载技能、配置自定义工作流以匹配工作方式,赋能团队更快地构建、维护和交付代码。

1月28日

【开源】月之暗面开源Kimi K2.5原生多模态智能体模型
月之暗面开源Kimi K2.5原生多模态智能体模型,在Kimi-K2-Base基础上通过约15万亿混合视觉与文本token的持续预训练构建而成。官方称这是Kimi迄今最智能的模型,在Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA表现,也是Kimi迄今最全能模型。核心特性包括:原生多模态,在视觉知识、跨模态推理以及基于视觉输入的智能体工具使用方面表现卓越;视觉驱动的编程,能够根据视觉规范生成代码,并自主编排工具以处理视觉数据;智能体集群,从单智能体扩展演进为自导向、协同式的集群执行架构,能将复杂任务分解为多个并行子任务,并由动态实例化的领域专用智能体协同执行。

【开源】通义千问发布Qwen3-ASR系列模型
通义千问Qwen团队继Qwen3-TTS开源后,发布Qwen3-ASR系列模型,包括 Qwen3-ASR-1.7BQwen3-ASR-0.6B,支持52种语言和方言的语言识别与语音识别(ASR)。Qwen3-ASR系列模型支持单模型统一实现流式/离线推理,可处理长音频。完整开源模型架构与权重,并提供基于vLLM的推理框架,支持批处理、异步服务、流式推理与时间戳预测。

【闭源】阿里通义发布qwen3-asr-flash-filetrans系列模型
阿里通义发布 qwen3-asr-flash-filetrans 系列模型,包括 qwen3-asr-flash-filetransqwen3-asr-flash-filetrans-2025-11-17,现已支持词级别时间戳功能。通过设置新参数 enable_words,可获取毫秒级的词/字对齐信息,并体验更符合语义的精细化断句,为语音识别应用提供更精准的时间定位能力。

1月29日

【闭源】阿里通义发布晓蜜对话分析模型
阿里通义发布晓蜜对话分析模型,包括 tongyi-xiaomi-analysis-flashtongyi-xiaomi-analysis-pro 两个版本,专注于对话信息抽取、场景分类、满意度判定等分析需求,擅长处理复杂业务逻辑的质检规则,支持自定义分析标准,具备强大的多轮对话理解和语义推理能力,为企业客服质检、对话分析等场景提供专业化解决方案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19985

(0)
上一篇 2026年2月2日 上午11:24
下一篇 2026年2月2日 下午1:42

相关推荐

  • 原生高分辨率编码新突破:LLaVA-UHD v3渐进式视觉压缩框架深度解析

    随着多模态大模型(MLLMs)在视觉语言理解、图像描述、视觉问答等任务中展现出卓越能力,处理高分辨率图像已成为提升模型性能的关键瓶颈。传统方法在效率与精度之间面临两难选择:基于切片的编码虽能降低计算成本,却破坏了图像的空间连续性;而全局原生分辨率编码虽能保持完整语义,却带来难以承受的计算负担。清华大学与中科院研究团队最新发布的LLaVA-UHD v3,通过创…

    2025年12月9日
    17500
  • DeepMind CEO揭秘:后Gemini3时代,谷歌如何用AI仿真环境攻克所有疾病?

    Gemini 3 Deep Think 的发布,在业界引发了巨大震动。谷歌这款最前沿的模型,以惊人的速度将聊天机器人推向了新的高度,使其成为一个能力超越普通人、甚至博士水平的强大科研助手。这一切的背后,都离不开一个曾被马斯克、奥特曼等人视为“危险人物”的名字:Demis Hassabis。 从击败围棋世界冠军的AlphaGo,到解决蛋白质折叠难题的Alpha…

    AI产业动态 2026年2月13日
    6900
  • 视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

    在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。 传统评估体系面临的根本性挑…

    2025年12月15日
    20100
  • 阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

    为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

    2026年1月29日
    19600
  • 2025宝山智能机器人产业大会前瞻:从具身智能到核心部件,解码产业新生态

    随着人工智能技术的飞速发展,智能机器人产业正迎来前所未有的变革机遇。2025年11月21日至22日,即将在上海宝山智慧湾科创园举办的“2025宝山・智能机器人产业大会暨嘉年华”,不仅是一场行业盛会,更是一次全面展示中国智能机器人产业实力与未来方向的窗口。本文将从产业趋势、技术突破、生态构建三个维度,深入剖析本次大会的核心价值与行业意义。 **一、产业宏观蓝图…

    2025年11月14日
    16900