2026年1月AI大模型前沿速览：通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日

【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash，新增24个音色以覆盖多元场景需求。新增音色包括：方言类（龙嘉怡、龙老铁）、出海营销类、诗词朗诵类（龙飞）、语音助手类（龙小淳、龙小夏、YUMI）、社交陪伴类（龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩）、有声书类（龙三叔、龙媛、龙悦、龙修、龙楠）、新闻播报类（龙书）。

1月6日

【闭源】阿里通义千问发布语音识别模型qwen3-asr-flash和qwen3-asr-flash-2025-09-08，支持OpenAI兼容模式，为开发者提供标准化的语音文件识别接口，旨在简化集成流程，提升语音转文字应用的开发效率。

1月7日

【开源】腾讯Youtu团队开源Youtu-LLM-2B小型大语言模型，该模型仅包含19.6亿参数，支持128k长上下文，并具备原生智能体（agentic）能力。

1月8日

【开源】Qwen团队推出Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列，基于近期开源的Qwen3-VL模型构建，专为多模态信息检索和跨模态理解场景设计。Embedding模型通过共享语义空间生成跨模态向量表示；Reranker模型则用于精准评估混合模态输入对的相关性。两者协同的两阶段检索流程旨在显著提升精度。模型继承Qwen3-VL的30+语言支持，并提供灵活的向量维度、可定制指令及量化优化。

1月12日

【闭源】阿里通义千问发布qwen-image-plus-2026-01-09图像生成快照版模型，作为qwen-image-max的蒸馏加速版，该模型支持快速生成高质量图像，在保持生成质量的同时大幅提升推理速度，为高频图像生成场景提供高效解决方案。

1月13日

【开源】智谱AI联合华为开源新一代图像生成模型GLM-Image，该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程，是首个在国产芯片上完成全程训练的SOTA多模态模型。模型采用创新的“自回归+扩散编码器”混合架构，旨在兼顾全局指令理解与局部细节刻画，有效解决海报、PPT等知识密集型场景生成难题。在文字渲染方面，在CVTG-2K和LongText-Bench榜单获得开源第一，尤其擅长汉字生成。

【开源】清华大学、中国人民大学、面壁智能与OpenBMB开源社区联合发布AgentCPM-Explore智能体模型，这是一个具备GAIA、Xbench等8个长难智能体任务处理能力的4B端侧模型，支持超过100轮不重复且稳定的环境交互。同时开源全流程工具链，包括工具沙盒调度平台AgentDock、异步强化学习框架AgentRL和智能体测评平台AgentToLeaP，支持社区完整复现与自定义扩展。

1月14日

【开源】百川智能推出Baichuan-M3-235B开源医疗增强大语言模型，其核心创新在于显式建模临床决策过程，而非简单生成表面答案。通过Fact-Aware RL技术，在不依赖外部工具情况下实现较低的幻觉率。在部署方面，W4量化将内存占用降至原始的26%，结合Gated Eagle3推测解码技术，推理速度提升96%。

1月16日

【开源】阶跃星辰原生语音推理模型Step-Audio-R1.1在最新更新的Artificial Analysis Speech Reasoning榜单中登顶，以96.4%准确率超越Grok、Gemini、GPT-Realtime等主流模型，刷新历史最好成绩。该模型在性能与速度的综合权衡上全面领先，兼顾实时对话和复杂语音推理能力。

【开源】Black Forest Labs开源FLUX.2 [klein]模型家族，包括4B、9B两个尺寸，是目前最快的图像生成模型系列。该系列在单一紧凑架构中统一了生成和编辑能力，在现代硬件上实现端到端推理低至0.5秒以内，同时在消费级GPU上仅需13GB显存即可运行。官方还提供FP8和NVFP4量化版本，在RTX GPU上分别实现最高1.6倍和2.7倍的推理加速，显存占用分别降低40%和55%。

【开源】美团LongCat团队正式发布并开源LongCat-Flash-Thinking-2601，作为已发布模型的升级版，2601版本在Agentic Search（智能体搜索）、Agentic Tool Use（智能体工具调用）、TIR（工具交互推理）等核心评测基准上均达到开源模型SOTA水平。这是首个完整开源并支持在线免费体验“重思考模式”的模型，可同时启动8个并行思考进程。

【闭源】阿里通义千问发布qwen3-tts-vc-realtime-2026-01-15实时语音合成最新快照模型，语音复刻效果进一步优化，较上一版本更自然、更贴近原声，旨在为实时语音合成应用提供更高质量的音色克隆能力。

1月17日

【闭源】阿里通义发布wan2.6-i2v-flash图生视频模型，支持生成有声与无声视频，两类视频按各自计费规则独立计费。该模型具备多镜头叙事能力与音频处理能力，旨在为视频创作提供更丰富的表现形式和更灵活的创作工具。

1月20日

【闭源】阿里通义千问发布图像编辑模型Max系列
阿里通义千问发布图像编辑模型Max系列，包括 qwen-image-edit-max 和 qwen-image-edit-max-2026-01-16 两个版本。该系列模型具备更稳定、丰富的编辑能力，增强了工业设计与几何推理能力，并提升了角色一致性与编辑的精准度，为专业图像编辑场景提供更强大的技术支持。

【开源】智谱AI发布GLM-4.7-Flash混合思考模型
智谱AI发布GLM-4.7-Flash混合思考模型，总参数量30B，激活参数量仅3B，作为同级别SOTA模型为轻量化部署提供兼顾性能与效率的新选择。在SWE-bench Verified、τ²-Bench等主流基准测试中，综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507，在相同和近似尺寸模型系列中取得开源SOTA分数，以最小的激活参数实现最优性能。

【开源】LightOn发布LightOnOCR-2-1B高效端到端视觉语言模型
LightOn发布LightOnOCR-2-1B高效端到端10亿参数视觉语言模型，用于将文档（PDF、扫描件、图像）转换为干净且自然顺序的文本，无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练，增强了法语文档、arXiv论文和扫描件的覆盖范围，改进了LaTeX处理能力，并实现了更干净的归一化。支持表格、收据、表单、多栏布局和数学符号的多功能解析，并集成图像边界框预测能力。

1月22日

【开源】FlashLabs发布Chroma-4B先进多模态模型
FlashLabs开发的Chroma-4B先进多模态模型正式发布，旨在理解并生成跨多种模态的内容，包括文本和音频。作为虚拟人模型，Chroma能够处理听觉输入，并同时以文本和合成语音进行响应，从而实现自然的语音交互。

【闭源】百度发布原生全模态大模型文心5.0正式版
百度在文心Moment大会上宣布，原生全模态大模型文心5.0正式版上线，参数达2.4万亿，采用原生全模态统一建模技术，支持文本、图像、音频、视频等多种信息的输入与输出。目前，个人用户可在文心APP、文心一言官网体验，企业与开发者可通过百度千帆平台进行调用。

1月23日

【开源】通义千问开源Qwen3-TTS系列高性能多语言文本到语音模型
通义千问Qwen团队开源Qwen3-TTS系列高性能多语言文本到语音模型，支持10种语言（含中、英、日、韩等）及方言音色，专为全球应用设计。核心特点包括：基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征，保留副语言信息并实现高保真重建；采用离散多码本端到端架构，消除传统LM+DiT的信息瓶颈和级联误差；支持极致低延迟流式生成，端到端延迟仅97ms，满足实时交互需求。

1月27日

【闭源】阿里通义发布qwen3-max-2026-01-23
阿里通义发布 qwen3-max-2026-01-23，相较2025年9月23日版本，有效融合了思考模式与非思考模式，显著提升了模型的整体性能。在思考模式下，模型集成了Web搜索、网页信息提取和代码解释器三项工具，通过在思考过程中引入外部工具，在复杂问题上实现更高的准确率，为需要深度推理和多工具协同的场景提供强大支持。

【闭源】Mistral发布Mistral Vibe 2.0终端原生编码智能体
Mistral发布Mistral Vibe 2.0终端原生编码智能体重大升级版，由最先进的Devstral 2模型家族驱动。支持构建自定义子智能体、执行前澄清确认、通过斜杠命令加载技能、配置自定义工作流以匹配工作方式，赋能团队更快地构建、维护和交付代码。

1月28日

【开源】月之暗面开源Kimi K2.5原生多模态智能体模型
月之暗面开源Kimi K2.5原生多模态智能体模型，在Kimi-K2-Base基础上通过约15万亿混合视觉与文本token的持续预训练构建而成。官方称这是Kimi迄今最智能的模型，在Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA表现，也是Kimi迄今最全能模型。核心特性包括：原生多模态，在视觉知识、跨模态推理以及基于视觉输入的智能体工具使用方面表现卓越；视觉驱动的编程，能够根据视觉规范生成代码，并自主编排工具以处理视觉数据；智能体集群，从单智能体扩展演进为自导向、协同式的集群执行架构，能将复杂任务分解为多个并行子任务，并由动态实例化的领域专用智能体协同执行。

【开源】通义千问发布Qwen3-ASR系列模型
通义千问Qwen团队继Qwen3-TTS开源后，发布Qwen3-ASR系列模型，包括 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B，支持52种语言和方言的语言识别与语音识别(ASR)。Qwen3-ASR系列模型支持单模型统一实现流式/离线推理，可处理长音频。完整开源模型架构与权重，并提供基于vLLM的推理框架，支持批处理、异步服务、流式推理与时间戳预测。

【闭源】阿里通义发布qwen3-asr-flash-filetrans系列模型
阿里通义发布 qwen3-asr-flash-filetrans 系列模型，包括 qwen3-asr-flash-filetrans 和 qwen3-asr-flash-filetrans-2025-11-17，现已支持词级别时间戳功能。通过设置新参数 enable_words，可获取毫秒级的词/字对齐信息，并体验更符合语义的精细化断句，为语音识别应用提供更精准的时间定位能力。

1月29日

【闭源】阿里通义发布晓蜜对话分析模型
阿里通义发布晓蜜对话分析模型，包括 tongyi-xiaomi-analysis-flash 和 tongyi-xiaomi-analysis-pro 两个版本，专注于对话信息抽取、场景分类、满意度判定等分析需求，擅长处理复杂业务逻辑的质检规则，支持自定义分析标准，具备强大的多轮对话理解和语义推理能力，为企业客服质检、对话分析等场景提供专业化解决方案。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19985

2026年1月AI大模型前沿速览：通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月20日

1月22日

1月23日

1月27日

1月28日

1月29日

相关推荐

OpenAI资本重组与微软战略合作新篇章：从非营利到公益公司的转型与AI产业格局重塑

突破实时AI瓶颈：16核RISC-V处理器实现548M周期确定执行，为自动驾驶等关键应用提供可预测并行架构

颠覆认知：扩散模型表征对齐中，空间结构竟比全局语义更重要

Video4Edit：将图像编辑视为退化时序过程，以1%数据实现SOTA性能

谷歌“TorchTPU”战略：软件生态破局与AI算力格局重构