2026年1月AI大模型前沿速览:通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日

【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:方言类(龙嘉怡、龙老铁)、出海营销类、诗词朗诵类(龙飞)、语音助手类(龙小淳、龙小夏、YUMI)、社交陪伴类(龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩)、有声书类(龙三叔、龙媛、龙悦、龙修、龙楠)、新闻播报类(龙书)。

1月6日

【闭源】阿里通义千问发布语音识别模型qwen3-asr-flash和qwen3-asr-flash-2025-09-08,支持OpenAI兼容模式,为开发者提供标准化的语音文件识别接口,旨在简化集成流程,提升语音转文字应用的开发效率。

1月7日

【开源】腾讯Youtu团队开源Youtu-LLM-2B小型大语言模型,该模型仅包含19.6亿参数,支持128k长上下文,并具备原生智能体(agentic)能力。

1月8日

【开源】Qwen团队推出Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,基于近期开源的Qwen3-VL模型构建,专为多模态信息检索和跨模态理解场景设计。Embedding模型通过共享语义空间生成跨模态向量表示;Reranker模型则用于精准评估混合模态输入对的相关性。两者协同的两阶段检索流程旨在显著提升精度。模型继承Qwen3-VL的30+语言支持,并提供灵活的向量维度、可定制指令及量化优化。

1月12日

【闭源】阿里通义千问发布qwen-image-plus-2026-01-09图像生成快照版模型,作为qwen-image-max的蒸馏加速版,该模型支持快速生成高质量图像,在保持生成质量的同时大幅提升推理速度,为高频图像生成场景提供高效解决方案。

1月13日

【开源】智谱AI联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。模型采用创新的“自回归+扩散编码器”混合架构,旨在兼顾全局指令理解与局部细节刻画,有效解决海报、PPT等知识密集型场景生成难题。在文字渲染方面,在CVTG-2K和LongText-Bench榜单获得开源第一,尤其擅长汉字生成。

【开源】清华大学、中国人民大学、面壁智能与OpenBMB开源社区联合发布AgentCPM-Explore智能体模型,这是一个具备GAIA、Xbench等8个长难智能体任务处理能力的4B端侧模型,支持超过100轮不重复且稳定的环境交互。同时开源全流程工具链,包括工具沙盒调度平台AgentDock、异步强化学习框架AgentRL和智能体测评平台AgentToLeaP,支持社区完整复现与自定义扩展。

1月14日

【开源】百川智能推出Baichuan-M3-235B开源医疗增强大语言模型,其核心创新在于显式建模临床决策过程,而非简单生成表面答案。通过Fact-Aware RL技术,在不依赖外部工具情况下实现较低的幻觉率。在部署方面,W4量化将内存占用降至原始的26%,结合Gated Eagle3推测解码技术,推理速度提升96%。

1月16日

【开源】阶跃星辰原生语音推理模型Step-Audio-R1.1在最新更新的Artificial Analysis Speech Reasoning榜单中登顶,以96.4%准确率超越Grok、Gemini、GPT-Realtime等主流模型,刷新历史最好成绩。该模型在性能与速度的综合权衡上全面领先,兼顾实时对话和复杂语音推理能力。

【开源】Black Forest Labs开源FLUX.2 [klein]模型家族,包括4B、9B两个尺寸,是目前最快的图像生成模型系列。该系列在单一紧凑架构中统一了生成和编辑能力,在现代硬件上实现端到端推理低至0.5秒以内,同时在消费级GPU上仅需13GB显存即可运行。官方还提供FP8和NVFP4量化版本,在RTX GPU上分别实现最高1.6倍和2.7倍的推理加速,显存占用分别降低40%和55%。

【开源】美团LongCat团队正式发布并开源LongCat-Flash-Thinking-2601,作为已发布模型的升级版,2601版本在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上均达到开源模型SOTA水平。这是首个完整开源并支持在线免费体验“重思考模式”的模型,可同时启动8个并行思考进程。

【闭源】阿里通义千问发布qwen3-tts-vc-realtime-2026-01-15实时语音合成最新快照模型,语音复刻效果进一步优化,较上一版本更自然、更贴近原声,旨在为实时语音合成应用提供更高质量的音色克隆能力。

1月17日

【闭源】阿里通义发布wan2.6-i2v-flash图生视频模型,支持生成有声与无声视频,两类视频按各自计费规则独立计费。该模型具备多镜头叙事能力与音频处理能力,旨在为视频创作提供更丰富的表现形式和更灵活的创作工具。

1月20日

【闭源】阿里通义千问发布图像编辑模型Max系列
阿里通义千问发布图像编辑模型Max系列,包括 qwen-image-edit-maxqwen-image-edit-max-2026-01-16 两个版本。该系列模型具备更稳定、丰富的编辑能力,增强了工业设计与几何推理能力,并提升了角色一致性与编辑的精准度,为专业图像编辑场景提供更强大的技术支持。

【开源】智谱AI发布GLM-4.7-Flash混合思考模型
智谱AI发布GLM-4.7-Flash混合思考模型,总参数量30B,激活参数量仅3B,作为同级别SOTA模型为轻量化部署提供兼顾性能与效率的新选择。在SWE-bench Verified、τ²-Bench等主流基准测试中,综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507,在相同和近似尺寸模型系列中取得开源SOTA分数,以最小的激活参数实现最优性能。

【开源】LightOn发布LightOnOCR-2-1B高效端到端视觉语言模型
LightOn发布LightOnOCR-2-1B高效端到端10亿参数视觉语言模型,用于将文档(PDF、扫描件、图像)转换为干净且自然顺序的文本,无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练,增强了法语文档、arXiv论文和扫描件的覆盖范围,改进了LaTeX处理能力,并实现了更干净的归一化。支持表格、收据、表单、多栏布局和数学符号的多功能解析,并集成图像边界框预测能力。

1月22日

【开源】FlashLabs发布Chroma-4B先进多模态模型
FlashLabs开发的Chroma-4B先进多模态模型正式发布,旨在理解并生成跨多种模态的内容,包括文本和音频。作为虚拟人模型,Chroma能够处理听觉输入,并同时以文本和合成语音进行响应,从而实现自然的语音交互。

【闭源】百度发布原生全模态大模型文心5.0正式版
百度在文心Moment大会上宣布,原生全模态大模型文心5.0正式版上线,参数达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多种信息的输入与输出。目前,个人用户可在文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。

1月23日

【开源】通义千问开源Qwen3-TTS系列高性能多语言文本到语音模型
通义千问Qwen团队开源Qwen3-TTS系列高性能多语言文本到语音模型,支持10种语言(含中、英、日、韩等)及方言音色,专为全球应用设计。核心特点包括:基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征,保留副语言信息并实现高保真重建;采用离散多码本端到端架构,消除传统LM+DiT的信息瓶颈和级联误差;支持极致低延迟流式生成,端到端延迟仅97ms,满足实时交互需求。

1月27日

【闭源】阿里通义发布qwen3-max-2026-01-23
阿里通义发布 qwen3-max-2026-01-23,相较2025年9月23日版本,有效融合了思考模式与非思考模式,显著提升了模型的整体性能。在思考模式下,模型集成了Web搜索、网页信息提取和代码解释器三项工具,通过在思考过程中引入外部工具,在复杂问题上实现更高的准确率,为需要深度推理和多工具协同的场景提供强大支持。

【闭源】Mistral发布Mistral Vibe 2.0终端原生编码智能体
Mistral发布Mistral Vibe 2.0终端原生编码智能体重大升级版,由最先进的Devstral 2模型家族驱动。支持构建自定义子智能体、执行前澄清确认、通过斜杠命令加载技能、配置自定义工作流以匹配工作方式,赋能团队更快地构建、维护和交付代码。

1月28日

【开源】月之暗面开源Kimi K2.5原生多模态智能体模型
月之暗面开源Kimi K2.5原生多模态智能体模型,在Kimi-K2-Base基础上通过约15万亿混合视觉与文本token的持续预训练构建而成。官方称这是Kimi迄今最智能的模型,在Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA表现,也是Kimi迄今最全能模型。核心特性包括:原生多模态,在视觉知识、跨模态推理以及基于视觉输入的智能体工具使用方面表现卓越;视觉驱动的编程,能够根据视觉规范生成代码,并自主编排工具以处理视觉数据;智能体集群,从单智能体扩展演进为自导向、协同式的集群执行架构,能将复杂任务分解为多个并行子任务,并由动态实例化的领域专用智能体协同执行。

【开源】通义千问发布Qwen3-ASR系列模型
通义千问Qwen团队继Qwen3-TTS开源后,发布Qwen3-ASR系列模型,包括 Qwen3-ASR-1.7BQwen3-ASR-0.6B,支持52种语言和方言的语言识别与语音识别(ASR)。Qwen3-ASR系列模型支持单模型统一实现流式/离线推理,可处理长音频。完整开源模型架构与权重,并提供基于vLLM的推理框架,支持批处理、异步服务、流式推理与时间戳预测。

【闭源】阿里通义发布qwen3-asr-flash-filetrans系列模型
阿里通义发布 qwen3-asr-flash-filetrans 系列模型,包括 qwen3-asr-flash-filetransqwen3-asr-flash-filetrans-2025-11-17,现已支持词级别时间戳功能。通过设置新参数 enable_words,可获取毫秒级的词/字对齐信息,并体验更符合语义的精细化断句,为语音识别应用提供更精准的时间定位能力。

1月29日

【闭源】阿里通义发布晓蜜对话分析模型
阿里通义发布晓蜜对话分析模型,包括 tongyi-xiaomi-analysis-flashtongyi-xiaomi-analysis-pro 两个版本,专注于对话信息抽取、场景分类、满意度判定等分析需求,擅长处理复杂业务逻辑的质检规则,支持自定义分析标准,具备强大的多轮对话理解和语义推理能力,为企业客服质检、对话分析等场景提供专业化解决方案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19985

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • OpenAI资本重组与微软战略合作新篇章:从非营利到公益公司的转型与AI产业格局重塑

    近期,OpenAI完成了其发展历程中一次关键性的资本重组,这一变革不仅重塑了其组织架构,更标志着与微软的战略合作进入了全新阶段。OpenAI的非营利实体正式更名为OpenAI基金会(OpenAI Foundation),并持有约1300亿美元的营利部门股权,而营利部门则改制为一家公益性公司(Public Benefit Corporation),名为Open…

    2025年11月2日
    8300
  • 突破实时AI瓶颈:16核RISC-V处理器实现548M周期确定执行,为自动驾驶等关键应用提供可预测并行架构

    关键词:时间可预测性、RISC-V、多核向量处理器、神经网络推理、实时系统、FPGA 开源 实时系统,尤其是自动驾驶等关键领域,正越来越多地集成神经网络。这一趋势催生了对兼具高性能与可预测时序行为的硬件的迫切需求。然而,当前硬件面临两难困境:传统的实时硬件受限于有限的内存和计算资源,而现代AI加速器虽性能强大,却常因内存访问干扰等问题,缺乏对实时应用至关重要…

    2026年1月22日
    4400
  • 颠覆认知:扩散模型表征对齐中,空间结构竟比全局语义更重要

    在扩散模型的训练优化领域,表征对齐(REPA)技术自去年十月问世以来,一直被视为加速扩散Transformer训练的关键突破。该方法通过将预训练视觉编码器的表征蒸馏为中间扩散特征来指导生成式训练,显著提升了训练效率。然而,一个根本性问题长期悬而未决:对于生成任务而言,目标表征的哪个维度更为关键?是编码器捕获的全局语义信息(通常以ImageNet-1K分类准确…

    2025年12月13日
    8300
  • Video4Edit:将图像编辑视为退化时序过程,以1%数据实现SOTA性能

    在AI图像编辑领域,高质量训练数据的稀缺一直是制约模型性能与泛化能力的关键瓶颈。传统基于扩散模型的编辑方法通常依赖大规模三元组数据(指令-源图像-编辑后图像)进行监督训练,这不仅带来高昂的数据采集与标注成本,也难以覆盖用户多样化的编辑意图。更根本的是,现有方法往往陷入“结构保持”与“纹理修改”的权衡困境:过度强调结构一致性会限制编辑的灵活性,而追求大幅语义修…

    2025年12月6日
    8800
  • 谷歌“TorchTPU”战略:软件生态破局与AI算力格局重构

    谷歌近期推进的“TorchTPU”战略行动,标志着AI算力市场竞争进入深水区。这项计划的核心目标是通过优化PyTorch框架在谷歌自研TPU芯片上的运行效率,打破英伟达CUDA生态长期形成的技术壁垒。从表面看,这是谷歌在硬件兼容性上的技术补课;深入分析则揭示了一场围绕软件生态主导权的商业围剿。作为PyTorch的主要维护者,Meta的深度参与更让这场博弈呈现…

    2025年12月18日
    8000