2026年1月AI大模型前沿速览:通义、腾讯、智谱等巨头密集发布语音、视觉与智能体新突破

1月5日

【闭源】阿里通义发布CosyVoice语音合成模型cosyvoice-v3-flash,新增24个音色以覆盖多元场景需求。新增音色包括:方言类(龙嘉怡、龙老铁)、出海营销类、诗词朗诵类(龙飞)、语音助手类(龙小淳、龙小夏、YUMI)、社交陪伴类(龙橙、龙泽、龙哲、龙颜、龙星、龙天、龙婉、龙嫣、龙菲菲、龙浩)、有声书类(龙三叔、龙媛、龙悦、龙修、龙楠)、新闻播报类(龙书)。

1月6日

【闭源】阿里通义千问发布语音识别模型qwen3-asr-flash和qwen3-asr-flash-2025-09-08,支持OpenAI兼容模式,为开发者提供标准化的语音文件识别接口,旨在简化集成流程,提升语音转文字应用的开发效率。

1月7日

【开源】腾讯Youtu团队开源Youtu-LLM-2B小型大语言模型,该模型仅包含19.6亿参数,支持128k长上下文,并具备原生智能体(agentic)能力。

1月8日

【开源】Qwen团队推出Qwen3-VL-Embedding和Qwen3-VL-Reranker模型系列,基于近期开源的Qwen3-VL模型构建,专为多模态信息检索和跨模态理解场景设计。Embedding模型通过共享语义空间生成跨模态向量表示;Reranker模型则用于精准评估混合模态输入对的相关性。两者协同的两阶段检索流程旨在显著提升精度。模型继承Qwen3-VL的30+语言支持,并提供灵活的向量维度、可定制指令及量化优化。

1月12日

【闭源】阿里通义千问发布qwen-image-plus-2026-01-09图像生成快照版模型,作为qwen-image-max的蒸馏加速版,该模型支持快速生成高质量图像,在保持生成质量的同时大幅提升推理速度,为高频图像生成场景提供高效解决方案。

1月13日

【开源】智谱AI联合华为开源新一代图像生成模型GLM-Image,该模型基于昇腾Atlas 800T A2设备和昇思MindSpore AI框架完成从数据到训练的全流程,是首个在国产芯片上完成全程训练的SOTA多模态模型。模型采用创新的“自回归+扩散编码器”混合架构,旨在兼顾全局指令理解与局部细节刻画,有效解决海报、PPT等知识密集型场景生成难题。在文字渲染方面,在CVTG-2K和LongText-Bench榜单获得开源第一,尤其擅长汉字生成。

【开源】清华大学、中国人民大学、面壁智能与OpenBMB开源社区联合发布AgentCPM-Explore智能体模型,这是一个具备GAIA、Xbench等8个长难智能体任务处理能力的4B端侧模型,支持超过100轮不重复且稳定的环境交互。同时开源全流程工具链,包括工具沙盒调度平台AgentDock、异步强化学习框架AgentRL和智能体测评平台AgentToLeaP,支持社区完整复现与自定义扩展。

1月14日

【开源】百川智能推出Baichuan-M3-235B开源医疗增强大语言模型,其核心创新在于显式建模临床决策过程,而非简单生成表面答案。通过Fact-Aware RL技术,在不依赖外部工具情况下实现较低的幻觉率。在部署方面,W4量化将内存占用降至原始的26%,结合Gated Eagle3推测解码技术,推理速度提升96%。

1月16日

【开源】阶跃星辰原生语音推理模型Step-Audio-R1.1在最新更新的Artificial Analysis Speech Reasoning榜单中登顶,以96.4%准确率超越Grok、Gemini、GPT-Realtime等主流模型,刷新历史最好成绩。该模型在性能与速度的综合权衡上全面领先,兼顾实时对话和复杂语音推理能力。

【开源】Black Forest Labs开源FLUX.2 [klein]模型家族,包括4B、9B两个尺寸,是目前最快的图像生成模型系列。该系列在单一紧凑架构中统一了生成和编辑能力,在现代硬件上实现端到端推理低至0.5秒以内,同时在消费级GPU上仅需13GB显存即可运行。官方还提供FP8和NVFP4量化版本,在RTX GPU上分别实现最高1.6倍和2.7倍的推理加速,显存占用分别降低40%和55%。

【开源】美团LongCat团队正式发布并开源LongCat-Flash-Thinking-2601,作为已发布模型的升级版,2601版本在Agentic Search(智能体搜索)、Agentic Tool Use(智能体工具调用)、TIR(工具交互推理)等核心评测基准上均达到开源模型SOTA水平。这是首个完整开源并支持在线免费体验“重思考模式”的模型,可同时启动8个并行思考进程。

【闭源】阿里通义千问发布qwen3-tts-vc-realtime-2026-01-15实时语音合成最新快照模型,语音复刻效果进一步优化,较上一版本更自然、更贴近原声,旨在为实时语音合成应用提供更高质量的音色克隆能力。

1月17日

【闭源】阿里通义发布wan2.6-i2v-flash图生视频模型,支持生成有声与无声视频,两类视频按各自计费规则独立计费。该模型具备多镜头叙事能力与音频处理能力,旨在为视频创作提供更丰富的表现形式和更灵活的创作工具。

1月20日

【闭源】阿里通义千问发布图像编辑模型Max系列
阿里通义千问发布图像编辑模型Max系列,包括 qwen-image-edit-maxqwen-image-edit-max-2026-01-16 两个版本。该系列模型具备更稳定、丰富的编辑能力,增强了工业设计与几何推理能力,并提升了角色一致性与编辑的精准度,为专业图像编辑场景提供更强大的技术支持。

【开源】智谱AI发布GLM-4.7-Flash混合思考模型
智谱AI发布GLM-4.7-Flash混合思考模型,总参数量30B,激活参数量仅3B,作为同级别SOTA模型为轻量化部署提供兼顾性能与效率的新选择。在SWE-bench Verified、τ²-Bench等主流基准测试中,综合表现超过gpt-oss-20b、Qwen3-30B-A3B-Thinking-2507,在相同和近似尺寸模型系列中取得开源SOTA分数,以最小的激活参数实现最优性能。

【开源】LightOn发布LightOnOCR-2-1B高效端到端视觉语言模型
LightOn发布LightOnOCR-2-1B高效端到端10亿参数视觉语言模型,用于将文档(PDF、扫描件、图像)转换为干净且自然顺序的文本,无需依赖脆弱的流水线。第二版在更大、更高质量的语料库上训练,增强了法语文档、arXiv论文和扫描件的覆盖范围,改进了LaTeX处理能力,并实现了更干净的归一化。支持表格、收据、表单、多栏布局和数学符号的多功能解析,并集成图像边界框预测能力。

1月22日

【开源】FlashLabs发布Chroma-4B先进多模态模型
FlashLabs开发的Chroma-4B先进多模态模型正式发布,旨在理解并生成跨多种模态的内容,包括文本和音频。作为虚拟人模型,Chroma能够处理听觉输入,并同时以文本和合成语音进行响应,从而实现自然的语音交互。

【闭源】百度发布原生全模态大模型文心5.0正式版
百度在文心Moment大会上宣布,原生全模态大模型文心5.0正式版上线,参数达2.4万亿,采用原生全模态统一建模技术,支持文本、图像、音频、视频等多种信息的输入与输出。目前,个人用户可在文心APP、文心一言官网体验,企业与开发者可通过百度千帆平台进行调用。

1月23日

【开源】通义千问开源Qwen3-TTS系列高性能多语言文本到语音模型
通义千问Qwen团队开源Qwen3-TTS系列高性能多语言文本到语音模型,支持10种语言(含中、英、日、韩等)及方言音色,专为全球应用设计。核心特点包括:基于自研Qwen3-TTS-Tokenizer-12Hz的高效语音表征,保留副语言信息并实现高保真重建;采用离散多码本端到端架构,消除传统LM+DiT的信息瓶颈和级联误差;支持极致低延迟流式生成,端到端延迟仅97ms,满足实时交互需求。

1月27日

【闭源】阿里通义发布qwen3-max-2026-01-23
阿里通义发布 qwen3-max-2026-01-23,相较2025年9月23日版本,有效融合了思考模式与非思考模式,显著提升了模型的整体性能。在思考模式下,模型集成了Web搜索、网页信息提取和代码解释器三项工具,通过在思考过程中引入外部工具,在复杂问题上实现更高的准确率,为需要深度推理和多工具协同的场景提供强大支持。

【闭源】Mistral发布Mistral Vibe 2.0终端原生编码智能体
Mistral发布Mistral Vibe 2.0终端原生编码智能体重大升级版,由最先进的Devstral 2模型家族驱动。支持构建自定义子智能体、执行前澄清确认、通过斜杠命令加载技能、配置自定义工作流以匹配工作方式,赋能团队更快地构建、维护和交付代码。

1月28日

【开源】月之暗面开源Kimi K2.5原生多模态智能体模型
月之暗面开源Kimi K2.5原生多模态智能体模型,在Kimi-K2-Base基础上通过约15万亿混合视觉与文本token的持续预训练构建而成。官方称这是Kimi迄今最智能的模型,在Agent、代码、图像、视频及一系列通用智能任务上取得开源SOTA表现,也是Kimi迄今最全能模型。核心特性包括:原生多模态,在视觉知识、跨模态推理以及基于视觉输入的智能体工具使用方面表现卓越;视觉驱动的编程,能够根据视觉规范生成代码,并自主编排工具以处理视觉数据;智能体集群,从单智能体扩展演进为自导向、协同式的集群执行架构,能将复杂任务分解为多个并行子任务,并由动态实例化的领域专用智能体协同执行。

【开源】通义千问发布Qwen3-ASR系列模型
通义千问Qwen团队继Qwen3-TTS开源后,发布Qwen3-ASR系列模型,包括 Qwen3-ASR-1.7BQwen3-ASR-0.6B,支持52种语言和方言的语言识别与语音识别(ASR)。Qwen3-ASR系列模型支持单模型统一实现流式/离线推理,可处理长音频。完整开源模型架构与权重,并提供基于vLLM的推理框架,支持批处理、异步服务、流式推理与时间戳预测。

【闭源】阿里通义发布qwen3-asr-flash-filetrans系列模型
阿里通义发布 qwen3-asr-flash-filetrans 系列模型,包括 qwen3-asr-flash-filetransqwen3-asr-flash-filetrans-2025-11-17,现已支持词级别时间戳功能。通过设置新参数 enable_words,可获取毫秒级的词/字对齐信息,并体验更符合语义的精细化断句,为语音识别应用提供更精准的时间定位能力。

1月29日

【闭源】阿里通义发布晓蜜对话分析模型
阿里通义发布晓蜜对话分析模型,包括 tongyi-xiaomi-analysis-flashtongyi-xiaomi-analysis-pro 两个版本,专注于对话信息抽取、场景分类、满意度判定等分析需求,擅长处理复杂业务逻辑的质检规则,支持自定义分析标准,具备强大的多轮对话理解和语义推理能力,为企业客服质检、对话分析等场景提供专业化解决方案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19985

(0)
上一篇 2026年2月2日 上午11:24
下一篇 2026年2月2日 下午1:42

相关推荐

  • 揭秘200万奖金背后的AI方案:腾讯广告算法大赛冠军队如何用生成式推荐破解行业难题

    在国内,懂技术 —— 尤其是 AI 技术的年轻人,真的不缺崭露头角的机会。 前段时间,2025 年腾讯广告算法大赛结果揭晓,前 10 名队伍的全部成员都拿到了腾讯的录用意向书,冠军还拿到了 200 万元巨额奖金。 当时,看完选手们的答辩,腾讯公司副总裁蒋杰感慨地说,这届年轻人的知识储备令人惊叹,他们做出来的东西和工业界的实际工作非常接近,没有代差。 如果说大…

    2025年12月23日
    60600
  • 让AI自我辩驳:Google角色反转提示技巧,准确率提升40%

    如何迫使 AI 自我辩驳,揪出错误推理,产出更锐利、更可靠的答案 绝大多数用户现在及未来都将通过网页与 AI 交互。他们唯一的工具是浏览器,结果完全取决于他们能写出的提示词。因此,多数人在使用先进 AI 工具时感到隐隐的失望,也就不足为奇。 你提出一个严肃的问题。AI 的回应自信、清晰、结构完备,乍看之下相当出色。但几分钟后,你开始觉得哪里不对劲——或许是漏…

    2026年1月21日
    38200
  • 李飞飞发布全新世界模型,单GPU就能跑!实时生成永不消逝的3D宇宙

    “AI教母”李飞飞创办的 World Labs 于 2025 年 10 月 16 日正式发布新一代实时生成式世界模型 RTFM(Real-Time Frame Model)。该模型仅用单张消费级 H100 GPU 即可在交互帧率下持续渲染出物理真实、3D 一致且永久存在的虚拟世界,首次把“世界模型”推到了人人都能实时体验的门槛。RTFM 采用自回归扩散 Transformer 架构,不依赖显式 3D 表征,而是从海量视频里端到端“学会渲染”,支持单张或多张 2D 照片生成可无限漫游的 3D 场景。论文、代码与 DEMO 同步上线,被视为空间智能赛道的又一次“ChatGPT 时刻”

    2025年10月17日
    98500
  • 英特尔收购SambaNova:AI芯片市场格局重塑与推理芯片的战略博弈

    在AI算力需求爆炸式增长的背景下,英特尔考虑收购SambaNova的举动,不仅是一次简单的商业并购,更是对当前AI芯片市场格局的深度回应与战略调整。这一潜在交易背后,折射出芯片巨头在GPU主导时代寻求破局、重振AI雄心的复杂图景,同时也揭示了推理芯片赛道正成为行业竞争的新焦点。 当前,AI芯片市场呈现出明显的“GPU霸权”特征。自2022年11月OpenAI…

    2025年11月3日
    35300
  • 硅基生命物理世界首考:GDPS 2025国际具身智能技能大赛深度解析

    2025年12月12日,中国上海将迎来人工智能发展史上的关键节点——GDPS 2025全球开发者先锋大会暨国际具身智能技能大赛。这不仅是全球具身智能领域的首次大规模物理验证,更是人工智能从虚拟世界走向物理现实的重要里程碑。 从技术演进的角度分析,2023年的大模型突破为AI提供了强大的认知基础,2024年的应用探索验证了AI在数字世界的潜力,而2025年的具…

    2025年11月25日
    34000