AI大模型2月重磅更新盘点:阿里、阶跃星辰、智谱AI等巨头竞相发布,编程、视频、文档处理全面突破

2月1日

  • 【开源】阿里通义千问发布 Qwen3-Coder-Next
    阿里发布了编程智能体模型 Qwen3-Coder-Next。该模型采用总参数为 800 亿的混合专家架构,每次推理仅激活 30 亿参数。在 SWE-Bench Verified 测试中,其问题解决率超过 70%,在保证高性能的同时有效控制了算力成本,适合对算力敏感的本地化开发场景。

    • 技术博客:https://qwen.ai/blog?id=qwen3-coder-next

2月2日

  • 【闭源】阿里发布 Wan2.6-r2v-flash
    阿里发布视频生成模型 Wan2.6-r2v-flash。该模型可根据参考视频和图像生成特定角色的多镜头视频,并支持自动配音。

    • 官方文档:https://help.aliyun.com/zh/model-studio/wan-video-to-video-api-reference
  • 【开源】阶跃星辰发布 Step 3.5 Flash
    阶跃星辰发布了专为智能体设计的高速基座模型 Step 3.5 Flash。该模型采用稀疏混合专家架构,总参数 1960 亿,每次推理仅激活 110 亿参数,支持 256K 超长上下文。配合其独创的单次预测多 Token 技术,推理速度最高可达 350 TPS,在保持复杂数学推理能力的同时,显著降低了智能体应用的响应延迟。

    • 官方博客:https://static.stepfun.com/blog/step-3.5-flash/
  • 【闭源】xAI 发布 Grok Imagine 1.0
    xAI 正式发布视频生成模型 Grok Imagine 1.0,进军视频生成领域。该模型可生成最长 10 秒、分辨率达 720p 的视频,其核心亮点在于采用音视频联合建模技术,实现了精准的声画对齐与富有表现力的音频合成。

    • 官方公告:https://x.ai/news/grok-imagine-api

2月3日

  • 【开源】智谱 AI 发布 GLM-OCR
    智谱 AI 发布了面向复杂文档理解的多模态 OCR 模型 GLM-OCR。该模型基于 GLM-V 编码器-解码器架构,通过引入多 Token 预测损失和稳定的全任务强化学习,提升了训练效率、识别精度和泛化能力。模型仅 9 亿参数,在 OmniDocBench V1.5 基准测试中排名第一,并支持多种主流推理框架部署,适合高并发服务和边缘计算场景。

    • 模型页面:https://huggingface.co/zai-org/GLM-OCR

2月5日

  • 【闭源】Anthropic 发布 Claude Opus 4.6
    Anthropic 发布了其最智能的模型 Claude Opus 4.6,专为复杂智能体任务和长时程工作流设计。该版本推荐使用自适应思考模式,手动思考模式已被弃用,且不再支持预填充助手消息。

    • 官方新闻:https://www.anthropic.com/news/claude-opus-4-6
  • 【闭源】OpenAI 发布 GPT-5.3-Codex
    OpenAI 发布了其最强大的智能体编码模型 GPT-5.3-Codex。该模型首次结合了 Codex 与 GPT-5 的训练栈,融合了顶级的代码生成、推理和通用智能能力。其推理速度提升约 25%,在关键基准测试中创下新高,实现了从代码生成到主动引导式通用编程智能体的跨越。

    • 官方介绍:https://openai.com/zh-Hans-CN/index/introducing-gpt-5-3-codex/

2月7日

  • 【闭源】Anthropic 推出 Fast Mode 研究预览版
    Anthropic 为 Claude Opus 4.6 模型推出了 Fast Mode 研究预览版。用户可通过 speed 参数启用该模式,以获得显著更快的输出 Token 生成速度。在高级定价下,速度提升最高可达 2.5 倍。

    • 官方文档:https://platform.claude.com/docs/en/build-with-claude/fast-mode

2月11日

  • 【开源】InclusionAI 发布 Ring-2.5-1T
    蚂蚁集团旗下团队 InclusionAI 发布了 Ring-2.5-1T,这是 Ring-1T 模型的升级版。其核心亮点为“快、深、长”:生成效率提升 3 倍以上,访存开销降低 10 倍;具备深度思考能力;并能进行长达 2 小时的连续任务处理。该模型采用 MIT 协议完全开源。

    • 模型页面:https://modelscope.cn/models/inclusionAI/Ring-2.5-1T

2月12日

  • 【闭源】OpenAI 发布 GPT-5.3-Codex-Spark
    OpenAI 发布了首个专为实时编程设计的超快模型 GPT-5.3-Codex-Spark。该模型基于 Cerebras WSE-3 硬件优化,推理速度超过 1000 token/s,支持 128K 上下文,并通过 WebSocket 大幅降低延迟。在保持强劲逻辑能力的同时,提供了极致的推理速度。

    • 官方介绍:https://openai.com/index/introducing-gpt-5-3-codex-spark/
  • 【开源】MiniMax 发布 MiniMax M2.5
    MiniMax 发布了 M2.5 模型,延续了其混合专家架构的高并发优势,并显著增强了通用推理与长文本处理能力。该模型针对多轮对话与复杂逻辑场景进行了专项优化,旨在为企业提供兼具高智能与高性价比的解决方案。

    • 官方新闻:https://minimaxi.com/news/minimax-m25
  • 【开源】智谱 AI 发布 GLM-5
    智谱 AI 发布了新一代预训练模型 GLM-5。该模型在数理逻辑、代码编写及多模态理解能力上均有大幅提升,支持超长上下文,在指令遵循与复杂任务规划上表现优异,并深度适配各类推理框架以降低部署门槛。

    • 官方博客:https://z.ai/blog/glm-5
  • 【闭源】字节跳动发布 Seedance 2.0
    字节跳动发布了新一代视频创作模型 Seedance 2.0。该模型采用统一多模态架构,支持图文音视混合输入,生成质量达到业界先进水平。它支持生成 15 秒长视频与双声道音频,大幅提升了工业级创作的可控性与一致性。

    • 官方页面:https://seed.bytedance.com/seedance2_0

2月13日

  • 【闭源】字节跳动推出 Seedream 5.0 Lite
    字节跳动推出了智能图像创作模型 Seedream 5.0 Lite。该模型引入了“深度思考”与实时搜索增强能力,通过统一多模态架构提升了图文对齐准确性与物理规律遵循度,能够理解模糊指令并结合时效性信息进行创作。

    • 官方页面:https://seed.bytedance.com/en/seedream5_0_lite

2月14日

  • 【闭源】字节跳动发布豆包 Seed2.0 系列模型
    字节跳动发布了豆包 Seed2.0 系列模型,包含 Pro、Lite、Mini 三款通用智能体模型以及一款专门的代码模型。该系列重点优化了视觉与多模态理解能力,对复杂文档、表格和视频内容的解析更为精准,同时大幅提升了执行多约束、长链路复杂指令的可靠性。

    • 官方页面:https://seed.bytedance.com/

2月16日

【开源】阿里发布最新多模态模型 Qwen3.5-Plus
阿里推出最新模型 Qwen3.5-Plus,支持文本、图像和视频多模态输入。该模型在语言理解、逻辑推理、代码生成、智能体任务、图像与视频理解、图形用户界面(GUI)操作等多种任务中表现卓越,并支持内置工具调用。

  • 模型详情:https://help.aliyun.com/zh/model-studio/text-generation
  • 直接体验:https://nonelinear.com/static/models.html

【开源】蚂蚁集团发布高效即时模型 Ling-2.5-1T
蚂蚁集团 InclusionAI 团队发布 Ling-2.5-1T,这是其百灵(Ling)家族迄今最强的即时模型。该模型在效率与效果间取得平衡,以约四分之一的令牌消耗逼近前沿思考模型的推理水平,并采用 MIT 协议完全开源。

  • 模型详情:https://modelscope.cn/models/inclusionAI/Ling-2.5-1T

2月19日

【闭源】谷歌发布 Gemini 3.1 Pro 预览版
谷歌发布 Gemini 3.1 Pro 预览版,这是全新 Gemini 3 系列的最新迭代。该版本提供了更强的思维推理能力、更高的令牌效率以及更贴近实际、事实一致性更强的体验。模型特别针对软件工程行为、智能体工作流及多步工具使用的可靠性进行了优化。

  • 官方介绍:https://ai.google.dev/gemini-api/docs/models/gemini-3.1-pro-preview?hl=zh-cn
  • 国内体验:https://nonelinear.com/static/models.html

2月20日

【开源】阿里发布新一代代码生成模型 Qwen3-Coder-Next
阿里发布 Qwen3-Coder-Next,这是 Qwen3 系列的新一代开源代码生成模型。该模型支持多轮工具交互,显著提升了对仓库级别代码的理解能力,并增强了对各类 AI 编程工具的适配性。

  • 模型详情:https://help.aliyun.com/zh/model-studio/qwen-coder

2月25日

【开源】阿里通义发布 Qwen3.5 中等规模模型系列
阿里通义发布 Qwen3.5 中等规模模型系列,包括:
Qwen3.5-Flash:生产级托管版,默认支持 100 万上下文。
Qwen3.5-35B-A3B:小体积高性能版,性能已超越 Qwen3-235B-A22B。
Qwen3.5-122B-A10B:旗舰开源版。
Qwen3.5-27B:针对智能体(Agent)场景优化。

所有模型均支持视觉-语言多模态输入,原生支持 256K 上下文,最高可扩展至 1M tokens。

  • 模型集详情:https://modelscope.cn/collections/Qwen/Qwen35
  • 直接体验:https://nonelinear.com/static/models.html

2月26日

【闭源】谷歌发布 Gemini 3.1 Flash Image Preview
谷歌发布 Gemini 3.1 Flash Image Preview(代号 Nano Banana 2),作为 Gemini 3 Pro Image 的高效版本,以主流价格提供低延迟的图像生成能力。关键更新包括:支持 0.5K/2K/4K 分辨率输出(默认 1K)、整合文本与图像搜索结果的图像搜索基础能力、新增 1:4/4:1/1:8/8:1 宽高比、改进图像质量一致性与国际化文本渲染。

  • 官方介绍:https://ai.google.dev/gemini-api/docs/models/gemini-3.1-flash-image-preview
  • 国内体验:https://nonelinear.com/static/models.html

其他更新

【开源】小红书 FireRedTeam 发布通用图像编辑模型 FireRed-Image-Edit-1.0
小红书 FireRedTeam 发布通用图像编辑模型 FireRed-Image-Edit-1.0。据报道,该模型在多个主流基准测试中全面超越现有开源方案,部分维度甚至逼近闭源商业模型。

  • 模型详情:https://modelscope.cn/models/FireRedTeam/FireRed-Image-Edit-1.0

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/23610

(0)
上一篇 9小时前
下一篇 4小时前

相关推荐

  • 资深工程师构建AI系统的实战方法论:从约束到防御性设计

    Image by SORA “我该用哪一个模型?”——初级工程师会这样问。“哪里会先坏?”——资深工程师会这样问。 大多数 AI 程序在演示中光鲜亮丽,在生产中却悄无声息地失效,原因就在这里。 AI 并没有让软件工程变简单。它只是揭示了谁本来就做得好。 模型是最容易的部分——如果你见过一个 AI 功能在预发布环境里一切顺利,却在真实流量、脏数据和不可预测的用…

    2026年1月25日
    12000
  • 华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命

    在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…

    2025年12月5日
    16600
  • AI视频生成技术新突破:Sora引领内容创作革命与产业变革

    近年来,AI视频生成技术正以惊人的速度发展,从早期简单的图像动画到如今能够生成高质量、连贯性强的视频内容,这一领域的技术突破正在深刻改变内容创作、娱乐产业乃至商业应用的格局。本文将深入分析当前AI视频生成技术的最新进展、核心挑战、应用场景及未来趋势,探讨其如何重塑我们的视觉世界。 ### 技术演进:从静态到动态的跨越 AI视频生成技术的发展经历了多个关键阶段…

    AI产业动态 2025年6月28日
    14100
  • 多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

    在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模…

    2025年11月28日
    13200
  • MiniMax M2.5:230B参数MoE架构仅激活10B,开源模型性能逼近Claude Opus,成本骤降90%

    MiniMax推出了新一代开源模型M2.5,官方称其为“为现实世界生产力设计的开源前沿模型”。 性能数据:逼近Claude Opus 关键性能指标显示M2.5已跻身顶级模型行列:* SWE-Bench Verified 80.2%:与Claude Opus 4.6持平* BrowseComp 76.3%:行业领先的搜索和工具使用能力* Multi-SWE-B…

    2026年2月13日
    10500