
2月1日
- 【开源】阿里通义发布Qwen3-Coder-Next
这是一个编程智能体模型,采用总参数80B的MoE架构,每次推理仅激活3B参数。在SWE-Bench Verified测试中,问题解决率超过70%,实现了高性能与低算力成本的平衡,适合对算力敏感的本地化开发场景。
详情请参见:https://qwen.ai/blog?id=qwen3-coder-next
2月2日
-
【闭源】阿里发布wan2.6-r2v-flash
该模型能够基于参考视频和图像的角色形象,生成多镜头视频,并支持自动配音。
详情请参见:https://help.aliyun.com/zh/model-studio/wan-video-to-video-api-reference -
【开源】阶跃星辰发布Step 3.5 Flash
这是一个1960亿参数的Agent专用高速基座模型。它采用稀疏MoE架构,总参数1960亿但仅激活110亿,支持256K超长上下文。配合独创的MTP-3技术(单次预测3个token),推理速度最高可达350 TPS,在保证复杂数学推理能力的同时,显著降低了智能体应用的响应延迟。
详情请参见:https://static.stepfun.com/blog/step-3.5-flash/ -
【闭源】xAI发布Grok Imagine 1.0
该模型正式进军视频生成领域,可生成长度最长10秒、分辨率达720p的高质量视频。其核心亮点在于采用先进的音视频联合建模技术,实现了精准的声画对齐与富有情感表现力的音频合成。
详情请参见:https://x.ai/news/grok-imagine-api
2月3日
- 【开源】智谱AI发布GLM-OCR
这是一个用于复杂文档理解的多模态OCR模型,基于GLM-V编码器-解码器架构。通过引入多token预测(MTP)损失和稳定全任务强化学习,提升了训练效率、识别精度和泛化能力。该模型仅0.9B参数,在OmniDocBench V1.5上以94.62分排名第一,支持vLLM、SGLang和Ollama部署,适合高并发服务和边缘部署场景。
详情请参见:https://huggingface.co/zai-org/GLM-OCR
2月5日
-
【闭源】Anthropic发布Claude Opus 4.6
这是目前最智能的模型,专为复杂智能体任务和长时程工作设计。Opus 4.6推荐使用自适应思考模式,手动思考模式已被弃用,且不支持预填充助手消息。
详情请参见:https://www.anthropic.com/news/claude-opus-4-6 -
【闭源】OpenAI发布GPT-5.3-Codex
这是目前最强大的智能体编码模型。该模型首次结合了Codex与GPT-5的训练栈,将一流的代码生成、推理和通用智能融合于一体。其速度提升约25%,在关键基准测试中创下新高,实现了从代码生成到可主动引导的通用编程智能体的飞跃。
详情请参见:https://openai.com/zh-Hans-CN/index/introducing-gpt-5-3-codex/
2月7日
- 【闭源】Anthropic推出fast mode研究预览版
该模式用于Opus 4.6模型,通过speed参数实现显著更快的输出token生成速度。在高级定价下,快速模式的速度提升高达2.5倍。
详情请参见:https://platform.claude.com/docs/en/build-with-claude/fast-mode
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20861
