AI大模型周报：阿里通义、阶跃星辰、智谱AI、Anthropic、OpenAI等巨头密集发布新模型，涵盖编程、视频生成、文档理解与智能体应用

3天前 • AI产业动态 • 阅读 4

【开源】阿里通义发布Qwen3-Coder-Next
这是一个编程智能体模型，采用总参数80B的MoE架构，每次推理仅激活3B参数。在SWE-Bench Verified测试中，问题解决率超过70%，实现了高性能与低算力成本的平衡，适合对算力敏感的本地化开发场景。
详情请参见：https://qwen.ai/blog?id=qwen3-coder-next

【闭源】阿里发布wan2.6-r2v-flash
该模型能够基于参考视频和图像的角色形象，生成多镜头视频，并支持自动配音。
详情请参见：https://help.aliyun.com/zh/model-studio/wan-video-to-video-api-reference
【开源】阶跃星辰发布Step 3.5 Flash
这是一个1960亿参数的Agent专用高速基座模型。它采用稀疏MoE架构，总参数1960亿但仅激活110亿，支持256K超长上下文。配合独创的MTP-3技术（单次预测3个token），推理速度最高可达350 TPS，在保证复杂数学推理能力的同时，显著降低了智能体应用的响应延迟。
详情请参见：https://static.stepfun.com/blog/step-3.5-flash/
【闭源】xAI发布Grok Imagine 1.0
该模型正式进军视频生成领域，可生成长度最长10秒、分辨率达720p的高质量视频。其核心亮点在于采用先进的音视频联合建模技术，实现了精准的声画对齐与富有情感表现力的音频合成。
详情请参见：https://x.ai/news/grok-imagine-api

【开源】智谱AI发布GLM-OCR
这是一个用于复杂文档理解的多模态OCR模型，基于GLM-V编码器-解码器架构。通过引入多token预测（MTP）损失和稳定全任务强化学习，提升了训练效率、识别精度和泛化能力。该模型仅0.9B参数，在OmniDocBench V1.5上以94.62分排名第一，支持vLLM、SGLang和Ollama部署，适合高并发服务和边缘部署场景。
详情请参见：https://huggingface.co/zai-org/GLM-OCR

【闭源】Anthropic发布Claude Opus 4.6
这是目前最智能的模型，专为复杂智能体任务和长时程工作设计。Opus 4.6推荐使用自适应思考模式，手动思考模式已被弃用，且不支持预填充助手消息。
详情请参见：https://www.anthropic.com/news/claude-opus-4-6
【闭源】OpenAI发布GPT-5.3-Codex
这是目前最强大的智能体编码模型。该模型首次结合了Codex与GPT-5的训练栈，将一流的代码生成、推理和通用智能融合于一体。其速度提升约25%，在关键基准测试中创下新高，实现了从代码生成到可主动引导的通用编程智能体的飞跃。
详情请参见：https://openai.com/zh-Hans-CN/index/introducing-gpt-5-3-codex/

【闭源】Anthropic推出fast mode研究预览版
该模式用于Opus 4.6模型，通过speed参数实现显著更快的输出token生成速度。在高级定价下，快速模式的速度提升高达2.5倍。
详情请参见：https://platform.claude.com/docs/en/build-with-claude/fast-mode

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/20861