本周(2025-12-22起) AI日报：智谱/字节/MiniMax冲刺IPO / 钉钉发布Agent OS / 通义千问Qwen Code生态升级

大模型与开源

● 智谱AI上线并开源新一代大模型GLM-4.7
该版本在编码、推理与智能体能力上实现显著提升。在SWE-bench Verified中获得73.8%的SOTA分数，工具调用任务τ²-Bench得分87.4分，超越Claude Sonnet 4.5。
🔗 原文

● MiniMax发布新一代大模型MiniMax M2.1
该版本在多语言编程与真实世界复杂任务处理上实现显著突破。在SWE-bench Verified基准测试中获得74分，超越Claude Sonnet 4.5。其创新的VIBE基准测试显示，M2.1在全栈应用构建能力上接近顶级闭源模型水平。
🔗 原文

● 字节跳动发布新一代形式化数学推理专用模型Seed Prover 1.5
模型采用全新的Agentic Prover架构，能自主调用数学库搜索、代码执行等工具进行增量式证明。在IMO 2025测试中，模型以35/42的成绩达到金牌分数线；在Putnam竞赛历史题集上解决率达88%，刷新多项SOTA记录。
🔗 原文

● 阿里开源图像编辑模型Qwen-Image-Edit-2511
显著提升人物一致性与风格稳定性，集成LoRA模块实现光照、材质及视角控制。实测显示其人像融合、文字渲染效果自然，但几何推理与精细镜头控制仍有不足。
🔗 原文

● 小米正式发布并开源新模型MiMo-V2-Flash
模型采用MoE架构，总参数3090亿，活跃参数150亿。在多项基准测试中表现优异，其编程能力尤为突出，在SWE-bench测试中以73.4%的解决率超越所有开源模型。模型通过混合滑动窗口注意力、多Token预测等技术创新，实现了150 tokens/秒的高推理速度及极低的推理成本。
🔗 原文

● 英伟达开源通用游戏AI模型NitroGen
模型能通过观看游戏画面直接生成手柄操作信号，支持跨1000余款不同类型游戏的零样本游玩。模型基于4万小时游戏视频数据集训练，采用为机器人设计的GR00T架构，具备强大的跨游戏泛化能力。
🔗 原文

视频与音频生成

● 生数科技联合清华大学开源视频生成加速框架TurboDiffusion
最高可实现200倍推理加速，推动AI视频生成迈入“实时生成”时代。框架通过低比特注意力加速、稀疏-线性注意力等四项核心技术，在单张RTX 5090显卡上能将生成1080P高清视频的时间从分钟级压缩至秒级，几乎不影响生成质量。
🔗 原文

● 字节跳动发布新一代音视频创作模型Seedance 1.5 pro
实现音视频联合生成。模型支持从文本到音视频的合成及图像引导生成，在精准音画同步、多语言与方言口型匹配、电影级运镜控制及动态叙事表现上取得突破。
🔗 原文

● 美团发布并开源SOTA级虚拟人视频生成模型LongCat-Video-Avatar
模型在动作拟真度、长视频稳定性与身份一致性三大维度实现显著突破。模型原生支持音视频联合生成及视频续写等功能，通过创新的跨片段隐空间拼接技术，有效解决了长视频生成中的画质退化问题，可稳定生成5分钟高质量视频。
🔗 原文

● 阿里巴巴发布通义万相2.6多模态模型
是国内首个支持角色扮演功能的视频生成系统。模型支持音画同步、多镜头叙事和音频驱动生成，可直出15秒高清视频。角色扮演功能允许用户上传参考视频，AI能复刻角色外观与音色，生成单人或多人表演内容。
🔗 原文

● 阿里通义发布新一代端到端语音交互模型Fun-Audio-Chat
模型采用创新的端到端序列到序列架构，实现从语音输入直接生成语音输出，无需传统ASR+LLM+TTS多模块拼接，显著降低延迟。在OpenAudioBench、MMAU等多个权威评测中，模型在同尺寸模型中排名第一，综合性能超越GLM4-Voice、Kimi-Audio等主流产品。
🔗 原文

● Meta发布首个统一多模态音频分离模型SAM Audio
支持通过文本、视觉或时间段提示从复杂音频中精准提取目标声音。模型基于感知编码器视听技术，用户可点击视频中物体分离对应音频，或输入“狗吠”等文本指令过滤噪音。
🔗 原文

AI编程与开发工具

● 智谱推出轻量级AI IDE编程工具：Zcode
深度融合AI Agent与开发工具链。工具支持跨仓库全代码库理解、多仓库上下文推理及自动化代码审查，具备对话变更自动保存、代码回滚、可视化Git界面等功能，针对前端开发集成内置浏览器和元素选择器，助力开发者高效协作，无缝融入现有工作流。
🔗 原文

● 通义千问Qwen Code发布v0.5.0版本
实现从命令行工具向开发生态的关键升级。本次更新重磅推出VSCode插件，开发者可在IDE内直接唤出AI对话界面进行编程。同时发布的TypeScript SDK允许开发者以编程方式集成其智能能力，便于构建Web或移动应用。
🔗 原文

● OpenAI发布迄今最先进的智能体编码模型GPT-5.2-Codex
模型在复杂软件工程任务中实现重大突破。新版本显著提升了指令遵循能力、长上下文理解及网络安全防护性能，在SWE-Bench Pro和Terminal-Bench 2.0等基准测试中达到最先进水平。独特的上下文压缩技术可高效处理大型代码库，支持复杂重构与迁移任务。
🔗 原文

AI应用与产品

● 钉钉发布全球首个为AI打造的工作智能操作系统Agent OS
重构企业工作方式。系统作为全球首个为AI打造的工作智能操作系统，可统一调度和管理各类AI智能体。核心组件包括交互界面“钉钉ONE”、通用智能体“悟空”及企业级AI硬件“DingTalk Real”。
🔗 原文

● 小红书开源InstanceAssemble：让AI精准还原复杂图像排版
小红书与复旦大学联合推出布局控制生成方案InstanceAssemble，通过创新“实例组装注意力”机制，实现了从简单布局到密集复杂场景的精准图像生成。技术能根据用户指定的物体位置和内容描述，在对应位置高精度生成图像，解决了布局对齐不准的行业难题。
🔗 原文

● 商汤科技发布AI办公智能体“小浣熊3.0”
实现从生成草稿到交付成品的三大跃迁。智能体具备一键生成高质量PPT能力，支持图表、图片等全元素编辑，可交付直接可用的演示文稿。其“长链条思考”能力支持百万级数据量秒级处理与多模态分析，能深度理解复杂任务。
🔗 原文

● 腾讯正式发布混元世界模型1.5（WorldPlay）
是国内首个支持实时交互体验的世界模型。用户通过文字或图片输入即可生成专属3D互动世界，能通过键盘、鼠标或手柄自由探索。模型具备24FPS实时生成、分钟级3D几何一致性及空间记忆能力，离开后返回场景保持一致。
🔗 原文

● 苹果公司宣布开源其新型AI模型SHARP
能在一秒内将单张2D照片转换为逼真的3D场景。与传统方案相比，处理速度提升了三个数量级，实现了近乎实时的3D转换体验。模型基于先进的3D高斯泼溅技术，通过神经网络单次前馈即可预测数百万个3D高斯球的位置与外观。
🔗 原文

行业动态与融资

● MiniMax通过港交所聆讯，有望成为“AGI全球第一股”
MiniMax通过港交所聆讯并披露招股书，冲刺IPO。MiniMax成立于2022年初，若成功上市，将是全球从成立到IPO最快的AI公司。2024年，MiniMax收入同比增长782%至3050万美元，净亏损为4.65亿美元。
🔗 原文

● 智谱冲刺港股“大模型第一股”，估值244亿
智谱通过港交所聆讯，冲刺港股“大模型第一股”。智谱成立于2019年6月，是中国最大型的独立通用大模型开发商、中国第二大整体通用大模型开发商。其MaaS平台提供语言、多模态、智能体、代码四类模型，支持本地化和云端部署。2025年11月，智谱日均token消耗量达4.2万亿，已为约8000万台设备提供支持。
🔗 原文

● 曦诺未来宣布完成超亿元天使轮融资，宁德时代和小米投了
杭州灵巧手企业曦诺未来今日宣布完成超亿元天使轮融资，由宁德时代旗下溥泉资本领投，小米战投等跟投。该公司成立数月即研发出全球首款全自研高自由度腱绳驱动灵巧手Xynova Flex 1，拥有25个自由度，自重仅380克，负载超30公斤。
🔗 原文

● 面壁智能完成数亿元融资，加码投入领跑端侧AI
面壁智能近日宣布完成数亿元融资，投资方包括京国瑞、国科投资、中金保时捷基金等多家机构。本轮融资将主要用于加大端侧高效大模型的研发投入，加速端侧AI的商业化进程。
🔗 原文