AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮

AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮

12月1日

【开源】阶跃星辰开源GELab-Zero
阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨在推动GUI领域模型评测向消费级、规模化应用发展。

模型链接:https://modelscope.cn/models/stepfun-ai/GELab-Zero-4B-preview

【开源】美团开源LongCat-Image系列
美团开源了LongCat-Image系列模型,包含一个基础生成模型、一个编辑模型及一个开发中间态模型,为开发者提供高效的双语图像生成与编辑能力。核心的LongCat-Image基础模型仅用6B参数,即在多项基准测试中取得领先,其关键优势在于卓越的中文文本渲染能力和出色的图像逼真度。LongCat-Image-Edit编辑模型支持基于中英文指令的精确图像修改,在实现开源SOTA性能的同时,能严格保持非编辑区域的视觉一致性。该系列配套开源了生产就绪的全栈训练代码,覆盖从数据整理、微调到对齐的完整流程。

模型链接:https://modelscope.cn/collections/LongCat-Image-17ef53fc3b4042

12月2日

【开源】Mistral AI发布Mistral 3系列
Mistral AI发布了新一代Mistral 3系列模型,全部采用Apache 2.0协议开源。旗舰模型Mistral Large 3采用MoE架构(激活参数41B/总参数675B),在开源非推理模型中排名第二,支持图像理解和多语言处理。同时推出的Ministral 3系列(3B/8B/14B)面向边缘场景,每个尺寸都有base、instruct、reasoning三个变体,其中14B reasoning版在AIME ’25测试中达到85%准确率。所有模型均支持多模态和40+种语言。

官方公告:https://mistral.ai/news/mistral-3

【开源】DeepSeek发布V3.2正式版
DeepSeek发布了两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2平衡了推理能力与输出长度,适合日常使用,在公开推理类Benchmark测试中达到GPT-5水平,略低于Gemini-3.0-Pro。DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,性能表现媲美Gemini-3.0-Pro。

模型链接:https://modelscope.cn/collections/DeepSeek-V32-29d54eab6f3a4d

12月4日

【闭源】阿里发布通义千问系列模型更新
阿里发布了多款通义千问系列模型更新:
* qwen3-omni-flash-2025-12-01:通义千问Omni最新快照模型,支持的音色增加至49种,指令跟随能力大幅升级,能高效理解文本、图像、音频、视频。
* qwen-plus-2025-12-01:Qwen3 Plus系列的最新版本。
* qwen3-omni-flash-realtime-2025-12-01:通义千问Omni实时版最新快照模型,提供低延迟的多模态交互能力。
* qwen3-livetranslate-flash系列:音视频翻译模型,支持18种语言互译,可结合视觉上下文提升翻译准确性,并输出文本与语音。

详情请参见:https://help.aliyun.com/zh/model-studio/qwen-omni

12月5日

【闭源】腾讯混元发布HY 2.0模型
腾讯混元发布了最新版语言模型Tencent HY 2.0 Think和Tencent HY 2.0 Instruct。HY 2.0采用混合专家(MoE)架构,总参数406B,激活参数32B,支持256K上下文窗口。官方称其在推理能力与效率上居国内顶尖行列,在文本创作与复杂指令遵循等实用场景上表现突出。

官方文档:https://cloud.tencent.com/document/product/1729/104753


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14569

(0)
上一篇 2025年12月8日 上午11:20
下一篇 2025年12月8日 下午1:04

相关推荐

  • Real Deep Research:AI研究自动化革命,让机器读懂整个学科

    在人工智能研究呈现指数级增长的今天,科研人员面临着一个日益严峻的挑战:如何从海量文献中高效追踪前沿动态、识别关键趋势并发现跨领域机遇?传统的人工文献综述方法已难以跟上研究产出的速度,而现有的自动化工具又往往缺乏领域深度和专家洞察。加州大学圣迭戈分校与Nvidia等机构联合提出的Real Deep Research(RDR)系统,正试图通过系统化的自动化流程与…

    2025年11月2日
    16600
  • 大语言模型驱动的勒索软件3.0:AI如何重塑网络攻击范式

    当大语言模型(LLM)技术正广泛应用于代码生成、数据分析等生产力场景时,网络安全领域却悄然出现了一个令人警醒的转折点——黑客已开始将LLM改造为“全自动攻击指挥官”。纽约大学坦登工程学院的研究团队近期披露的第三代勒索软件概念形态(Ransomware 3.0),标志着首个由LLM全程编排的勒索软件诞生。这一新型攻击模式不再依赖预装恶意代码,而是在攻击过程中实…

    2025年10月31日
    16900
  • 循环语言模型Ouro:在预训练中构建推理能力的新范式

    在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理…

    2025年11月4日
    19700
  • Meta揭秘:保障万亿参数AI模型稳定训练的硬件可靠性之战

    关键词:AI 硬件可靠性、沉默数据损坏(SDC)、故障检测机制、硬件故障缓解、Meta 硬件故障会对 AI 训练和推理产生重大影响。 静默数据损坏(SDC,指由硬件导致、未被检测到的数据错误)对 AI 系统的危害尤为严重——这类系统无论是训练过程还是生成有用输出,都依赖于准确的数据。 本文将分享 Meta 在不同规模下,为检测 AI 和非 AI 基础设施中的…

    2026年1月29日
    20400
  • AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

    斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

    2025年10月24日
    57500