AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮

AI模型周报:阶跃星辰GUI Agent破纪录,Mistral 3系列开源引领多模态浪潮

12月1日

【开源】阶跃星辰开源GELab-Zero
阶跃星辰开源了GELab-Zero,首次将GUI Agent模型与完整的配套基础设施同步开放,支持一键部署。其4B参数的GUI Agent模型在手机端、电脑端等多个GUI基准测试中全面刷新了同尺寸模型的性能纪录,取得了SOTA成绩。此外,阶跃还开源了基于真实业务场景的自建评测标准AndroidDaily,旨在推动GUI领域模型评测向消费级、规模化应用发展。

模型链接:https://modelscope.cn/models/stepfun-ai/GELab-Zero-4B-preview

【开源】美团开源LongCat-Image系列
美团开源了LongCat-Image系列模型,包含一个基础生成模型、一个编辑模型及一个开发中间态模型,为开发者提供高效的双语图像生成与编辑能力。核心的LongCat-Image基础模型仅用6B参数,即在多项基准测试中取得领先,其关键优势在于卓越的中文文本渲染能力和出色的图像逼真度。LongCat-Image-Edit编辑模型支持基于中英文指令的精确图像修改,在实现开源SOTA性能的同时,能严格保持非编辑区域的视觉一致性。该系列配套开源了生产就绪的全栈训练代码,覆盖从数据整理、微调到对齐的完整流程。

模型链接:https://modelscope.cn/collections/LongCat-Image-17ef53fc3b4042

12月2日

【开源】Mistral AI发布Mistral 3系列
Mistral AI发布了新一代Mistral 3系列模型,全部采用Apache 2.0协议开源。旗舰模型Mistral Large 3采用MoE架构(激活参数41B/总参数675B),在开源非推理模型中排名第二,支持图像理解和多语言处理。同时推出的Ministral 3系列(3B/8B/14B)面向边缘场景,每个尺寸都有base、instruct、reasoning三个变体,其中14B reasoning版在AIME ’25测试中达到85%准确率。所有模型均支持多模态和40+种语言。

官方公告:https://mistral.ai/news/mistral-3

【开源】DeepSeek发布V3.2正式版
DeepSeek发布了两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2平衡了推理能力与输出长度,适合日常使用,在公开推理类Benchmark测试中达到GPT-5水平,略低于Gemini-3.0-Pro。DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,性能表现媲美Gemini-3.0-Pro。

模型链接:https://modelscope.cn/collections/DeepSeek-V32-29d54eab6f3a4d

12月4日

【闭源】阿里发布通义千问系列模型更新
阿里发布了多款通义千问系列模型更新:
* qwen3-omni-flash-2025-12-01:通义千问Omni最新快照模型,支持的音色增加至49种,指令跟随能力大幅升级,能高效理解文本、图像、音频、视频。
* qwen-plus-2025-12-01:Qwen3 Plus系列的最新版本。
* qwen3-omni-flash-realtime-2025-12-01:通义千问Omni实时版最新快照模型,提供低延迟的多模态交互能力。
* qwen3-livetranslate-flash系列:音视频翻译模型,支持18种语言互译,可结合视觉上下文提升翻译准确性,并输出文本与语音。

详情请参见:https://help.aliyun.com/zh/model-studio/qwen-omni

12月5日

【闭源】腾讯混元发布HY 2.0模型
腾讯混元发布了最新版语言模型Tencent HY 2.0 Think和Tencent HY 2.0 Instruct。HY 2.0采用混合专家(MoE)架构,总参数406B,激活参数32B,支持256K上下文窗口。官方称其在推理能力与效率上居国内顶尖行列,在文本创作与复杂指令遵循等实用场景上表现突出。

官方文档:https://cloud.tencent.com/document/product/1729/104753


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14569

(0)
上一篇 2025年12月8日 上午11:20
下一篇 2025年12月8日 下午1:04

相关推荐

  • 多模型协同决策:LLM议会系统如何重塑AI评估范式

    在人工智能技术快速迭代的当下,大语言模型(LLM)的性能评估与协同应用正成为行业关注的焦点。近期,知名AI研究者卡帕西(Karpathy)推出的“LLM议会”(LLM Council)项目,通过构建一个多模型协同决策的Web应用,为这一领域带来了全新的探索视角。该系统不仅实现了多个主流大模型的并行调用与答案生成,更引入了模型间匿名互评与主席模型汇总的机制,为…

    2025年11月23日
    16300
  • 字节豆包Seed 2.0 Mini实测:轻量级AI模型如何实现成本效益与性能平衡?

    字节跳动近期正式发布了Seed 2.0系列,该系列针对大规模生产环境进行了系统性优化,旨在处理真实世界中的复杂任务。通过提供Pro、Lite、Mini及Code/Preview等全系列尺寸,该系列旨在为不同规模与复杂度的应用场景提供专业级支持。 本次评测的Doubao-Seed-2.0-mini是该系列的轻量级版本,面向低时延、高并发与成本敏感场景,强调快速…

    2026年2月25日
    79000
  • 对话式AI的情感革命:从文字交互到实时陪伴的万亿产业跃迁

    在人工智能技术快速演进的今天,一段小女孩与AI玩具告别的视频引发了广泛的社会讨论。这看似简单的场景背后,实则揭示了对话式AI技术正在突破传统交互边界,悄然融入人类情感世界的深层变革。当AI不再仅仅是冰冷的工具,而是能够承载情感连接的伙伴时,我们正站在人机关系重塑的历史节点上。 传统AI交互大多停留在“短信时代”的异步模式:用户输入问题,AI输出文字回复。这种…

    2025年11月5日
    18300
  • AI过度使用引发“烧脑”危机:哈佛研究揭示认知过载与工作压力剧增

    过度依赖人工智能工具,非但未能如预期般减轻工作负担,反而可能引发一种新型的职业疲劳——“AI烧脑”。哈佛大学的一项最新研究揭示了这一现象背后的认知过载与压力剧增问题。 研究指出,问题的核心并非AI使人变笨,而在于人类认知速度难以匹配AI的处理节奏,导致了 “认知降维打击下的压力过载” 。从过去手动编写或整合代码,转变为如今持续监督AI Agent工作,工作流…

    1天前
    8800
  • 图灵奖得主Yann LeCun离职Meta创业:以世界模型推动高级机器智能革命

    近日,人工智能领域的标志性人物、图灵奖得主Yann LeCun宣布将在年底离开Meta,并创立一家专注于高级机器智能(Advanced Machine Intelligence,AMI)的初创公司。这一消息在科技界引发广泛关注,不仅因为LeCun作为深度学习先驱的行业地位,更因为其新公司的目标直指AI发展的核心挑战——构建能够理解物理世界、具备持久记忆和复杂…

    2025年11月20日
    16500