开源模型
-
MiniMax-M2.1实测:性能提升4%但响应时间翻倍,成本增加21.6%的深度评测
MiniMax新发布了M2.1版本,相比此前的M2版本,在多个维度实现了性能变化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2.1版本表现:* 测试题数:约1.5万* 总分(准确率):63.6%* 平均耗时(每次调用):111s* 平均token(每次调用消耗的token)…
-
智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显
智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…
-
AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相
12月15日 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务…
-
小米开源MiMo-V2-Flash实测:零成本大模型在长上下文与推理效率间的新平衡
小米近期开源了MiMo-V2-Flash模型,这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式(think)和非思考模式进行了全面评测,测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现:* 测试题数:约1.5万…
-
Transformer先驱的回归:8B小模型Rnj-1如何挑战AI规模竞赛的迷思
在当今AI领域被千亿参数巨兽主导的时代,Essential AI Labs推出的80亿参数开源模型Rnj-1如同一股清流,不仅是对当前AI发展路径的深刻反思,更是对轻量化、开放式AI生态的有力探索。这一由Transformer原始论文作者Ashish Vaswani和Niki Parmar主导的项目,标志着AI研究正从单纯的规模扩张转向更注重效率、可及性和技…
-
GPT-5.2-high实测:速度飙升69%但准确率下滑,成本效率面临开源模型挑战
OpenAI近期发布了GPT-5.2版本,作为GPT-5系列的最新迭代。我们对GPT-5.2-high(思考模式)与上一版本GPT-5.1-high进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.2-high版本表现:* 测试题数:约1.5万* 总分(准确率):67.4%* 平均耗时(每次调用):36s…
-
AI周报:智谱GLM-4.6V革新视觉Agent,谷歌Gemini 2.5与OpenAI GPT-5.2齐发,多模态与智能体技术迎来爆发期
12月8日 【开源】 智谱AI发布GLM-4.6V系列多模态大模型,包含GLM-4.6V(106B)云端版和GLM-4.6V-Flash(9B)轻量版。该系列模型支持128k超长上下文,在同参数规模下实现了视觉理解SOTA性能。其最大亮点在于首次将Function Call能力原生融入视觉模型架构,打通了从“视觉感知”到“可执行行动”的完整链路,为多模态Ag…
-
多模型路由时代:从OpenRouter《State of AI》报告看AI使用格局与Agent化趋势
一、报告背景:OpenRouter 在整个 AI 版图中的位置 1.1 OpenRouter 是谁?这份报告在看什么? OpenRouter 本质上是一个 多模型路由层(Model Router / Gateway) : 对上 :开发者、应用只需要对接一个 API; 对下 :OpenRouter 接入了 300+ 模型、60+ 提供方 ,覆盖了主流闭源(Op…
-
从TNT到AutoGLM:开源GUI Agent如何重塑人机交互与隐私边界
在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT…
-
INTELLECT-3:开源RL技术栈引领大规模强化学习新范式
近日,Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有106B参数的混合专家(Mixture-of-Experts)架构模型,基于其自研的强化学习技术栈进行训练。该模型在数学、代码、科学和推理等多个基准测试中取得了同规模模型中的最佳表现,甚至超越了部分参数更大的前沿模型。更重要的是,Prime Intellect将完整的训练流…