大模型评测

  • 阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

    核心结论:速度是Agent时代的关键竞争力 模型背景: 阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。 在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3…

    15小时前
    300
  • 告别单一成功率:北大团队推出机器人操作评估新范式,实现细粒度质量与来源真实性双重验证

    作者介绍* 刘梦源:北京大学深圳研究生院研究员,研究方向为人类行为理解与机器人技能学习。* 盛举义:北京大学在读博士研究生,研究方向为机器人操作技能学习方法。* 王梓懿、李培铭:北京大学在读硕士研究生,研究方向为视频理解分析。* 徐天铭:北京大学在读硕士研究生,研究方向为机器人操作技能学习方法。* 徐天添:中国科学院深圳先进技术研究院集成所研究员,研究领域为…

    3天前
    1200
  • 阿里Qwen3-Max新版实测:成本骤降58%,响应提速49%,性能小幅提升0.8%

    阿里近期发布的Qwen3-Max新版本 qwen3-max-2026-01-23,作为千问旗舰模型的非思考模式版本,相比上一版本(qwen3-max-2025-09-23)在多个维度实现了优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 qwen3-max-2026-01-23版本表现:* 测…

    5天前
    1600
  • Kimi-K2.5-Thinking实测:推理效率提升33%,Agent能力意外滑坡,开源模型新标杆?

    月之暗面发布了 Kimi-K2.5-Thinking 新版本,官方称其为“Kimi迄今最智能的模型”,在Agent、代码、图像、视频及一系列通用智能任务上取得了开源state-of-the-art表现。我们对新旧两个版本(Kimi-K2.5-Thinking、Kimi-K2-Thinking)进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成…

    6天前
    17700
  • ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

    百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…

    2026年1月24日
    5700
  • 文心5.0正式版发布:2.4万亿参数全模态大模型登顶全球第一梯队

    文心大模型5.0正式版发布:2.4万亿参数全模态大模型登顶全球第一梯队 文心大模型5.0正式版,现已正式发布。 这意味着,自2025年11月Preview版初露锋芒后,这个参数量高达2.4万亿、主打原生全模态的“巨无霸”模型的“完全体”已经到来。 先来看一组“入场成绩单”: 近三个月,在全球大模型竞技场LMArena上,文心5.0 Preview版多次在文本…

    2026年1月23日
    5400
  • 美团LongCat-Flash-Thinking-2601实测:5600亿参数MoE推理模型,免费但响应慢6倍?

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为一款基于MoE架构的5600亿参数大型推理模型,官方宣称其在智能体任务上有显著提升。我们对该模型进行了全面评测,测试其在准确率、响应时间、Token消耗等关键指标上的实际表现。 LongCat-Flash-Thinking-2601版本表现:* 测试题数: 约1.5万* 总分(准确…

    2026年1月23日
    5200
  • 文心一言5.0正式版深度评测:国产大模型如何突破算力桎梏,在多模态赛道站稳脚跟?

    核心结论: 文心一言5.0正式版在预览版基础上进行了针对性打磨,整体可用性有所提升,在国产大模型中站稳了第二梯队的位置。其核心优势在于长链推理、多轮对话的稳定性,但算力消耗与上下文幻觉问题仍是主要挑战。 逻辑能力表现:注1:表格为突出对比关系,仅展示部分可对照模型,非完整排序。注2:题目及测试方式,参见《大语言模型逻辑能力横评(25年12月榜)》,新增#55…

    2026年1月23日
    6900
  • 美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…

    2026年1月18日
    6000
  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    9000