大模型评测

  • BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

    01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

    2026年1月12日
    7400
  • 国产具身智能新突破:千寻Spirit v1.5开源即登顶全球真机评测榜首

    全球榜单中唯一成功率超过50%的模型。 智东西1月12日报道,今日,千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天,该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务,如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分,…

    2026年1月12日
    8800
  • 视觉压缩革命:DeepSeek-OCR与VTCBench如何重塑长文本理解的未来?

    DeepSeek-OCR 提出的视觉文本压缩(Vision-Text Compression, VTC)技术,通过将文本编码为视觉 Token,实现了高达 10 倍的压缩率,显著降低了大模型处理长文本的计算与显存成本。然而,一个核心问题随之浮现:视觉语言模型(VLM)能否真正理解这种高度压缩后的高密度信息? 为了系统性地评估模型在视觉压缩范式下的认知能力,来…

    2026年1月10日
    6600
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    4200
  • 大模型评测实战:从Benchmark幻象到业务落地的量化艺术

    当我们谈论大模型应用开发时,评测环节往往是那个“既重要又棘手”的存在。它决定了产品能否真正解决用户问题,却又充满了难以量化的灰色地带。这篇文章,聊聊在实践中对评测的一些观察与思考。 为什么公开Benchmark的参考价值有限 各家模型发布时,漂亮的Benchmark数据总是标配。如果仅看这些数字,似乎AGI已经近在咫尺。然而现实往往给人当头一棒——Ilya在…

    2026年1月8日
    8800
  • 智谱GLM-4.7深度评测:Agentic Coding新标杆还是仍有短板?

    智谱AI近期发布了其2025年中的旗舰模型GLM-4.7,该版本的核心定位是强化Agentic Coding能力。 一句话总结:GLM-4.7在文本理解与创意写作方面表现突出,但在复杂代码生成与多模态理解上仍有明显不足,距离成为“Agentic Coding新标杆”尚需努力。 核心评测结论:* 三大亮点: * 基础推理扎实:在数学计算、逻辑推理、文本处理等基…

    2026年1月4日
    55700
  • 大模型编程应用测试-V3榜单:以工程应用标准量化模型能力

    #0 前言 笔者最早的编程测试V1采用传统的3 Pass测试法,25年下半年迭代了更贴近多轮场景的V2测试法。但仅测试3轮的V2方法局限性仍然很大。首先,该方法只观察模型在3轮自主修复中能取得的最终成绩,而实际Agent场景中,编程模型拥有几乎无限的轮次,只要能解决问题即可。其次,V2方法只提供运行结果反馈,不提供工具,而实际Agent可以借助Lint/Co…

    2026年1月3日
    7400
  • 豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测

    豆包AI现场激辩罗永浩:实时语音大模型通过“人机舌战”极限公测 罗永浩的年度科技创新分享大会,刷屏全网。 复盘整场四个多小时的直播,观众集体回味讨论的焦点似乎就两个: 第一,不知是因为迟到了40多分钟,还是提前就有谋划,罗永浩现场宣布给所有购票观众退票。 第二,罗永浩这张网络名嘴和豆包AI之间的“人机舌战”竟成最大亮点,火爆出圈。 光看二位的辩题,就已火药味…

    2026年1月1日
    14900
  • 阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%

    阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现:* 测试题数: 约1.5万* …

    2025年12月30日
    10600
  • GAPS框架:全球首个专病循证评测标准,AI医生临床能力迎来硬核标尺

    蚂蚁健康与北京大学人民医院王俊院士团队联合发布全球首个大模型专病循证评测框架 蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——GAPS (Grounding, Adequacy, Perturbation, Safety) ,及其配套评测集 GAPS-NSCLC-preview。…

    2025年12月29日
    11200