AI评测

  • 评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题

    最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…

    2026年1月19日
    6700
  • BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

    01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

    2026年1月12日
    7500
  • Gemini 3 Pro深度评测:多模态推理模型如何重塑AI生产力边界

    昨晚,谷歌发布了Gemini 3 Pro,并称其为“全球最强多模态推理模型”。尽管其拥有奥特曼点赞、马斯克服软、LMArena榜单登顶1501 Elo等光环,但对于一线用户而言,核心问题在于:它是否真正能提升生产力? 我们设计了一系列体验场景,这些测试的共同点是:不追求理论分数,而是要求模型生成可直接运行的代码或可交付的成果。 以下是具体的体验情况。 场景1…

    2025年11月19日
    7400