AI评测

  • AI首次跨过门萨智商门槛:GPT-5.5 Pro文本IQ 130,视觉IQ 145,人类最高智商俱乐部迎来首位非人类成员

    1946年至今,「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分,GPT-5.5 Pro的文本智商达到130,恰好踩上门萨会员线;视觉智商更是飙升至145,直接杀入天才区。就在一年前,「LLM过不了130」还是技术圈的普遍共识,如今这堵墙被彻底砸碎! 这是AI第一次正式跨越门萨的入会门槛。 门萨130这道墙,这一脚踢得最…

    6天前
    38000
  • GPT-5.5发布:性能碾压Claude Opus 4.7,OpenAI反击Anthropic估值神话

    据外媒 Business Insider 报道,Anthropic 在私募二级市场的估值已突破 1 万亿美元。作为参照,OpenAI 今年 3 月末最新一轮融资的估值,仍停留在 8520 亿美元。除了业内老生常谈的「AI 泡沫论」,这组对比数据也表明了曾经稳坐头把交椅的 OpenAI,如今正在直面被追赶、被超越的压力,但没有让我们等待多久,OpenAI 的反…

    2026年4月24日
    36800
  • 腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

    刚刚,腾讯 Hy3 preview 正式发布。 这是腾讯混元团队在架构与基础设施层面全面重构后的首个版本。首批发布的模型尺寸较小,定位更侧重于实用性。 值得关注的是,Hy3 preview 是姚顺雨归国加盟腾讯后的首个重要成果,延续了他提出的“AI 下半场”理念。该模型在腾讯真实业务与复杂场景中不断打磨,聚焦于实际业务场景中的效果与实用性。 腾讯表示,新一代…

    2026年4月23日
    47900
  • AI加速超越人类:指数曲线揭示智能爆炸倒计时

    三天前,《纽约时报》刊载了一篇文章。它没有登上热搜,也未冲上 Hacker News 榜首,甚至鲜有中文翻译。但这可能是2026年春天,AI领域最重要的一篇报道。 文章的标题很朴素——《How Do You Measure an A.I. Boom?》(如何衡量AI的繁荣?)。 如果你仔细读完,会意识到一个事实:AI超越人类的速度,正在加快。 作者 Kevi…

    2026年4月21日
    22700
  • AI评测信任危机:伯克利团队10行代码攻破8大基准,作弊已成现实

    本周,AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆,是各大模型发布会上的关键指标,也是投资人评估模型价值的重要依据。然而,伯克利的研究团队揭示,仅需一个conftest.py文件即可令其防线崩溃。 不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体,对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…

    2026年4月19日
    35500
  • 阿里ATH神秘模型HappyHorse-1.0空降AI视频生成榜首,郑波团队研发即将开放API

    周二晚间,知名 AI 评测平台 Artificial Analysis 的视频生成模型榜单上,一个代号为「HappyHorse-1.0」的神秘模型空降榜首,引发了社区广泛关注。 该模型在文本生成视频与图像生成视频两项评测中均位列第一,将此前领先的 Seedance 2.0 挤至第二位。 这一表现迅速引发了关于模型研发背景的猜测。目前,该模型已被确认为阿里巴巴…

    2026年4月10日
    32200
  • MiroMind黑马归来!重型推理智能体MiroThinker-1.7霸榜多项SOTA,实测F1预测完胜ChatGPT

    由陈天桥带队的大模型团队MiroMind,正式发布了新一代重型推理智能体:MiroThinker-1.7 和 MiroThinker-H1。 “重型”意味着什么?它延续了V1.5版本的深度推理基因,旨在处理更复杂的任务并生成更精确的结果。 在多项深度研究任务的基准测试中,MiroThinker系列表现突出。其中,MiroThinker-H1刷新了多项任务的S…

    2026年3月16日
    74800
  • 中国AI视频双雄并起:Seedance 2.0与Vidu Q3组团席卷全球

    在AI视频创作领域,Seedance 2.0的爆火不是偶然。这一次真正“破圈”,很大程度上源于它所具备的“导演思维”——剧本驱动、分镜清晰、节奏精准。它让人们意识到,一个好的AI视频更需要创意调度。而过去,创作者在AI视频中最难掌握的两个要素,恰恰就是理解故事结构与镜头语言。 与此同时,另一款国产视频生成模型生数科技的Vidu Q3,也在创作者社群中走红,并…

    2026年2月12日
    38100
  • 评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题

    最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…

    2026年1月19日
    34300
  • BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平,AI看懂世界之路仍漫长

    01|“看懂世界”这关,大模型还没上幼儿园 过去一年,大模型在语言与文本推理上突飞猛进,但在面对无法用语言清晰表述的问题时,其视觉理解能力却暴露了短板。为了量化评估这一能力,UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员,发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

    2026年1月12日
    32700