AI评测 - 鲸林向海

AI首次跨过门萨智商门槛：GPT-5.5 Pro文本IQ 130，视觉IQ 145，人类最高智商俱乐部迎来首位非人类成员

1946年至今，「人类最高智商俱乐部」门萨即将首次迎来一位非人类成员。根据LisanBench最新跑分，GPT-5.5 Pro的文本智商达到130，恰好踩上门萨会员线；视觉智商更是飙升至145，直接杀入天才区。就在一年前，「LLM过不了130」还是技术圈的普遍共识，如今这堵墙被彻底砸碎！这是AI第一次正式跨越门萨的入会门槛。门萨130这道墙，这一脚踢得最…

6天前

380000

AI产业动态

GPT-5.5发布：性能碾压Claude Opus 4.7，OpenAI反击Anthropic估值神话

据外媒 Business Insider 报道，Anthropic 在私募二级市场的估值已突破 1 万亿美元。作为参照，OpenAI 今年 3 月末最新一轮融资的估值，仍停留在 8520 亿美元。除了业内老生常谈的「AI 泡沫论」，这组对比数据也表明了曾经稳坐头把交椅的 OpenAI，如今正在直面被追赶、被超越的压力，但没有让我们等待多久，OpenAI 的反…

2026年4月24日

368000

AI产业动态

腾讯混元Hy3预览版发布：姚顺雨领衔，智能体与代码能力升级

刚刚，腾讯 Hy3 preview 正式发布。这是腾讯混元团队在架构与基础设施层面全面重构后的首个版本。首批发布的模型尺寸较小，定位更侧重于实用性。值得关注的是，Hy3 preview 是姚顺雨归国加盟腾讯后的首个重要成果，延续了他提出的“AI 下半场”理念。该模型在腾讯真实业务与复杂场景中不断打磨，聚焦于实际业务场景中的效果与实用性。腾讯表示，新一代…

2026年4月23日

479000

大模型评测

AI加速超越人类：指数曲线揭示智能爆炸倒计时

三天前，《纽约时报》刊载了一篇文章。它没有登上热搜，也未冲上 Hacker News 榜首，甚至鲜有中文翻译。但这可能是2026年春天，AI领域最重要的一篇报道。文章的标题很朴素——《How Do You Measure an A.I. Boom?》（如何衡量AI的繁荣？）。如果你仔细读完，会意识到一个事实：AI超越人类的速度，正在加快。作者 Kevi…

2026年4月21日

227000

大模型评测

AI评测信任危机：伯克利团队10行代码攻破8大基准，作弊已成现实

本周，AI评测领域经历了一场严重的信任危机。 SWE-bench作为业界公认的AI编程能力标杆，是各大模型发布会上的关键指标，也是投资人评估模型价值的重要依据。然而，伯克利的研究团队揭示，仅需一个conftest.py文件即可令其防线崩溃。不仅如此。伯克利RDI团队构建了一个自动化漏洞扫描智能体，对当前最主流的8个AI智能体评测基准进行了系统性渗透测试。结…

2026年4月19日

355000

AI产业动态

阿里ATH神秘模型HappyHorse-1.0空降AI视频生成榜首，郑波团队研发即将开放API

周二晚间，知名 AI 评测平台 Artificial Analysis 的视频生成模型榜单上，一个代号为「HappyHorse-1.0」的神秘模型空降榜首，引发了社区广泛关注。该模型在文本生成视频与图像生成视频两项评测中均位列第一，将此前领先的 Seedance 2.0 挤至第二位。这一表现迅速引发了关于模型研发背景的猜测。目前，该模型已被确认为阿里巴巴…

2026年4月10日

322000

大模型推理

MiroMind黑马归来！重型推理智能体MiroThinker-1.7霸榜多项SOTA，实测F1预测完胜ChatGPT

由陈天桥带队的大模型团队MiroMind，正式发布了新一代重型推理智能体：MiroThinker-1.7 和 MiroThinker-H1。 “重型”意味着什么？它延续了V1.5版本的深度推理基因，旨在处理更复杂的任务并生成更精确的结果。在多项深度研究任务的基准测试中，MiroThinker系列表现突出。其中，MiroThinker-H1刷新了多项任务的S…

2026年3月16日

748000

AI产业动态

中国AI视频双雄并起：Seedance 2.0与Vidu Q3组团席卷全球

在AI视频创作领域，Seedance 2.0的爆火不是偶然。这一次真正“破圈”，很大程度上源于它所具备的“导演思维”——剧本驱动、分镜清晰、节奏精准。它让人们意识到，一个好的AI视频更需要创意调度。而过去，创作者在AI视频中最难掌握的两个要素，恰恰就是理解故事结构与镜头语言。与此同时，另一款国产视频生成模型生数科技的Vidu Q3，也在创作者社群中走红，并…

2026年2月12日

381000

AI产业动态

评测驱动时代开启：李飞飞World Labs联手光轮智能，破解具身智能规模化评测难题

最火世界模型，最火具身智能基建，联手了！前者，是李飞飞旗下的World Labs；后者，是一家炙手可热的仿真合成数据公司——光轮智能。具身智能生态中最受关注的两家公司双刃合璧，原因无他，正是瞄准困扰行业已久的「规模化评测」问题，发起一波攻势。而随着这波号角的吹响，也标志着具身智能正式迈入评测驱动时代。在这个赛道上，光轮智能基于全栈自研仿真技术体系所构…

2026年1月19日

343000

大模型评测

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

01｜“看懂世界”这关，大模型还没上幼儿园过去一年，大模型在语言与文本推理上突飞猛进，但在面对无法用语言清晰表述的问题时，其视觉理解能力却暴露了短板。为了量化评估这一能力，UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员，发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

2026年1月12日

327000