METR评测

大模型评测

Claude Mythos引爆评测危机：AI超指数增长，2027 AGI奇点加速降临

刚刚，Claude Mythos 直接击穿了METR评测的上限！超指数级进化正将AGI奇点拉近至眼前。今天，一张趋势图在网络上迅速刷屏。全球最权威的AI评测机构METR震惊地发现，他们用来衡量AI能力的“温度计”即将被Mythos撑爆。 Claude Mythos Preview 的能力，已经突破了人类现有评测框架的天花板，进入了所谓的“失真区”！ Op…

1天前
144000
大模型工程

Claude Opus 4.5突破5小时自主编码极限：AI编码智能体从短跑迈向马拉松的指数级进化

AI是否已撞上天花板？这份「最重要的图表」直击灵魂：2019-2025年任务时长每几个月翻倍，揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦，而是触手可及的现实！ 2025年即将结束，AI领域的真正高手并非谷歌或OpenAI，而是来自Anthropic的王者编程模型——Claude Opus 4.5。根据METR最新报告，Claude…

2025年12月21日
452000