鲸栖
-
小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行
上周,两个未署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别为“Hunter Alpha”和“Healer Alpha”。它们在没有任何官方宣传的情况下,调用量开始以异常的速度持续攀升。 其中,Hunter Alpha 更是多日登顶平台日榜,累计调用量突破 1T tokens,引发了社区的广泛猜测。最主流的观点认为其来自 Deep…
-
AI自我进化时代已来!Anthropic承认观察到递归自我改进早期迹象,完全自动化AI研究或一年内实现
Anthropic如今已成为AI领域的焦点。其技术不仅引领了全球性的智能体开发浪潮,更在《时代》周刊的封面文章中透露了关键信息:AI递归自我提升的时代可能提前到来。 文章中的一个核心判断是:完全自动化的AI研究,可能在一年内实现。 几乎在同一时间,Anthropic宣布成立一个由30人内部智库组成的新研究所,旨在直接研究AI对社会的影响。该公司预测,未来两年…
-
Kimi重磅发布《Attention Residuals》:颠覆十年残差连接,用同样算力实现1.25倍效果提升
注意力残差:对残差连接的结构性改进 引言:一个基础性的问题 现代大型语言模型普遍采用深度神经网络架构,信息从输入层开始,逐层向上传递并接受加工,最终产生输出。然而,随着网络层数的增加,训练过程面临一个根本性挑战:梯度信号在反向传播过程中,经过数十甚至上百层的传递后,可能严重衰减或消失,导致底层参数难以得到有效更新。 2015年,何恺明团队在《Deep Res…
-
GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍
GPT-5.4 mini 发布即遭质疑:性能仅排第13,价格却涨三倍 OpenAI 最新推出的 GPT-5.4 mini 模型,在发布首日便面临诸多质疑。 根据公开的大语言模型评测基准 Vals 数据显示,新发布的 GPT-5.4 mini 仅排名第 13 位,其性能优于 OpenAI 半年前 发布的 GPT-5。 值得注意的是,排名第 12 位的是于一月底…
-
于谦用相声演员视角“翻译”AI Agent:从技术自嗨到用户破圈的关键一步
于谦用相声演员视角“翻译”AI Agent:从技术自嗨到用户破圈的关键一步 如果你最近在关注AI Agent,可能已被各种“能力展示”刷屏,从自动写代码到全流程办公自动化,无不强调效率与技术跃迁。 但问题在于,这些内容大多停留在行业内部的自嗨叙事里,真正的普通用户并未被真正带入。 在于谦视频播客《多新鲜呐》最新一期里,这件事被以一种极其 “非技术”的方式 呈…
-
MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽
MiniMax M2.7 重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽 MiniMax 在发布 M2.5 模型仅一个月后,再次推出了全新的 M2.7 模型。此次更新标志着模型在复杂任务处理与多智能体协作能力上实现了显著跃升。 M2.7 的推理与工程能力取得了质的飞跃,能够独立处理生产环境中棘手的故障排查任务。相较于以往仅能辅助编写代码…
-
工具文档质量成AI智能体瓶颈?ICLR 2026新研究:简单文档扩展即可显著提升工具检索性能
在大模型时代,工具调用(Tool-Use)已成为智能体能力的核心。从代码生成到复杂API调用,大语言模型正在学会使用各类工具。然而,一个日益凸显的现实问题是:工具真的难找。 来自宁波东方理工大学/宁波数字孪生研究院沈晓宇团队的一项研究,在ICLR 2026发表论文《Tools Are Under-Documented: Simple Document Exp…
-
腾讯QClaw微信大升级:小程序接入、远程办公、灵感广场,实测AI助手如何解放打工人
腾讯旗下AI助手产品 QClaw 近日完成了一次重要更新,核心围绕其微信互联能力展开。本次升级将微信入口转换为小程序形态,并增强了文件处理与技能调用功能。 我们第一时间获得了内测资格,并对升级后的功能进行了实际体验。首要测试的便是远程文件管理能力。通过微信向QClaw发送指令,可以成功清理并归类电脑桌面上的散乱文件。 此外,我们还尝试了在微信端让QClaw创…
-
AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距
关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…
-
OpenAI深夜突袭!GPT-5.4 mini/nano发布:速度翻倍、成本骤降,编码推理直逼满血版
OpenAI 在毫无预热的情况下,正式推出了 GPT-5.4 mini 和 GPT-5.4 nano。这两款模型旨在解决生产环境中对 AI 能力、速度与成本的核心诉求,继承了 GPT-5.4 的优势,在轻量级模型中达到了新的高度。 最引人注目的性能数据如下:* 编码能力(SWE-Bench Pro):GPT-5.4 mini 取得了 54.4% 的成绩,与 …