智能体 - 鲸林向海

OpenAI发布GPT-5.5：智能体式工作模型，性能超越对手

OpenAI 今天发布了 GPT-5.5，称其为公司迄今“最聪明、最直觉化”的模型，也是面向真实工作的全新智能形态。相比上一代，GPT-5.5 的重点是进一步承担复杂任务中的规划、工具调用、结果检查和跨工具执行，被 OpenAI 定位为推动“用 AI 在电脑上完成工作”的关键一步。赢了 Opus 4.7 和 Mythos？在与 Anthropic 矛盾日…

2026年4月24日

607000

AI产业动态

腾讯混元Hy3预览版发布：姚顺雨领衔，智能体与代码能力升级

刚刚，腾讯 Hy3 preview 正式发布。这是腾讯混元团队在架构与基础设施层面全面重构后的首个版本。首批发布的模型尺寸较小，定位更侧重于实用性。值得关注的是，Hy3 preview 是姚顺雨归国加盟腾讯后的首个重要成果，延续了他提出的“AI 下半场”理念。该模型在腾讯真实业务与复杂场景中不断打磨，聚焦于实际业务场景中的效果与实用性。腾讯表示，新一代…

2026年4月23日

605000

AI产品库

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地

商汤绝影发布Sage端侧大模型：3B激活参数超越GPT-5，智能体能力落地端侧端侧智能面临一个核心矛盾：模型参数太少则能力不足，参数太多又无法部署在车机上。复杂任务需要推理能力，推理能力依赖大参数模型，但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。近日，商汤绝影正式发布 Sage，一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型，首次将…

2026年4月22日

262000

AI产品库

谷歌Chrome推出Gemini Skills：浏览器变身免费智能体，一键复用AI技能

谷歌Chrome推出“Gemini Skills”：浏览器变身免费智能体，一键复用AI技能你的浏览器，如今可以进化为一个免费的AI智能体。谷歌Chrome正式推出“Gemini Skills”功能，允许用户将常用的AI指令保存为可复用的技能，一键即可调用。例如，当你在浏览一个食谱网页时，想让AI分析其营养价值。以往，你需要每次都手动复制粘贴一长串提示…

2026年4月15日

1.8K000

大模型推理

大模型随机性幻觉：Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷

大模型随机性幻觉：Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷（1/4）关键词：大语言模型、随机采样、智能体、分布偏差、伪随机幻觉本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中，直指大模型智能体一项被长期掩盖的致命…

2026年4月15日

195000

大模型训练

SKILL0：小模型也能成为智能体专家！浙大团队提出技能内化新范式

小模型如何成为智能体专家？传统上，增强大模型智能体能力常采用“技能增强”范式，即在推理时为其检索并提供相关的结构化技能知识。然而，这一范式对于参数有限的小模型（如3B、7B）而言存在显著局限。为此，浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是：让小模型在训练阶段将过程性知识内化到模型参数中，从而在推理时无…

2026年4月11日

311000

开源项目

DeepXiv：让科技文献从“人类可读”升级为“智能体可用”的AI科研基础设施

引言随着大模型智能体的快速发展，由AI驱动的自动化科研正从概念快步走进现实。从自动发现科学问题、生成研究计划，到设计理论方法、开展实验探究，科研智能体正在全流程、根本性地重塑科学研究的范式。然而，要让智能体真正服务于科学研究，一个基础性的技术瓶颈亟待解决：智能体如何高效地使用科技文献？当前，科技文献的利用方式仍然是为人类用户设计的。在传统模式下，智能体…

2026年4月8日

521000

AI产业动态

Arcee AI发布Trinity-Large-Thinking：3990亿参数开源推理模型，性能比肩Claude Opus 4.6，成本降低96%

关键词： Trinity-Large-Thinking、开源大模型、Opus 4.6、Arcee AI、Apache 2.0 2026年4月，全球大模型行业迎来一项足以改写开源格局的重磅发布。来自美国旧金山的AI实验室Arcee AI，正式推出了前沿开源推理模型Trinity-Large-Thinking。这款拥有3990亿参数的MoE架构大模型，以Apa…

2026年4月5日

760000

大模型工程

阿里Qwen3.6-Plus突袭发布：编程能力捅破国产天花板，直逼Claude Opus

阿里Qwen3.6-Plus突袭发布：编程能力捅破国产天花板，直逼Claude Opus 阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破，被视作国产大模型在该领域的新标杆。 Qwen3.6-Plus支持高达1M的上下文长度，能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Codin…

2026年4月3日

1.1K000

大模型评测

AI工具使用能力评测新突破：WildToolBench揭示大语言模型在真实场景中的巨大差距

关键词：大语言模型、工具使用、基准评测、真实场景、智能体当 AI 从实验室走向真实世界，简单的任务竟可能成为难以逾越的鸿沟。假设你正在准备一场关于“2024年热门电影推荐”的演示，于是向 AI 助手发出指令：“帮我查查今年最火的几部电影，然后做个简单的调查问卷 PPT。” 在实验室的理想环境中，AI 或许能完美地执行这一任务：调用电影搜索 API 获取列…

2026年3月18日

747000