智能体

  • OpenAI发布GPT-5.5:智能体式工作模型,性能超越对手

    OpenAI 今天发布了 GPT-5.5,称其为公司迄今“最聪明、最直觉化”的模型,也是面向真实工作的全新智能形态。相比上一代,GPT-5.5 的重点是进一步承担复杂任务中的规划、工具调用、结果检查和跨工具执行,被 OpenAI 定位为推动“用 AI 在电脑上完成工作”的关键一步。 赢了 Opus 4.7 和 Mythos? 在与 Anthropic 矛盾日…

    2026年4月24日
    60700
  • 腾讯混元Hy3预览版发布:姚顺雨领衔,智能体与代码能力升级

    刚刚,腾讯 Hy3 preview 正式发布。 这是腾讯混元团队在架构与基础设施层面全面重构后的首个版本。首批发布的模型尺寸较小,定位更侧重于实用性。 值得关注的是,Hy3 preview 是姚顺雨归国加盟腾讯后的首个重要成果,延续了他提出的“AI 下半场”理念。该模型在腾讯真实业务与复杂场景中不断打磨,聚焦于实际业务场景中的效果与实用性。 腾讯表示,新一代…

    2026年4月23日
    60500
  • 商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地

    商汤绝影发布Sage端侧大模型:3B激活参数超越GPT-5,智能体能力落地端侧 端侧智能面临一个核心矛盾:模型参数太少则能力不足,参数太多又无法部署在车机上。复杂任务需要推理能力,推理能力依赖大参数模型,但大模型难以塞进车机硬件——这一循环曾被认为近乎无解。 近日,商汤绝影正式发布 Sage,一款总参数量 32B、激活参数仅 3B 的端侧多模态大模型,首次将…

    2026年4月22日
    26200
  • 谷歌Chrome推出Gemini Skills:浏览器变身免费智能体,一键复用AI技能

    谷歌Chrome推出“Gemini Skills”:浏览器变身免费智能体,一键复用AI技能 你的浏览器,如今可以进化为一个免费的AI智能体。 谷歌Chrome正式推出“Gemini Skills”功能,允许用户将常用的AI指令保存为可复用的技能,一键即可调用。 例如,当你在浏览一个食谱网页时,想让AI分析其营养价值。 以往,你需要每次都手动复制粘贴一长串提示…

    2026年4月15日
    1.8K00
  • 大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷

    大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷(1/4) 关键词:大语言模型、随机采样、智能体、分布偏差、伪随机幻觉 本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中,直指大模型智能体一项被长期掩盖的致命…

    2026年4月15日
    19500
  • SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

    小模型如何成为智能体专家? 传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。 为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无…

    2026年4月11日
    31100
  • DeepXiv:让科技文献从“人类可读”升级为“智能体可用”的AI科研基础设施

    引言 随着大模型智能体的快速发展,由AI驱动的自动化科研正从概念快步走进现实。从自动发现科学问题、生成研究计划,到设计理论方法、开展实验探究,科研智能体正在全流程、根本性地重塑科学研究的范式。 然而,要让智能体真正服务于科学研究,一个基础性的技术瓶颈亟待解决:智能体如何高效地使用科技文献? 当前,科技文献的利用方式仍然是为人类用户设计的。在传统模式下,智能体…

    2026年4月8日
    52100
  • Arcee AI发布Trinity-Large-Thinking:3990亿参数开源推理模型,性能比肩Claude Opus 4.6,成本降低96%

    关键词: Trinity-Large-Thinking、开源大模型、Opus 4.6、Arcee AI、Apache 2.0 2026年4月,全球大模型行业迎来一项足以改写开源格局的重磅发布。来自美国旧金山的AI实验室Arcee AI,正式推出了前沿开源推理模型Trinity-Large-Thinking。 这款拥有3990亿参数的MoE架构大模型,以Apa…

    2026年4月5日
    76000
  • 阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus

    阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus 阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破,被视作国产大模型在该领域的新标杆。 Qwen3.6-Plus支持高达1M的上下文长度,能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Codin…

    2026年4月3日
    1.1K00
  • AI工具使用能力评测新突破:WildToolBench揭示大语言模型在真实场景中的巨大差距

    关键词:大语言模型、工具使用、基准评测、真实场景、智能体 当 AI 从实验室走向真实世界,简单的任务竟可能成为难以逾越的鸿沟。 假设你正在准备一场关于“2024年热门电影推荐”的演示,于是向 AI 助手发出指令:“帮我查查今年最火的几部电影,然后做个简单的调查问卷 PPT。” 在实验室的理想环境中,AI 或许能完美地执行这一任务:调用电影搜索 API 获取列…

    2026年3月18日
    74700