工具调用 - 鲸林向海

OpenAI重磅升级：Responses API引入WebSocket模式，复杂任务性能提升40%

OpenAI 发布了一项针对长时间运行、大量工具调用场景的重要更新：Responses API 现已支持 WebSocket 模式。此功能专为需要频繁进行模型-工具交互的工作流设计，例如代码自动化或需要反复调用工具的智能体编排任务。核心改进：从对话到关系核心改进在于连接方式的转变。在传统的 HTTP 模式下，每次交互都需要重新发送完整的上下文，如同每次…

2026年2月24日

246000

AI产业动态

GLM-5：开源AI新标杆，24小时自主编程打造GBA模拟器

GLM-5：开源AI新标杆，24小时自主编程打造GBA模拟器当看到GLM-5正式发布后的能力，才惊觉前几天神秘模型Pony Alpha的热度还是有点保守了。因为这一次，GLM-5直接把开源AI也拽进了长任务时代。瞧，GLM-5直接身兼数职，自己连续跑代码超过24小时，完成700次工具调用、800次上下文切换之后…… 它直接用JavaScript，从零手…

2026年2月12日

135000

AI产业动态

揭秘OpenAI Codex智能体循环：AI如何通过工具调用实现高效软件开发

刚刚，OpenAI CEO 山姆・奥特曼在社交平台发布推文称：「从下周开始的接下来一个月，我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这一主题。如同奥特曼的许多推文一样，这条预告也引发了网友的广泛讨论：似乎是响应奥特曼的预告，OpenAI 官方随后发布了一篇技术博客，标题为「揭秘 Codex 智能体循环」，深入剖析了 Co…

2026年1月24日

180000

AI产业动态

美团LongCat-Flash-Thinking-2601评测：工具调用亮眼，但基础推理与视觉理解存短板

美团近期发布了LongCat-Flash-Thinking-2601模型，作为首个支持在线免费体验「重思考模式」的开源模型，其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。核心评测结论：三大亮点：工具类网页完成度高：水印处理工具功能完整、交互流畅；复利计算器UI专业、图表…

2026年1月18日

186000

大模型训练

350M小模型精度性能双超ChatGPT！靶向微调方案大幅提升智能体工具调用能力

Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning* https://arxiv.org/pdf/2512.15943 随着各机构大规模采用生成式人工智能（AI），模型成本优化与运营效率已成…

2025年12月22日

260011

AI产业动态

LoopTool：打破静态数据桎梏，实现工具调用任务的闭环数据进化

在人工智能从“语言理解”迈向“任务执行”的关键转型期，大语言模型（LLM）与外部工具的协同能力已成为核心突破点。无论是API调用、多轮任务规划、知识检索还是代码执行，模型精准调用工具的能力不仅依赖其内在的推理逻辑，更需要海量高质量、针对性强的函数调用数据进行训练。然而，当前主流的数据生成与训练流程普遍存在“静态化”缺陷——数据在训练前一次性生成，无法感知模型…

2025年11月19日

199000

大模型评测

Kimi-K2-Thinking实测：新一代Thinking Agent如何实现推理能力突破性增强？

月之暗面近期发布了Kimi-K2-Thinking模型，这是基于“模型即Agent”理念训练的新一代Thinking Agent，原生掌握“边思考，边使用工具”的能力。作为一款MoE架构模型（每次激活32B参数），我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

2025年11月18日

244000

开源项目

Kimi K2 Thinking开源引爆AI界：超越GPT-5的300步工具调用模型实战指南

Kimi 最近开源了其思考模型：Kimi K2 Thinking。根据官方介绍，该模型具备“边思考，边使用工具”的能力，能够自主执行高达 300 步的工具调用流程，以解决复杂问题。在被称为“人类终极考试”的高难度推理与通用智力测试中，其表现超越了 GPT-5，达到了当前的最先进水平。若想在 Kimi 官网体验此能力，可直接在 kimi.com 开启“长思考…

2025年11月17日

239000

AI产业动态

月之暗面Kimi K2 Thinking开源：万亿参数思考智能体如何重塑AI推理与执行边界

在人工智能领域，模型规模的扩张与架构的创新始终是推动技术进步的双引擎。近日，月之暗面（Moonshot AI）正式开源其全新模型Kimi K2 Thinking，这款自称“思考Agent模型”的发布，不仅在参数规模上达到惊人的1万亿，更在推理能力、工具调用连续性及工程落地优化等方面展现出突破性进展。其核心在于将“思考”机制深度融入模型架构，实现了从被动响应到…

2025年11月7日

181000