工具调用

  • 揭秘OpenAI Codex智能体循环:AI如何通过工具调用实现高效软件开发

    刚刚,OpenAI CEO 山姆・奥特曼在社交平台发布推文称:「从下周开始的接下来一个月,我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这一主题。 如同奥特曼的许多推文一样,这条预告也引发了网友的广泛讨论: 似乎是响应奥特曼的预告,OpenAI 官方随后发布了一篇技术博客,标题为「揭秘 Codex 智能体循环」,深入剖析了 Co…

    2026年1月24日
    2400
  • 美团LongCat-Flash-Thinking-2601评测:工具调用亮眼,但基础推理与视觉理解存短板

    美团近期发布了LongCat-Flash-Thinking-2601模型,作为首个支持在线免费体验「重思考模式」的开源模型,其核心宣传点在于强大的工具调用能力。官方称其在智能体搜索、智能体工具调用、工具交互推理等关键评测中均达到了开源模型的SOTA水平。 核心评测结论: 三大亮点: 工具类网页完成度高:水印处理工具功能完整、交互流畅;复利计算器UI专业、图表…

    2026年1月18日
    5800
  • 350M小模型精度性能双超ChatGPT!靶向微调方案大幅提升智能体工具调用能力

    Small Language Models for Efficient Agentic Tool Calling: Outperforming Large Models with Targeted Fine-tuning* https://arxiv.org/pdf/2512.15943 随着各机构大规模采用生成式人工智能(AI),模型成本优化与运营效率已成…

    2025年12月22日
    11601
  • LoopTool:打破静态数据桎梏,实现工具调用任务的闭环数据进化

    在人工智能从“语言理解”迈向“任务执行”的关键转型期,大语言模型(LLM)与外部工具的协同能力已成为核心突破点。无论是API调用、多轮任务规划、知识检索还是代码执行,模型精准调用工具的能力不仅依赖其内在的推理逻辑,更需要海量高质量、针对性强的函数调用数据进行训练。然而,当前主流的数据生成与训练流程普遍存在“静态化”缺陷——数据在训练前一次性生成,无法感知模型…

    2025年11月19日
    8700
  • Kimi-K2-Thinking实测:新一代Thinking Agent如何实现推理能力突破性增强?

    月之暗面近期发布了Kimi-K2-Thinking模型,这是基于“模型即Agent”理念训练的新一代Thinking Agent,原生掌握“边思考,边使用工具”的能力。作为一款MoE架构模型(每次激活32B参数),我们对其与基础版本kimi-k2-0711-preview进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差…

    2025年11月18日
    11600
  • Kimi K2 Thinking开源引爆AI界:超越GPT-5的300步工具调用模型实战指南

    Kimi 最近开源了其思考模型:Kimi K2 Thinking。根据官方介绍,该模型具备“边思考,边使用工具”的能力,能够自主执行高达 300 步的工具调用流程,以解决复杂问题。在被称为“人类终极考试”的高难度推理与通用智力测试中,其表现超越了 GPT-5,达到了当前的最先进水平。 若想在 Kimi 官网体验此能力,可直接在 kimi.com 开启“长思考…

    2025年11月17日
    6800
  • 月之暗面Kimi K2 Thinking开源:万亿参数思考智能体如何重塑AI推理与执行边界

    在人工智能领域,模型规模的扩张与架构的创新始终是推动技术进步的双引擎。近日,月之暗面(Moonshot AI)正式开源其全新模型Kimi K2 Thinking,这款自称“思考Agent模型”的发布,不仅在参数规模上达到惊人的1万亿,更在推理能力、工具调用连续性及工程落地优化等方面展现出突破性进展。其核心在于将“思考”机制深度融入模型架构,实现了从被动响应到…

    2025年11月7日
    8400