大模型工程
-
LM Studio推出LM Link:让本地大模型远程调用成为现实
当你的笔记本电脑在移动中难以运行大型AI模型时,家中高性能工作站的算力却处于闲置状态。LM Studio最新推出的“LM Link”功能,旨在改变这一现状。 通过与Tailscale合作,LM Link构建了一个专为AI模型设计的私有安全网络。它允许用户将安装有LM Studio的不同设备相互连接,从而实现远程调用模型,体验与本地运行无异。 技术核心:基于M…
-
Agent Skill框架赋能小语言模型:12B模型技能选择准确率逼近90%,算力成本降低50%
关键词:Agent Skill 框架、小语言模型、上下文工程、工业应用、GPU 效率 近年来,以 GitHub Copilot、LangChain 等为代表的 Agent Skill 框架已成为大语言模型应用的重要范式。该框架通过精心设计的“静态技能库”,让模型在推理过程中渐进式地获取相关技能上下文,从而有效减少幻觉、提升工具使用的准确性。 然而,这一范式高…
-
华为CLI-Gym:首个公开的Terminal-Bench环境交互任务数据规模化方案,解决率提升20%
「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」 开源完整自动化数据构建算法 构建 1655 个高可靠 CLI 任务环境镜像 通过 291 条轨迹数据带来 20% 解决率提升 在 Agentic Coding 领域,基于 SWE-bench 的数据管线研究已取得长足进展。过去一年中,业界涌现了大量相关工作,例如 …
-
智谱GLM-5技术全公开:国产芯片全适配,长任务时代开启
GLM-5 技术论文完全公开 GLM-5 背后的技术论文现已完全公开。 论文标题直接点明了其核心主张:告别Vibe Coding,迈入 智能体工程(Agentic Engineering)。 正如之前的实测所示,GLM-5能够自主连续运行代码超过24小时,进行超过700次工具调用和800次上下文切换,甚至可以从零开始构建一个Game Boy Advance(…
-
AI Agent 工作流革命:三大开源神器让非技术用户也能轻松驾驭智能自动化
让不懂代码的人也能玩转 AI 工作流 n8n 这类工作流自动化工具虽然强大,但对于非技术用户而言,学习成本较高。光是理解各种节点的配置与连接方式,就需要花费不少时间。 近期在 GitHub 上发现了一个名为 Refly.AI 的开源项目,它自称是全球首个 Vibe Workflow 平台,专为非技术创作者设计,是一个用于构建 AI Agent 技能的神器。 …
-
DeepMind突破:多智能体系统规模化瓶颈揭示,任务匹配度成关键性能指标
在AI领域,智能体(Agent)的研究与应用日益增多,原生多智能体工作的基础模型也已开始出现。 作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式。从编程助手到私人健康教练,AI应用正从单次问答转向持续的多步骤交互。尽管研究人员长期以来一直利用既定指标来优化传统机器学习模型的准确性,但AI智能体引入了新的复杂性。 与孤立的预测…
-
Ollama Launch 实测:一键启动 Claude Code、Codex 与 OpenCode,告别繁琐配置
忘掉配置的烦恼吧,Ollama Launch 是启动 Claude Code、Codex、OpenCode、Moltbot 或任意其他 CLI 工具的全新简易方式。 Ollama v0.15 引入了名为 ollama launch 的新命令,可使用本地或云端模型,自动完成 Claude Code、OpenCode、Codex 等常用编码工具的配置与启动。 如…
-
揭秘AI Agent、MCP、Skills:2026年Agentic AI三大核心如何协同驱动智能决策与执行
2026年,Agentic AI(代理式人工智能)已从概念探索迈入规模化落地阶段,Manus AI、Replit Agent等实用工具的普及,让“AI自主执行任务”从科幻走向现实。 在这一变革中,AI Agent(智能体)、MCP(模型上下文协议,Model Context Protocol)与Skills(技能)作为Agentic AI系统的三大核心组件,…
-
OpenAI重磅升级:Responses API引入WebSocket模式,复杂任务性能提升40%
OpenAI 发布了一项针对长时间运行、大量工具调用场景的重要更新:Responses API 现已支持 WebSocket 模式。 此功能专为需要频繁进行模型-工具交互的工作流设计,例如代码自动化或需要反复调用工具的智能体编排任务。 核心改进:从对话到关系 核心改进在于连接方式的转变。在传统的 HTTP 模式下,每次交互都需要重新发送完整的上下文,如同每次…
-
Cog-RAG:让RAG在检索前先思考,用双超图架构模拟人类认知过程
Retrieval-Augmented Generation(RAG)已成为帮助大型语言模型保持信息“有根有据”的标准方法。其基本流程广为人知:将文档切分为片段,进行向量化嵌入,执行向量检索,最后将最匹配的前K个结果输入给大模型生成答案。 然而,这条标准流水线存在一些固有的局限性。 为什么多数 RAG 系统仍像支离破碎的记忆 图 1:图、超图与 Cog-RA…
