工程化
-
AI Agent架构评测:从实验室到生产环境的Skills解耦工程化实践
评测盲区:为什么「能用」不等于「可用」? 在大模型评测领域,我们有 MMLU 测知识、HumanEval 测代码、BFCL 测函数调用。但对于 Agent 系统,评测维度往往停留在「任务完成率」这个单一指标上。 这里存在一个评测盲区:我们很少评测 Agent 能力的「可迁移性」和「可工程化程度」。 举个例子:在 Claude Code 环境中,构建了一套完整…
评测盲区:为什么「能用」不等于「可用」? 在大模型评测领域,我们有 MMLU 测知识、HumanEval 测代码、BFCL 测函数调用。但对于 Agent 系统,评测维度往往停留在「任务完成率」这个单一指标上。 这里存在一个评测盲区:我们很少评测 Agent 能力的「可迁移性」和「可工程化程度」。 举个例子:在 Claude Code 环境中,构建了一套完整…