工程化

  • AI Agent架构评测:从实验室到生产环境的Skills解耦工程化实践

    评测盲区:为什么「能用」不等于「可用」? 在大模型评测领域,我们有 MMLU 测知识、HumanEval 测代码、BFCL 测函数调用。但对于 Agent 系统,评测维度往往停留在「任务完成率」这个单一指标上。 这里存在一个评测盲区:我们很少评测 Agent 能力的「可迁移性」和「可工程化程度」。 举个例子:在 Claude Code 环境中,构建了一套完整…

    1天前
    4100