多轮对话
-
Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平
大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…
-
上下文工程:AI长任务性能优化的核心策略
Prompts 确立意图。Context 选择事实、历史和工具输出,让 AI 在长任务中保持连贯。 在 AI 应用的早期,我们沉迷于字词的斟酌。微调一个动词,增加一条约束,观察模型是否按预期响应。这些技巧常常奏效,足以让人以为这是一门手艺。直到任务变得更长、更复杂、涉及更多步骤时,一条安静的真相才浮出水面:措辞固然重要,但模型看到什么 更为关键。 Promp…