LLM Agent
-
硬件Bug修复,AI智能体为何“水土不服”?北大HWE-Bench基准揭示残酷真相
“硬件任务暴露了软件基准所压缩的性能差异——在 SWE-bench 上,所有模型挤在 73%到 81%的窄带内,而在 HWE-Bench 上,同样的模型从 47.7%散落至 70.7%,差距从不足 8%骤然拉大到超过 23%。” 2023 年,SWE-bench 的问世,为大语言模型在真实软件工程任务中的表现,提供了一把可量化、可复现的标尺。 两年过去,当 …
-
SLM天团破解Agent记忆三元悖论:LightMem实现毫秒级检索与2.5倍F1提升
在当前LLM Agent的记忆系统中,效率与精度始终难以兼得。即便小语言模型(SLM)凭借其有限的容量和表征能力试图破局,也并非万能灵药。 这篇名为《Lightweight LLM Agent Memory with Small Language Models》的论文,精准地戳中了当下LLM Agent记忆系统的核心痛点。 当AI Agent被赋予调用工具、…
-
华为诺亚&港中文发布SCOPE框架:让LLM Agent从错误中学习,实现Prompt自我进化
在 LLM Agent 领域,一个常见的问题是:Agent 明明“看到了”错误信息,却总是重蹈覆辙。 当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案——正确的参数格式、有效的 API 用法、甚至是直接可用的替代方案。然而,静态的 Prompt 无法让 Agent 从这些反馈中“学到教训”,导致它们陷入“错误循环”:承认失败,却重复同样的…
-
图智能体革命:用图结构突破LLM Agent的四大瓶颈
在人工智能领域,大型语言模型智能体(LLM Agent)正以前所未有的速度重塑技术格局。从自动化网页浏览、智能软件开发到复杂的具身控制系统,这些智能体展现出的自主能力令人瞩目。然而,在表面的繁荣之下,整个领域正面临深刻的系统性挑战。当前多数智能体系统在可靠规划、长期记忆维护、海量工具管理和多智能体协调等关键能力上仍显稚嫩,呈现出明显的“碎片化”发展态势和明显…
