LLM Agent

硬件Bug修复，AI智能体为何“水土不服”？北大HWE-Bench基准揭示残酷真相

“硬件任务暴露了软件基准所压缩的性能差异——在 SWE-bench 上，所有模型挤在 73%到 81%的窄带内，而在 HWE-Bench 上，同样的模型从 47.7%散落至 70.7%，差距从不足 8%骤然拉大到超过 23%。” 2023 年，SWE-bench 的问世，为大语言模型在真实软件工程任务中的表现，提供了一把可量化、可复现的标尺。两年过去，当 …

大模型评测 2026年5月2日

239000

SLM天团破解Agent记忆三元悖论：LightMem实现毫秒级检索与2.5倍F1提升

在当前LLM Agent的记忆系统中，效率与精度始终难以兼得。即便小语言模型（SLM）凭借其有限的容量和表征能力试图破局，也并非万能灵药。这篇名为《Lightweight LLM Agent Memory with Small Language Models》的论文，精准地戳中了当下LLM Agent记忆系统的核心痛点。当AI Agent被赋予调用工具、…

大模型工程 2026年4月29日

207000

大模型工程

华为诺亚&港中文发布SCOPE框架：让LLM Agent从错误中学习，实现Prompt自我进化

在 LLM Agent 领域，一个常见的问题是：Agent 明明“看到了”错误信息，却总是重蹈覆辙。当 Agent 遇到工具调用错误时，错误日志里往往已经包含了解决方案——正确的参数格式、有效的 API 用法、甚至是直接可用的替代方案。然而，静态的 Prompt 无法让 Agent 从这些反馈中“学到教训”，导致它们陷入“错误循环”：承认失败，却重复同样的…

2025年12月26日

383000

AI产业动态

图智能体革命：用图结构突破LLM Agent的四大瓶颈

在人工智能领域，大型语言模型智能体（LLM Agent）正以前所未有的速度重塑技术格局。从自动化网页浏览、智能软件开发到复杂的具身控制系统，这些智能体展现出的自主能力令人瞩目。然而，在表面的繁荣之下，整个领域正面临深刻的系统性挑战。当前多数智能体系统在可靠规划、长期记忆维护、海量工具管理和多智能体协调等关键能力上仍显稚嫩，呈现出明显的“碎片化”发展态势和明显…

2025年11月9日

377000