大模型工程
-
Harness系统:从AI脚手架到社会囚笼——当人类沦为进化工具下的冗余材料
Harness系统:从AI脚手架到社会囚笼——当人类沦为进化工具下的冗余材料(1/4) 引言:可拆除的笼子与无钥匙的监狱 如果Harness的本质只是一套预设了自己过时的生长型脚手架——为AI套上缰绳,只为在模型成熟后能被干净地拆除——那么,人类社会运行了数千年的“Harness系统”,为何从不允许自己被拆除? Harness工程告诉我们,好的约束旨在解放创…
-
从分道扬镳到殊途同归:OpenAI Codex与Anthropic Claude Code的演进与趋同
近日,OpenAI正式发布了全新的大模型GPT-5.4-Cyber。这款模型在目标用户群、应用场景乃至发布策略上,都与Anthropic不久前发布的Claude Mythos形成了鲜明的对标态势。这种“贴身竞争”的格局已十分明显,甚至有媒体在报道中直接指出:“与Anthropic一样,OpenAI……”。 这种趋同现象并不仅限于底层的基座模型。纵观两家公司近…
-
AI记忆革命:从“白纸”到“大脑”,记忆架构成AI落地新护城河
一家企业花了七周时间部署AI:第一周,它能精准回答行业分析问题,团队为之欢呼;到了第三周,它开始反复输出已被纠正过的错误结论,因为它“忘记”了之前的修正;第五周,在关键的董事会汇报中,它引用了早已被否定的数据,导致决策出现偏差;第七周,项目被迫暂停,“AI不可信”成为团队共识。问题的根源并非AI不够智能,而在于它每一次交互都像从一张白纸开始。 AI领域正在经…
-
龙虾AI大更新:实现自我升级,插件、安全、交互全面进化
龙虾AI迎来重大版本更新:插件、安全与交互全面进化 龙虾AI于近日发布了全新版本 2026.3.22-beta.1 ,此次更新内容广泛,涉及核心架构、插件生态、安全模型与用户体验等多个层面。 本次更新的一个关键特性是实现了 系统的自我更新能力。 以下是本次更新的核心亮点概览: 插件体系升级:彻底移除了旧的 openclaw/extension-api,统一迁…
-
LLM在昇腾NPU面前为何“失语”?AscendCraft用DSL搭建桥梁,让生成内核成功率飙升至98.1%
LLM在昇腾NPU面前为何“失语”?AscendCraft用DSL搭建桥梁,让生成内核成功率飙升至98.1%(1/4) 在AI芯片领域,编写一个高性能的算子内核,如同在一台精密、复杂且文档稀疏的机器上精确舞蹈。大语言模型(LLM)在生成CUDA代码时表现尚可,这得益于NVIDIA长期构建的庞大生态:海量的开源代码、详尽的文档和成熟的社区。然而,当目标转向华为…
-
Anthropic内部Skills开发秘籍:从实战经验到最佳实践
Skills 已成为 Claude Code 中使用最广泛的扩展方式之一。它们灵活、易于创建,也方便分发。 但这种灵活性也带来了一个问题:很难判断什么才是最佳实践。什么类型的 Skills 值得开发?写出一个优秀 Skill 的秘诀是什么?又应该在什么时候将它们分享给他人? 在 Anthropic 内部,我们已经在 Claude Code 中广泛使用 Ski…
-
AI攻克CUDA黑魔法!字节清华联手打造CUDA Agent,智能体强化学习实现内核生成性能飞跃
关键词: CUDA 内核生成、智能体强化学习、性能优化、KernelBench、技能增强环境 在深度学习基础设施的底层,存在着一个被称为“黑魔法”的领域——CUDA 内核开发。当我们在 PyTorch 中写下几行简洁的代码时,很少有人意识到,这些高层操作最终会被编译成成百上千个在 NVIDIA GPU 上执行的底层内核程序。这些内核程序的编写和优化,直接决定…
-
Agentic RAG实战指南:六种模式解析与生产级应用
用真实生产取舍解释六种 Agentic RAG 模式 大多数 RAG 演示在理想环境下运行良好,但一旦面对真实用户,问题便接踵而至:检索到无关上下文、浪费大量 tokens,却依然无法避免幻觉。问题的根源往往不在于模型或检索算法本身。 而在于传统 RAG 对所有查询都采用千篇一律的处理方式。 Agentic RAG 改变了这一范式。系统不再机械地执行检索,而…
-
Context Engineering:2026年真正重要的6种技术(完整指南)
Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…
-
CMU开源首个Agentic Search行为日志数据集:揭秘1400万条搜索请求背后的智能体行为模式
在大模型驱动的 Agentic Search 日益常态化的背景下,真实环境中智能体“如何发起查询、如何改写问题、是否真正利用了检索信息”一直缺乏系统性的刻画与分析。 卡内基梅隆大学(CMU)的研究团队基于可重复检索平台 DeepResearchGym,从其统一后端半年的真实流量中整理出超过 1400 万条搜索请求,涉及约 400 万个搜索会话。在完成严格的匿…
