大模型工程

字节清华联手打造CUDA Agent：AI写代码不仅正确，还能比人类专家快40%

近日，字节跳动 Seed 团队与清华大学 AIR 的研究人员联合发布了一项名为 CUDA Agent 的新研究，在 AI 代码生成领域引起了广泛关注。该研究训练了一个能够编写高性能 CUDA 内核的智能体模型。其目标不仅是生成语法正确的代码，更是产出经过深度优化、执行效率显著提升的内核。在基准测试中，CUDA Agent 展现出卓越的性能：在简单/中等复…

2026年3月3日

227000

大模型工程

JTok：大模型扩展新维度！上海交大提出token-indexed参数，不增算力也能提升性能

大模型扩展的困境大模型的发展长期遵循一条铁律：依据Scaling Law堆叠参数和数据，模型性能便会遵循负幂律持续提升。然而，这条道路正变得日益昂贵，因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。在传统的稠密模型中，扩展逻辑简单直接：加宽网络或加深层数。随之而来的硬伤是：参数规模一旦暴涨，计算量和显存需求便会线性飙升。在高质…

2026年3月3日

113000

大模型工程

AI攻克CUDA黑魔法！字节清华联手打造CUDA Agent，智能体强化学习实现内核生成性能飞跃

关键词： CUDA 内核生成、智能体强化学习、性能优化、KernelBench、技能增强环境在深度学习基础设施的底层，存在着一个被称为“黑魔法”的领域——CUDA 内核开发。当我们在 PyTorch 中写下几行简洁的代码时，很少有人意识到，这些高层操作最终会被编译成成百上千个在 NVIDIA GPU 上执行的底层内核程序。这些内核程序的编写和优化，直接决定…

2026年3月3日

117000

大模型工程

Agentic RAG实战指南：六种模式解析与生产级应用

用真实生产取舍解释六种 Agentic RAG 模式大多数 RAG 演示在理想环境下运行良好，但一旦面对真实用户，问题便接踵而至：检索到无关上下文、浪费大量 tokens，却依然无法避免幻觉。问题的根源往往不在于模型或检索算法本身。而在于传统 RAG 对所有查询都采用千篇一律的处理方式。 Agentic RAG 改变了这一范式。系统不再机械地执行检索，而…

2026年3月1日

185000

大模型工程

Context Engineering：2026年真正重要的6种技术（完整指南）

Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。你的 RAG 系统返回了完美的文档片段，你的提示词也打磨得无可挑剔，但大语言模型（LLM）依然在“幻觉”中编造答案。例如，当你查询最新的退款政策时，系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策，陷入混乱…

2026年2月28日

257000

大模型工程

Prompt Learning的进化之路：从静态优化到SIPDO闭环自进化系统

Prompt 作为一种接口，直接决定了大型语言模型（LLM）与智能体系统的行为模式与性能上限。对提示（prompt）的理解与控制，本质上决定了系统能力能被释放到何种程度。提示学习（prompt learning）的出现，使这一过程从经验驱动走向可系统化研究，并逐步形成了一条清晰的发展脉络。回顾这条路径，本身就有助于我们理解提示学习是如何一步步构建起来的。然…

2026年2月27日

180000

大模型工程

OpenAI内部开发大揭秘：Codex已成工程师队友，每周重塑软件开发！

“未来某个时间点，我们或许会为智能体（Agent）构建软件。届时，智能体可能会扮演产品经理或产品工程师的角色。” 在近期举行的 Pragmatic Summit 上，OpenAI Codex 工程主管 Tibo Sottiaux 与 OpenAI 应用首席技术官 Vijaye Raji 分享了 OpenAI 内部工程师使用 AI 进行开发的真实体验与观察。 …

2026年2月27日

312000

大模型工程

Ubuntu 26.04 LTS重磅升级：开箱即用GPU驱动+沙盒推理，本地AI部署门槛大降

Ubuntu 的下一个长期支持版本 26.04 LTS 计划在 AI 本地部署方面引入重要改进。根据 Ubuntu 工程副总裁 Jon Seager 的介绍，新系统将包含以下几项关键特性。开箱即用的 GPU 驱动支持 Ubuntu 26.04 将能够自动检测硬件并安装对应的 NVIDIA CUDA 或 AMD ROCm 驱动。这意味着用户无需再手动添加第三…

2026年2月27日

151000

大模型工程

面向AI Agents的7个免费Web Search API：实时、RAG就绪与快速集成指南

探索面向智能体（AI Agent）的主流 Web Search API，它们提供实时、高准确度的搜索结果，具备 RAG 就绪、低延迟与可扩展性。本文包含 Python 快速上手示例与免费套餐信息，便于无缝集成。 AI 智能体的有效性，取决于其获取新鲜、可靠信息的能力。许多智能体在幕后会调用 Web 搜索工具来获取最新上下文，以确保输出始终相关。然而，并非所有…

2026年2月27日

933000

大模型工程

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题，对抗性场景生成成为了一种高效的仿真测试手段。然而，现有方法面临一个经典的“跷跷板”难题：要么生成的场景极具攻击性但物理上不真实，要么过于保守而失去了测试价值，难以触及系统的长尾失效边界。更关键的是…

2026年2月26日

95000

分类

排序

大模型工程

字节清华联手打造CUDA Agent：AI写代码不仅正确，还能比人类专家快40%

JTok：大模型扩展新维度！上海交大提出token-indexed参数，不增算力也能提升性能

AI攻克CUDA黑魔法！字节清华联手打造CUDA Agent，智能体强化学习实现内核生成性能飞跃

Agentic RAG实战指南：六种模式解析与生产级应用

Context Engineering：2026年真正重要的6种技术（完整指南）

Prompt Learning的进化之路：从静态优化到SIPDO闭环自进化系统

OpenAI内部开发大揭秘：Codex已成工程师队友，每周重塑软件开发！

Ubuntu 26.04 LTS重磅升级：开箱即用GPU驱动+沙盒推理，本地AI部署门槛大降

面向AI Agents的7个免费Web Search API：实时、RAG就绪与快速集成指南

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为