大模型工程

  • 字节清华联手打造CUDA Agent:AI写代码不仅正确,还能比人类专家快40%

    近日,字节跳动 Seed 团队与清华大学 AIR 的研究人员联合发布了一项名为 CUDA Agent 的新研究,在 AI 代码生成领域引起了广泛关注。 该研究训练了一个能够编写高性能 CUDA 内核的智能体模型。其目标不仅是生成语法正确的代码,更是产出经过深度优化、执行效率显著提升的内核。 在基准测试中,CUDA Agent 展现出卓越的性能:在简单/中等复…

    2026年3月3日
    22700
  • JTok:大模型扩展新维度!上海交大提出token-indexed参数,不增算力也能提升性能

    大模型扩展的困境 大模型的发展长期遵循一条铁律:依据Scaling Law堆叠参数和数据,模型性能便会遵循负幂律持续提升。然而,这条道路正变得日益昂贵,因为传统的扩展方式始终无法摆脱一个根本性束缚——参数规模与计算量的深度绑定。 在传统的稠密模型中,扩展逻辑简单直接:加宽网络或加深层数。随之而来的硬伤是:参数规模一旦暴涨,计算量和显存需求便会线性飙升。在高质…

    2026年3月3日
    11300
  • AI攻克CUDA黑魔法!字节清华联手打造CUDA Agent,智能体强化学习实现内核生成性能飞跃

    关键词: CUDA 内核生成、智能体强化学习、性能优化、KernelBench、技能增强环境 在深度学习基础设施的底层,存在着一个被称为“黑魔法”的领域——CUDA 内核开发。当我们在 PyTorch 中写下几行简洁的代码时,很少有人意识到,这些高层操作最终会被编译成成百上千个在 NVIDIA GPU 上执行的底层内核程序。这些内核程序的编写和优化,直接决定…

    2026年3月3日
    11700
  • Agentic RAG实战指南:六种模式解析与生产级应用

    用真实生产取舍解释六种 Agentic RAG 模式 大多数 RAG 演示在理想环境下运行良好,但一旦面对真实用户,问题便接踵而至:检索到无关上下文、浪费大量 tokens,却依然无法避免幻觉。问题的根源往往不在于模型或检索算法本身。 而在于传统 RAG 对所有查询都采用千篇一律的处理方式。 Agentic RAG 改变了这一范式。系统不再机械地执行检索,而…

    2026年3月1日
    18500
  • Context Engineering:2026年真正重要的6种技术(完整指南)

    Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…

    2026年2月28日
    25700
  • Prompt Learning的进化之路:从静态优化到SIPDO闭环自进化系统

    Prompt 作为一种接口,直接决定了大型语言模型(LLM)与智能体系统的行为模式与性能上限。对提示(prompt)的理解与控制,本质上决定了系统能力能被释放到何种程度。提示学习(prompt learning)的出现,使这一过程从经验驱动走向可系统化研究,并逐步形成了一条清晰的发展脉络。回顾这条路径,本身就有助于我们理解提示学习是如何一步步构建起来的。 然…

    2026年2月27日
    18000
  • OpenAI内部开发大揭秘:Codex已成工程师队友,每周重塑软件开发!

    “未来某个时间点,我们或许会为智能体(Agent)构建软件。届时,智能体可能会扮演产品经理或产品工程师的角色。” 在近期举行的 Pragmatic Summit 上,OpenAI Codex 工程主管 Tibo Sottiaux 与 OpenAI 应用首席技术官 Vijaye Raji 分享了 OpenAI 内部工程师使用 AI 进行开发的真实体验与观察。 …

    2026年2月27日
    31200
  • Ubuntu 26.04 LTS重磅升级:开箱即用GPU驱动+沙盒推理,本地AI部署门槛大降

    Ubuntu 的下一个长期支持版本 26.04 LTS 计划在 AI 本地部署方面引入重要改进。根据 Ubuntu 工程副总裁 Jon Seager 的介绍,新系统将包含以下几项关键特性。 开箱即用的 GPU 驱动支持 Ubuntu 26.04 将能够自动检测硬件并安装对应的 NVIDIA CUDA 或 AMD ROCm 驱动。这意味着用户无需再手动添加第三…

    2026年2月27日
    15100
  • 面向AI Agents的7个免费Web Search API:实时、RAG就绪与快速集成指南

    探索面向智能体(AI Agent)的主流 Web Search API,它们提供实时、高准确度的搜索结果,具备 RAG 就绪、低延迟与可扩展性。本文包含 Python 快速上手示例与免费套餐信息,便于无缝集成。 AI 智能体的有效性,取决于其获取新鲜、可靠信息的能力。许多智能体在幕后会调用 Web 搜索工具来获取最新上下文,以确保输出始终相关。然而,并非所有…

    2026年2月27日
    93300
  • 破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为

    破解自动驾驶测试「跷跷板」难题:一个模型遍历从保守到激进的对抗行为 自动驾驶系统的落地离不开大规模的安全测试。为了解决真实路测中“长尾分布”和“稀疏性”难题,对抗性场景生成 成为了一种高效的仿真测试手段。 然而,现有方法面临一个经典的“跷跷板”难题:要么生成的场景极具攻击性但物理上不真实,要么过于保守而失去了测试价值,难以触及系统的长尾失效边界。 更关键的是…

    2026年2月26日
    9500