大模型工程

  • TritonForge:剖析引导+LLM协同,突破Triton内核优化瓶颈,成功率42.7%最高提速5倍

    TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization https://arxiv.org/pdf/2512.09196 本文提出 TritonForge,一款基于剖析引导的自动化 Triton 内核优化框架,旨在解决现代机器学习中 GPU 内核优化耗时…

    2025年12月21日
    15300
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…

    2025年12月20日
    21900
  • 周末实战:7个可上线级Agentic AI项目,助你打造高含金量作品集

    大家都在谈论自主 AI 智能体,仿佛它们只属于研究实验室和大型科技公司。但事实并非如此。到 2025 年,构建可用于生产环境的 Agentic AI 系统已经变得异常容易——而这正是招聘经理最希望看到的技能。 当其他人还在制作简单的 ChatGPT 封装应用时,你可以构建真正具备决策、工具使用、上下文记忆与协作能力的智能体系统。这些不仅仅是演示,而是能够展示…

    2025年12月20日
    26200
  • 浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能

    随着扩散模型(Diffusion Models)的迭代演进,图像生成技术已日趋成熟。然而,在多实例图像生成(Multi-Instance Image Generation, MIG)这一具有广泛用户场景的关键领域,现有方法仍面临核心瓶颈:如何同时实现对多个对象的精确空间布局控制(Layout Control)以及良好的身份特征保持(Identity Pres…

    2025年12月20日
    9700
  • 强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

    强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题 在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会管用吗? 近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。 论文链接: …

    2025年12月20日
    8000
  • 周末实战:7个可上线级Agentic AI项目,助你打造工程实力作品集

    停止只读关于 Agentic AI 的文章,开始动手构建吧。 大家都在谈论 autonomous AI agents,好像它们只属于研究机构和科技巨头。并不是这样。到了 2025 年,构建可用于生产的 Agentic AI 系统已经变得意外地容易——而这正是招聘经理最想看到的。 当别人还在做简单的 ChatGPT wrappers(简单封装)时,你可以构建真…

    2025年12月20日
    7800
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    8000
  • FastAPI与Redis联手打造智能限流:构建公平可靠的API防护体系

    如何保护你的后端,让付费客户满意,并避免“你的 API 糟透了”的吐槽。 本文将探讨如何利用 Redis 构建一个公平、基于 FastAPI 的 API 限流系统。你将学习到核心模式、实现代码以及提升用户体验的技巧,在有效保护后端的同时,避免激怒用户。 限流(Rate Limiting)通常不会引起你的注意……直到它突然打乱你的工作节奏。 例如,当你调用某个…

    2025年12月19日
    7800
  • Python开发者的内部工具构建指南:7大神器打造高效企业应用

    立即构建仪表盘、追踪器与工作流。 对于有经验的 Python 开发者而言,经常会遇到这样的需求:管理层希望快速构建一个内部仪表盘或工具。虽然这听起来颇具挑战,但事实是,企业运营确实离不开各类内部工具,如数据看板、审批流程、KPI 追踪器和自动化机器人。Python 凭借其丰富的生态系统,正是构建这类应用的理想选择。 在经历了多年为不同团队构建内部系统的实践后…

    2025年12月18日
    7900
  • Vision Agents:开源框架革新实时视频AI,构建多模态智能体的终极解决方案

    如果你曾尝试构建一个能够“看见”、“听见”并即时“响应”的实时 AI 系统,就会知道其技术栈有多么复杂。 视频需要一个 SDK。 语音需要另一个。 目标检测需要另一个。 大语言模型(LLM)还需要一个。 之后,你仍需将所有组件集成起来,处理延迟问题,并设法让整个系统实时运行。 Vision Agents 改变了这一切。 这是一个开源框架,旨在帮助开发者构建能…

    2025年12月17日
    7000