大模型工程
-
2026年自动化加速利器:13个Python库提升开发效率
在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…
-
突破RISC-V迁移瓶颈:首个RVV适配基准揭示LLM代码迁移潜力,20%通过率提升方案开源
关键词: RISC-V Vector Intrinsic、Code Migration、Benchmark、Large Language Model、Intrinsic Code VecIntrinBench: Benchmarking Cross-Architecture Intrinsic Code Migration for RISC-V Vector…
-
NiceToMeetYou:MLIR抽象变换器自动合成框架,精度超越手工版17%,革新编译器静态分析
关键词: Abstract Transformers 、Program Synthesis 、MLIR、Static Analysis 、 Compiler Optimization 、Formal Verification 不再依赖人工编写,一个框架让编译器拥有更精确的静态分析能力。 编译器是现代软件基础设施的基石之一,它们不仅将高级语言代码翻译成机器指令…
-
TritonForge:剖析引导+LLM协同,突破Triton内核优化瓶颈,成功率42.7%最高提速5倍
TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization https://arxiv.org/pdf/2512.09196 本文提出 TritonForge,一款基于剖析引导的自动化 Triton 内核优化框架,旨在解决现代机器学习中 GPU 内核优化耗时…
-
揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制
本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…
-
周末实战:7个可上线级Agentic AI项目,助你打造高含金量作品集
大家都在谈论自主 AI 智能体,仿佛它们只属于研究实验室和大型科技公司。但事实并非如此。到 2025 年,构建可用于生产环境的 Agentic AI 系统已经变得异常容易——而这正是招聘经理最希望看到的技能。 当其他人还在制作简单的 ChatGPT 封装应用时,你可以构建真正具备决策、工具使用、上下文记忆与协作能力的智能体系统。这些不仅仅是演示,而是能够展示…
-
浙大ContextGen突破多实例生成瓶颈:布局控制与身份保持双重精准,刷新SOTA性能
随着扩散模型(Diffusion Models)的迭代演进,图像生成技术已日趋成熟。然而,在多实例图像生成(Multi-Instance Image Generation, MIG)这一具有广泛用户场景的关键领域,现有方法仍面临核心瓶颈:如何同时实现对多个对象的精确空间布局控制(Layout Control)以及良好的身份特征保持(Identity Pres…
-
强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题
强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题 在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会管用吗? 近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。 论文链接: …
-
周末实战:7个可上线级Agentic AI项目,助你打造工程实力作品集
停止只读关于 Agentic AI 的文章,开始动手构建吧。 大家都在谈论 autonomous AI agents,好像它们只属于研究机构和科技巨头。并不是这样。到了 2025 年,构建可用于生产的 Agentic AI 系统已经变得意外地容易——而这正是招聘经理最想看到的。 当别人还在做简单的 ChatGPT wrappers(简单封装)时,你可以构建真…
-
揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制
关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…
