ลาก่อนโรงงานผลิตแบบใช้มือ! AI Coding Agent + กลไกความจำเชิงกลยุทธ์ ช่วยให้การปรับแต่ง GPU Operators บรรลุการผลิตอัตโนมัติแบบปริมาณมาก

1 hour ago • โครงการโอเพนซอร์ส • 13 views

คำสำคัญ: การปรับปรุงโอเปอเรเตอร์ GPU, การวิเคราะห์ประสิทธิภาพ Nsight Compute, เอเจนต์เข้ารหัส AI, การปรับแต่งอัตโนมัติหลายแบ็กเอนด์, กลไกความจำกลยุทธ์

เมื่อเร็วๆ นี้ มีการอภิปรายเกี่ยวกับ “ความขัดแย้งของโอเปอเรเตอร์ NPU” ที่ได้รับความสนใจ: นักพัฒนาที่สามารถเขียนโค้ดบน NPU ภายในประเทศที่มีชุดคำสั่งใช้งานยากและเอกสารไม่ครบถ้วน ให้มีประสิทธิภาพเทียบเคียงกับ GPU ของ NVIDIA ได้ น่าจะมีความสามารถทางเทคนิคที่แข็งแกร่งกว่าผู้พัฒนา CUDA ที่มีระดับเท่ากัน อย่างไรก็ตาม ในความเป็นจริง ค่าตอบแทนของนักพัฒนาเหล่านี้มักจะต่ำกว่าผู้ร่วมงานในบริษัทอินเทอร์เน็ตขนาดใหญ่ สิ่งนี้นำไปสู่ความขัดแย้ง: หากเขาเปลี่ยนไปพัฒนาโอเปอเรเตอร์ในบริษัทอินเทอร์เน็ตขนาดใหญ่ ค่าตอบแทนอาจเพิ่มขึ้นเป็นสองเท่า; หากเปลี่ยนไปทำงานกับ NVIDIA หรือ PPU ของ Pingtouge ภาระในการพัฒนาก็จะลดลงอย่างเห็นได้ชัด

เบื้องหลัง “ความขัดแย้ง” นี้ ชี้ไปที่จุดเจ็บปวดของอุตสาหกรรม: การปรับแต่งโอเปอเรเตอร์ GPU/NPU ถูกมองว่าเป็น “งานฝีมือ” ที่ต้องพึ่งพาการทำงานด้วยมือเป็นอย่างสูง และยากต่อการทำซ้ำในระดับมาตราฐานมาเป็นเวลานาน

วิศวกรติดอยู่ในวงจรที่น่าเบื่อ: เผชิญกับตัวนับประสิทธิภาพฮาร์ดแวร์นับสิบรายการที่เข้าใจยากใน Nsight Compute คาดเดาข้อจำกัดประสิทธิภาพด้วยตนเอง ปรับแต่งรูปร่างการแบ่งบล็อกการคำนวณ (tile shape) หรือรูปแบบการเข้าถึงหน่วยความจำอย่างระมัดระวัง จากนั้นรันการทดสอบมาตรฐาน ดูรายงาน และทำซ้ำเช่นนี้ไปเรื่อยๆ สิ่งที่ทำให้หงุดหงิดที่สุดคือ ประสบการณ์การปรับปรุงที่สะสมมาอย่างยากลำบากบนโอเปอเรเตอร์หนึ่ง เกือบจะไม่สามารถถ่ายโอนไปยังโอเปอเรเตอร์ถัดไปได้อย่างเป็นระบบ — การปรับปรุงแต่ละครั้งเกือบจะเริ่มต้นจากศูนย์

นี่อธิบายว่าทำไมคุณค่าของนักพัฒนาระดับสูงในด้าน NPU ภายในประเทศจึงถูกประเมินต่ำเกินไป: เพราะผลิตภาพของพวกเขาถูกจำกัดด้วยเครื่องมือดีบักที่ทำงานแบบโรงงานหัตถกรรม

ดังนั้น หากมีระบบที่สามารถทำงานวงจรสมบูรณ์ของ “คอมไพล์-ตรวจสอบความถูกต้อง-วัดความเร็ว-วิเคราะห์-ตั้งสมมติฐาน-สร้างเวอร์ชันใหม่-ตรวจสอบความถูกต้องอีกครั้ง” โดยอัตโนมัติ และ — มันยังจำได้ว่ากลยุทธ์ใดได้ผล และการลองใดที่ไม่ได้ผล สถานการณ์จะเป็นอย่างไร?

ลาก่อนโรงงานผลิตแบบใช้มือ! AI Coding Agent + กลไกความจำเชิงกลยุทธ์ ช่วยให้การปรับแต่ง GPU Operators บรรลุการผลิตอัตโนมัติแบบปริมาณมาก กรอบกระบวนการทั้งหมดของการปรับปรุงและตรวจสอบความถูกต้องโอเปอเรเตอร์ GPU แบบอัตโนมัติ กระบวนการเริ่มต้นด้วยการตรวจสอบสภาพแวดล้อม Preflight ครอบคลุมการตรวจสอบการกำหนดค่า GPU, Torch เป็นต้น จากนั้นทำการตรวจสอบความถูกต้องและการทดสอบมาตรฐาน หากไม่ผ่านจะถูกทำเครื่องหมายว่าปฏิเสธ หลังจากผ่านแล้วจะดำเนินการวิเคราะห์ NCU แบบแบ่งชั้น ร่วมกับฐานความรู้เพื่อสร้างแผนการปรับปรุง สร้างเวอร์ชันโอเปอเรเตอร์แบบวนซ้ำ และบันทึกผลลัพธ์กลยุทธ์ จดจำประสบการณ์การปรับปรุง หากยังไม่ถึงขีดจำกัดจะวนซ้ำการปรับปรุง จนกว่าจะถึงขีดจำกัดแล้วเลือกเวอร์ชันที่ดีที่สุด สุดท้ายส่งออกผลลัพธ์ที่มีโครงสร้างและรายงาน ทั้งกระบวนการรองรับสามแบ็กเอนด์ ได้แก่ CUDA, CUTLASS, Triton ทำให้เกิดกระบวนการอัตโนมัติวงจรปิดตั้งแต่การตรวจจับไปจนถึงการปรับปรุง

cuda-optimized-skill เป็นโครงการดังกล่าว มันไม่ใช่แค่ไลบรารีเทมเพลตเคอร์เนล GPU อีกชุดหนึ่ง แต่เป็น “ชุดทักษะการปรับปรุง” สำหรับ เอเจนต์เข้ารหัส AI โดยมีเป้าหมายที่จะยกระดับการปรับแต่งโอเปอเรเตอร์จากการพึ่งพาประสบการณ์ของผู้เชี่ยวชาญมนุษย์ ไปเป็นระบบวิศวกรรมที่ขับเคลื่อนด้วยข้อมูล ทำซ้ำได้ และมีความสามารถในการจดจำ

ต่อไป เราจะเริ่มต้นด้วยการรันมันในวิธีที่เร็วที่สุด จากนั้นเจาะลึกลงไปในโค้ดของมัน เพื่อสำรวจว่าระบบนี้ถูกออกแบบมาอย่างไร

สารบัญบทความ

หนึ่ง เริ่มต้นใช้งานอย่างรวดเร็ว: รันการปรับปรุงครั้งแรกตั้งแต่เริ่มต้น
- 1.1 การเตรียมสภาพแวดล้อม
- 1.2 ประสบการณ์ที่เร็วที่สุด: รันการทดสอบมาตรฐานด้วยคำสั่งเดียว
- 1.3 ประสบการณ์แบบสมบูรณ์: เริ่มการปรับปรุงแบบวนซ้ำหลายรอบด้วยคำสั่งเดียว
- 1.4 ตรวจสอบเฉพาะสภาพแวดล้อม ไม่รันการทดสอบมาตรฐาน
- 1.5 การใช้งานในเอเจนต์ AI (วิธีแนะนำ)
สอง ภาพรวมสถาปัตยกรรมและแนวคิดการออกแบบ
- 2.1 ตำแหน่งของโครงการ: ไม่ใช่ไลบรารี แต่เป็น “ทักษะ”
- 2.2 การรวมสามแบ็กเอนด์: หนึ่งกระบวนการ ครอบคลุมสามกระบวนทัศน์การเขียนโปรแกรม
สาม เครื่องมือทดสอบมาตรฐาน: พื้นฐานการวัดประสิทธิภาพแบบรวมศูนย์
- 3.1 การแยกวิเคราะห์ลายเซ็นและการประกอบอัตโนมัติของ CUDA/CUTLASS
- 3.2 อินเทอร์เฟซตามข้อตกลงของแบ็กเอนด์ Triton
- 3.3 การตรวจสอบความถูกต้อง: การเพิ่มประสิทธิภาพต้องอยู่บนพื้นฐานของความถูกต้อง
สี่ เครื่องมือจัดลำดับการวนซ้ำ: ไปป์ไลน์ที่แม่นยำของ optimize_loop.py
- 4.1 กระบวนการบังคับในแต่ละรอบการวนซ้ำ
- 4.2 กลยุทธ์การวิเคราะห์ NCU สองขั้นตอน
- 4.3 Preflight: ระบบความปลอดภัยก่อนเริ่มต้น
ห้า กลไกความจำกลยุทธ์: ทำให้ AI หลีกเลี่ยงข้อผิดพลาดซ้ำซาก
- 5.1 ปัญหา: “การลืม” และ “ความดื้อรั้น” ของ AI
- 5.2 การคำนวณลายนิ้วมือและการตัดสินใจประเภท
- 5.3 ความจำสองระดับ: การรันปัจจุบันและระดับโลก
หก การเลือกเวอร์ชันที่ดีที่สุด: การคัดเลือกที่มีคุณสมบัติครบถ้วนอย่างเข้มงวด
เจ็ด ผลลัพธ์ในทางปฏิบัติ: กรณีศึกษา CUTLASS Softmax
สรุปและคุณค่าทางเทคนิค

ลาก่อนโรงงานผลิตแบบใช้มือ! AI Coding Agent + กลไกความจำเชิงกลยุทธ์ ช่วยให้การปรับแต่ง GPU Operators บรรลุการผลิตอัตโนมัติแบบปริมาณมาก

หนึ่ง เริ่มต้นใช้งานอย่างรวดเร็ว: รันการปรับปรุงครั้งแรกตั้งแต่เริ่มต้น

การวิเคราะห์ทางเทคนิคมีความสำคัญ แต่ “การรันให้ได้ก่อน” เป็นสัญชาตญาณแรกของโปรแกรมเมอร์ บทนี้จะแนะนำขั้นตอนที่ง่ายที่สุด เพื่อให้คุณได้สัมผัสความสามารถหลักของระบบนี้ในสามสถานการณ์อย่างรวดเร็ว

1.1 การเตรียมสภาพแวดล้อม

คุณต้องมีเครื่องที่ติดตั้ง GPU ของ NVIDIA และตรวจสอบให้แน่ใจว่ามีเครื่องมือต่อไปนี้พร้อมใช้งาน:

bash

การพึ่งพาพื้นฐาน: Python 3.8+, PyTorch (เวอร์ชัน CUDA), nvcc, ncu

python -c “import torch; print(torch.cuda.is_available())” # ควรแสดงผล True
nvcc –version # แบ็กเอนด์ CUDA/CUTLASS ต้องการ
ncu –version # การวิเคราะห์ประสิทธิภาพของทุกแบ็กเอนด์ต้องการ

จากนั้นโคลนโปรเจกต์:

bash git clone https://github.com/KernelFlow-ops/cuda-optimized-skill.git cd cuda-optimized-skill

1.2 ประสบการณ์ที่เร็วที่สุด: รันการทดสอบมาตรฐานด้วยคำสั่งเดียว

หากคุณมีไฟล์ CUDA kernel อยู่แล้ว (เช่น my_kernel.cu ซึ่งเปิดเผยอินเทอร์เฟซ extern "C" void solve(...)) เพียงคำสั่งเดียวก็สามารถคอมไพล์ รัน และวัดประสิทธิภาพได้:

bash

ตัวอย่างพื้นฐาน: ทำการทดสอบมาตรฐานประสิทธิภาพเท่านั้น

python skills/optimized-skill/kernel-benchmark/scripts/benchmark.py my_kernel.cu
–M=4096 –N=4096

สคริปต์จะตรวจจับสถาปัตยกรรม GPU โดยอัตโนมัติ ใช้ nvcc คอมไพล์เป็นไลบรารีแชร์ จัดสรรเทนเซอร์ CUDA และดำเนินการทดสอบมาตรฐาน หากคุณมีอิมพลีเมนเตชันอ้างอิง Python พร้อมกัน เพียงเพิ่มพารามิเตอร์ --ref ก็สามารถตรวจสอบความถูกต้องของการคำนวณพร้อมกันได้:

bash

การตรวจสอบความถูกต้อง การทดสอบมาตรฐาน และการเปรียบเทียบอัตราเร่ง

python skills/optimized-skill/kernel-benchmark/scripts/benchmark.py my_kernel.cu
–ref=my_ref.py –M=4096 –N=4096

สำหรับผู้ใช้ Triton กระบวนการก็กระชับเช่นกัน:

bash python skills/optimized-skill/kernel-benchmark/scripts/benchmark.py my_triton_kernel.py --backend=triton --ref=my_ref.py --M=4096 --N=4096

คำแนะนำ: เมื่อไม่ได้ระบุพารามิเตอร์ --backend สคริปต์จะอนุมานประเภทแบ็กเอนด์จากนามสกุลไฟล์โดยอัตโนมัติ: ไฟล์ .py ใช้ Triton ไฟล์ .cu ใช้ CUDA

1.3 ประสบการณ์แบบสมบูรณ์: เริ่มการปรับปรุงแบบวนซ้ำหลายรอบด้วยคำสั่งเดียว

ความสามารถหลักอยู่ที่การปรับปรุงแบบวนซ้ำหลายรอบ คำสั่งเดียวสามารถเริ่มวงจรสมบูรณ์ของ “การทดสอบมาตรฐาน → การวิเคราะห์ประสิทธิภาพ NCU → ความจำกลยุทธ์ → การสร้างเวอร์ชันถัดไป”:

bash

โอเปอเรเตอร์ CUDA: ดำเนินการปรับปรุงแบบวนซ้ำ 3 รอบ

python skills/optimized-skill/operator-optimize-loop/scripts/optimize_loop.py my_kernel.cu
–ref=my_ref.py –max-iterations=3 –M=4096 –N=4096

โอเปอเรเตอร์ CUTLASS: ดำเนินการปรับปรุงแบบวนซ้ำ 3 รอบ

python skills/optimized-skill/operator-optimize-loop/scripts/optimize_loop.py my_cutlass.cu
–backend=cutlass –ref=my_ref.py –max-iterations=3 –M=4096 –N=4096

โอเปอเรเตอร์ Triton: ดำเนินการปรับปรุงแบบวนซ้ำ 3 รอบ

python skills/optimized-skill/operator-optimize-loop/scripts/optimize_loop.py my_triton.py
–backend=triton –ref=my_ref.py –max-iterations=3 –M=4096 –N=4096

โดย --max-iterations เป็นพารามิเตอร์บังคับเดียวที่ต้องระบุ นอกเหนือจากไฟล์โอเปอเรเตอร์ หลังจากดำเนินการเสร็จสิ้น ระบบจะสร้างไดเรกทอรี optimize_runs/run_YYYYMMDD_HHMMSS/ ในไดเรกทอรีเดียวกับไฟล์โอเปอเรเตอร์ ซึ่งประกอบด้วยผลลัพธ์การทดสอบมาตรฐาน รายงาน NCU ข้อเสนอแนะการปรับปรุง และบทสรุปสุดท้ายของแต่ละรอบ

1.4 การตรวจสอบสภาพแวดล้อมล่วงหน้า: ตรวจสอบเฉพาะการกำหนดค่าสภาพแวดล้อม

หากต้องการยืนยันว่าสภาพแวดล้อมการรันพร้อมใช้งานหรือไม่ สามารถเพิ่มพารามิเตอร์ --preflight-only เพื่อดำเนินการตรวจสอบสภาพแวดล้อมแบบสมบูรณ์หนึ่งครั้ง:

bash python skills/optimized-skill/operator-optimize-loop/scripts/optimize_loop.py my_kernel.cu --max-iterations=1 --preflight-only

การดำเนินการนี้จะสร้างรายงาน preflight_check.md และ preflight_check.json ซึ่งแสดงรายละเอียดข้อมูลสำคัญ เช่น รุ่น GPU เวอร์ชันไดรเวอร์ เส้นทาง nvcc/ncu สถานะ CUDA ของ PyTorch เป็นต้น เพื่อให้สามารถระบุปัญหาสภาพแวดล้อมได้อย่างรวดเร็ว

1.5 การผสานรวมกับเอเจนต์ AI (วิธีแนะนำ)

โครงการนี้ออกแบบมาเพื่อเป็น “ชุดทักษะ” สำหรับเอเจนต์เข้ารหัส AI หากเอเจนต์ที่คุณใช้ (เช่น Claude Codex) รองรับการเรียกใช้ทักษะ คุณสามารถใช้งานได้อย่างสะดวกผ่านวิธีต่อไปนี้:

@optimized-skill ใช้ทักษะนี้เพื่อปรับปรุง my_kernel.cu โดยจำนวนรอบการวนซ้ำคือ 3 รอบ

เอเจนต์จะเรียกใช้ optimize_loop.py โดยอัตโนมัติ แยกวิเคราะห์รายงาน NCU ของแต่ละรอบ สร้างโค้ดโอเปอเรเตอร์เวอร์ชันถัดไป และวนซ้ำอย่างต่อเนื่องภายใต้การชี้นำของความจำกลยุทธ์ จนกว่าจะถึงจำนวนรอบที่กำหนดหรือประสิทธิภาพมาบรรจบกัน

สอง ภาพรวมสถาปัตยกรรมและแนวคิดการออกแบบ

2.1 ตำแหน่งของโครงการ: ไม่ใช่ไลบรารีแบบดั้งเดิม แต่เป็น “ทักษะการปรับปรุง”

ไลบรารีปรับปรุงโอเปอเรเตอร์ GPU แบบดั้งเดิม (เช่น CUTLASS, Triton) ให้อิมพลีเมนเตชันโอเปอเรเตอร์เองเป็นหลัก ในขณะที่ cuda-optimized-skill ให้ความสามารถในการจัดลำดับกระบวนการปรับปรุงให้เป็นมาตรฐาน — สมมติฐานหลักคือมีเอเจนต์เข้ารหัส AI ต้นทาง (ปัจจุบันมุ่งเป้าไปที่ Claude Codex) โดยเอเจนต์รับผิดชอบ “ทำความเข้าใจโค้ด เสนอแผนการปรับปรุง สร้างโอเปอเรเตอร์เวอร์ชันใหม่”; โครงการนี้รับผิดชอบ “ดำเนินการทดสอบมาตรฐาน รับรายงาน NCU กำหนดประสิทธิผลของกลยุทธ์ บันทึกบทเรียนประสบการณ์”

โค้ดโครงการถูกจัดระเบียบในไดเรกทอรี skills/optimized-skill/ ประกอบด้วยโมดูลย่อยหลักสี่โมดูล:

skills/optimized-skill/ ├── kernel



⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

    
        ☕ สนับสนุนค่ากาแฟทีมงาน
        หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
        
            
        
        
            SCAN TO PAY WITH ANY BANK
        
    
                                                        本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/30455



                        
                        
                             Like (0)
                                                    

                        
                            
                                                                
                                    
                                                                                     0                                         0                                                                            
                                    
                                                                                    
                                                 Generate poster


                                            
                    
                
                    คลาวด์ขัดข้อง 7 ครั้งในครึ่งเดือน ตกใจกัน 3 ชั่วโมง! Anthropic กำลังขาดแคลนพลังประมวลผล ลงทุน 500 ล้านดอลลาร์เพื่อพัฒนาชิปของตัวเองเพื่อช่วยตัวเอง
                
                
                     Previous
                    2 hours ago
                
            
                            
                
                    ArcLight: ทะลวงข้อจำกัดการอนุมานบนซีพียูหลายคอร์ ด้วยสถาปัตยกรรมที่ตระหนักถึง NUMA เพิ่มประสิทธิภาพการอนุมาน LLM ขึ้น 46%
                
                
                    Next 
                    1 hour ago
                
            
            
                                                                
                            相关推荐

        
        
                    
                โครงการโอเพนซอร์ส
            
        
                
            
                                 Google XLS: เปิดตัวการออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์ยุคใหม่ ให้วิศวกรซอฟต์แวร์สามารถ “คอมไพล์” ฮาร์ดแวร์ได้อย่างลื่นไหล            
        
        
            คำสำคัญ: Google XLS, การสังเคราะห์ระดับสูง (HLS), การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์ (Co-design), ภาษา DSLX, สถาปัตยกรรมคอมไพเลอร์, การคอมไพล์แบบทันที (JIT) กฎของมัวร์กำลังเ…
        
        
                                    2026年3月29日
            
                135000            
        
    


        
        
                    
                โครงการโอเพนซอร์ส
            
        
                
            
                                 การปฏิบัติวิศวกรรมความรู้เอเจนต์: การสร้างระบบความทรงจำที่ยั่งยืน เพื่อให้เอเจนต์โค้ดดิ้งเรียนรู้และเติบโตได้เหมือนมนุษย์            
        
        
            คำสำคัญ: Agent Knowledge Engineering, ความจำถาวร, การสะท้อนและตกตะกอนความรู้, การโหลดแบบแบ่งชั้น, ระบบการจัดหมวดหมู่ความรู้ บทความนี้นำเสนอชุดปฏิบัติการด้านวิศวกรรมความรู้สำหรับ Ag…
        
        
                                    2026年3月14日
            
                185000            
        
    


        
        
                    
                โครงการโอเพนซอร์ส
            
        
                
            
                                 MagicSkills: npm แห่งโลก AI Agent มาแล้ว! โครงการโอเพนซอร์สจากมหาวิทยาลัยปักกิ่ง จัดการทักษะ Agent แบบครบวงจร สู่การ “เขียนครั้งเดียว ใช้ได้ทุกที่”            
        
        
            MagicSkills: นำความสามารถ “การจัดการแพ็กเกจ” เข้าสู่โลกของ AI Agent MagicSkills โครงการโอเพ่นซอร์สจาก Narwhal-Lab มหาวิทยาลัยปักกิ่ง มีเป้าหมายเพื่อให้เกิดการนำความสามา…
        
        
                                    2026年3月19日
            
                174000            
        
    


        
        
                    
                โครงการโอเพนซอร์ส
            
        
                
            
                                 AI เครื่องมือใหม่ล่าสุด: Claude ออนไลน์สุดเจ๋ง, เบราว์เซอร์ Zig เร็วขึ้น 11 เท่า, แพ็กเกจครอบครัวฟรี, เบราว์เซอร์ของคุณคือ API!            
        
        
            ความก้าวหน้าใหม่ของเครื่องมือ AI: เครื่องมือเชื่อมต่ออินเทอร์เน็ต Claude, เบราว์เซอร์ Zig เร็วขึ้น 11 เท่า, แพ็กเกจฟรีทั้งชุด, เบราว์เซอร์ของคุณคือ API! 01 มอบความสามารถเชื่อมต่ออิ…
        
        
                                    2026年3月29日
            
                155000            
        
    


        
        
                    
                โครงการโอเพนซอร์ส
            
        
                
            
                                 จาก PUA ถึงเต้าเต๋อจิง: 4 กลยุทธ์สุดแปลกของโปรแกรมเมอร์ที่ใช้แรงกดดันในที่ทำงาน การวิจัยทางวิชาการ และภูมิปัญญาทางปรัชญาขับเคลื่อน AI            
        
        
            01 ใช้วาทศิลป์ประเมินผลบริษัทใหญ่ขับเคลื่อน AI ไม่นานมานี้ บน GitHub มีโครงการโอเพนซอร์สที่มีแนวคิดค่อนข้างเป็นเอกลักษณ์ปรากฏขึ้น วิธีการหลักของโครงการสามารถสรุปได้ว่า: นำระบบประเม…
        
        
                                    2026年3月26日
            
                148000