PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

16 hours ago • การฝึกโมเดลขนาดใหญ่ • 17 views

ในการฝึกอบรมเอเจนต์การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ปัญหาที่พบบ่อยคือ ด่านบางด่านง่ายเกินไป เอเจนต์สามารถเรียนรู้ได้หลังจากทำซ้ำเพียงไม่กี่ครั้ง ในขณะที่ด่านอื่นๆ ยากเกินไปจนเอเจนต์แทบไม่ได้รับข้อเสนอแนะที่มีประสิทธิภาพ ด่านแรกเพียงแค่เสริมทักษะที่มีอยู่ ส่วนด่านหลังทำให้ทรัพยากรการฝึกอบรมสูญเปล่าไปกับการสำรวจที่ไร้ประโยชน์ สภาพแวดล้อมการฝึกอบรมที่มีคุณค่าอย่างแท้จริง มักจะอยู่ระหว่างสองสิ่งนี้ คือ เหนือขีดความสามารถปัจจุบันของเอเจนต์เล็กน้อย แต่ก็ไม่ยากจนเกินไปจนไม่สามารถเรียนรู้ได้ กล่าวอีกนัยหนึ่ง การฝึกอบรมแบบเสริมกำลังก็มี “โซนพัฒนาการใกล้เคียง” (Zone of Proximal Development) เช่นกัน: กุญแจสำคัญของการฝึกอบรมที่มีประสิทธิภาพไม่ใช่การสร้างด่านให้มากขึ้น แต่คือการหาด่านที่คุ้มค่าที่สุดในการเรียนรู้ในแต่ละช่วง

Unsupervised Environment Design (UED) เกิดขึ้นมาเพื่อรับมือกับความท้าทายนี้โดยเฉพาะ UED ไม่ได้มองสภาพแวดล้อมการฝึกอบรมเป็นชุดข้อมูลคงที่อีกต่อไป แต่จะสร้าง เลือก หรือเล่นซ้ำด่านต่างๆ โดยอัตโนมัติ เพื่อปรับเปลี่ยนการกระจายตัวของการฝึกอบรมแบบไดนามิก ทำให้เอเจนต์ได้รับความสามารถในการสรุปทั่วไป (generalization) ที่แข็งแกร่งขึ้นจากการเรียนรู้อย่างต่อเนื่อง อย่างไรก็ตาม UED เผชิญกับปัญหาหลัก: ระบบต้องตัดสินว่าด่านใดที่ผลักดันการเรียนรู้ของเอเจนต์ได้อย่างแท้จริง

เมื่อเร็วๆ นี้ นักวิจัยจากมหาวิทยาลัยเทคโนโลยีกลาโหมแห่งชาติ มหาวิทยาลัยเซียะเหมิน และสถาบันอื่นๆ ได้เสนอ PACE (Parameter Change Environment Design) PACE ใช้การเปลี่ยนแปลงพารามิเตอร์นโยบายที่เกิดจากด่านเป็นสัญญาณคุณค่าการฝึกอบรม โดยวัดโดยตรงว่าด่านนั้นนำมาซึ่งความก้าวหน้าในการเรียนรู้ที่สำคัญหรือไม่ งานวิจัยนี้ได้รับการตอบรับให้ตีพิมพ์ใน ICML 2026

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

ชื่อบทความ: PACE: Parameter Change for Unsupervised Environment Design
ลิงก์บทความ: https://doi.org/10.48550/arXiv.2605.01358

UED: ให้สภาพแวดล้อมการฝึกอบรมสร้างหลักสูตรของตัวเอง

แนวคิดพื้นฐานของ UED ไม่ซับซ้อน การเรียนรู้แบบเสริมกำลังแบบดั้งเดิมมักจะกำหนดชุดสภาพแวดล้อมการฝึกอบรมก่อน แล้วให้เอเจนต์เรียนรู้ซ้ำๆ ในนั้น แต่สภาพแวดล้อมการฝึกอบรมไม่ได้ยิ่งมากยิ่งดี หรือยิ่งยากยิ่งดี หากด่านง่ายเกินไป เอเจนต์จะเข้าสู่ “เขตสบาย” อย่างรวดเร็ว และสามารถเสริมพฤติกรรมที่เรียนรู้แล้วเท่านั้น หากด่านยากเกินไป เอเจนต์จะตกอยู่ใน “เขตตื่นตระหนก” และไม่ได้รับรางวัลที่มีประสิทธิภาพเป็นเวลานาน ทั้งสองกรณีนี้จะลดประสิทธิภาพการเรียนรู้และความสามารถในการสรุปทั่วไปในที่สุด

ก่อน UED การสุ่มพารามิเตอร์โดเมน (Domain Randomization) ได้พิสูจน์แล้วว่าความหลากหลายของสภาพแวดล้อมช่วยเพิ่มความสามารถในการสรุปทั่วไป แต่วิธีการเหล่านี้มักจะสุ่มตัวอย่างพารามิเตอร์สภาพแวดล้อมแบบคงที่เท่านั้น และยากที่จะปรับเนื้อหาการฝึกอบรมแบบไดนามิกตามสถานะการเรียนรู้ปัจจุบันของเอเจนต์

UED ก้าวไปอีกขั้นโดยรวม “สิ่งที่จะฝึก” เข้าไปในกระบวนการเรียนรู้: ระบบไม่ได้มองสภาพแวดล้อมการฝึกอบรมเป็นฉากหลังคงที่อีกต่อไป แต่จะสร้าง เลือก หรือเล่นซ้ำด่านแบบไดนามิก และตัดสินใจว่าด่านใดควรค่าแก่การเก็บไว้ เล่นซ้ำ หรือปรับเปลี่ยนเพิ่มเติม ตามสัญญาณประเมินบางอย่าง ในอุดมคติ ด่านเหล่านี้ควรอยู่ใกล้กับขีดความสามารถปัจจุบันของเอเจนต์อย่างต่อเนื่อง: ไม่ควรแก้ไขได้ง่ายเกินไป และไม่ควรเกินขอบเขตที่เรียนรู้ได้โดยสิ้นเชิง

วิธีการ UED ที่มีอยู่มักต้องใช้คะแนนเพื่อประเมินด่าน วิธีปฏิบัติทั่วไป ได้แก่ regret, GAE, MaxMC เป็นต้น สัญญาณเหล่านี้มีประสิทธิภาพในทางปฏิบัติ แต่ส่วนใหญ่เริ่มต้นจากช่องว่างความสามารถในการแก้ไข ข้อผิดพลาดในการประมาณค่าหรือการประมาณผลตอบแทน และไม่ได้ประเมินว่า “การฝึกอบรมครั้งนี้นำมาซึ่งการปรับปรุงนโยบายมากน้อยเพียงใด” อีกวิธีหนึ่งที่ตรงกว่า เช่น Marginal Benefit จะเปรียบเทียบการเปลี่ยนแปลงประสิทธิภาพก่อนและหลังการอัปเดตนโยบาย ดังนั้นจึงใกล้เคียงกับความก้าวหน้าในการเรียนรู้ที่แท้จริงมากกว่า แต่วิธีนี้ต้องการการรันเพิ่มเติม (rollout) เพื่อประมาณผลตอบแทนก่อนและหลังการอัปเดต ซึ่งมีค่าใช้จ่ายในการคำนวณสูงกว่า และความแปรปรวนในการประมาณก็สูงกว่าด้วย

ดังนั้น ปัญหาหลักของ UED จึงกลายเป็น: จะตัดสินได้อย่างไรอย่างง่ายและแม่นยำว่าด่านหนึ่งผลักดันการเรียนรู้ของเอเจนต์ได้จริงหรือไม่?

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์

การตัดสินใจหลักของ PACE นั้นตรงไปตรงมา: หากด่านส่งเสริมการเรียนรู้จริง พารามิเตอร์นโยบายของเอเจนต์ควรเปลี่ยนแปลงอย่างมีความหมายหลังจากฝึกอบรมบนด่านนั้น กล่าวคือ PACE ไม่ได้สร้างคุณค่าของด่านบนสัญญาณทางอ้อม เช่น regret, GAE หรือ Monte Carlo return อีกต่อไป แต่สังเกตการอัปเดตนโยบายที่เกิดจากด่านนั้นโดยตรง

ประการแรก สำหรับด่านหนึ่ง บทความนี้มุ่งเน้นไปที่การปรับปรุงเป้าหมายก่อนและหลังการอัปเดตนโยบาย:

โดยที่ แสดงถึงพารามิเตอร์นโยบายก่อนโต้ตอบกับด่าน และ แสดงถึงพารามิเตอร์หลังจากทำการอัปเดตนโยบายเฉพาะที่บนด่านนั้น หากประมาณค่าโดยตรง

โดยปกติแล้วจำเป็นต้องประเมินประสิทธิภาพของนโยบายก่อนและหลังการอัปเดตแยกกัน ซึ่งต้องมีการรันเพิ่มเติม สิ่งนี้ทำให้เกิดค่าใช้จ่ายในการคำนวณที่สูงขึ้น และนำไปสู่ความแปรปรวนในการประมาณที่มากขึ้นในงานที่มีรางวัลเบาบางหรือระยะเวลายาวนาน

PACE เลือกที่จะเริ่มต้นจากกระบวนการปรับให้เหมาะสมเอง ใกล้กับพารามิเตอร์ปัจจุบัน ทำการขยายอนุกรมเทย์เลอร์อันดับหนึ่งของฟังก์ชันเป้าหมาย

สมมติเพิ่มเติมว่าการอัปเดตนี้ดำเนินไปตามทิศทางเกรเดียนต์เฉพาะที่ นั่นคือ

โดยที่ แสดงถึงอัตราการเรียนรู้ ดังนั้น

แทนค่านี้ลงในการขยายอันดับหนึ่ง จะได้รูปแบบประมาณของการปรับปรุงเป้าหมาย:

ความสัมพันธ์โดยประมาณนี้แสดงให้เห็นว่า ภายใต้สมมติฐานการอัปเดตเกรเดียนต์เฉพาะที่ การปรับปรุงเป้าหมายที่เกิดจากด่านหนึ่งเป็นสัดส่วนกับค่ากำลังสองของบรรทัดฐานการเปลี่ยนแปลงพารามิเตอร์นโยบายที่เหนี่ยวนำ ดังนั้น PACE จึงกำหนดคะแนนด่านเป็น:

โดยที่

แสดงถึงคุณค่าการฝึกอบรมของด่าน โดยสัญชาตญาณ หากด่านหนึ่งเหนี่ยวนำให้เกิดการอัปเดตพารามิเตอร์ที่มีประสิทธิภาพมากขึ้น ก็มีแนวโน้มที่จะมีเนื้อหาที่นโยบายปัจจุบันยังไม่เชี่ยวชาญ แต่สามารถให้สัญญาณการเรียนรู้ได้ PACE ไม่ได้สนใจว่าด่านนั้นดูยากแค่ไหน แต่สนใจว่ามันทำให้นโยบายก้าวไปในทิศทางที่ดีขึ้นจริงหรือไม่

รูปที่ 1: แผนผังการทำงานของ PACE

จากคะแนนนี้ กระบวนการทำงานของ PACE สามารถแบ่งออกเป็นสองส่วน: การให้คะแนนด่านและการฝึกอบรมนโยบาย (รูปที่ 1)

ในขั้นตอนการให้คะแนนด่าน ระบบจะสร้างด่านตัวเลือกจากตัวสร้างด่านก่อน และใช้นโยบายปัจจุบัน

เก็บข้อมูลบนด่านนั้น จากนั้น PACE จะทำการอัปเดตนโยบายชั่วคราวหนึ่งครั้ง เพื่อให้ได้

ขั้นตอนนี้ใช้สำหรับคำนวณคะแนนเท่านั้น และไม่ได้เขียนกลับไปยังนโยบายปัจจุบันโดยตรง จากนั้น PACE จะคำนวณคะแนนตามสูตรข้างต้น

หากบัฟเฟอร์ด่านยังไม่เต็ม PACE จะเพิ่มด่านนั้นเข้าไปโดยตรง หากบัฟเฟอร์เต็มแล้ว เมื่อคะแนน

ของด่านปัจจุบันสูงกว่าคะแนนต่ำสุดในบัฟเฟอร์ PACE จะแทนที่ด่านคะแนนต่ำนั้นด้วยด่านปัจจุบัน ด้วยวิธีนี้ บัฟเฟอร์จะคงไว้ซึ่งด่านที่สามารถเหนี่ยวนำการอัปเดตนโยบายได้มากกว่า

ในขั้นตอนการฝึกอบรมนโยบาย PACE จะสุ่มตัวอย่างด่านจากบัฟเฟอร์ด่าน และใช้ด่านเหล่านั้นเพื่ออัปเดตพารามิเตอร์นโยบายอย่างเป็นทางการ เมื่อสุ่มตัวอย่าง PACE จะสร้างการกระจายลำดับความสำคัญตามคะแนน ทำให้ด่านที่มีคะแนนสูงมีโอกาสถูกเล่นซ้ำมากขึ้น

กระบวนการทั้งหมดดำเนินการสลับกันอย่างต่อเนื่อง: ด่านใหม่ถูกสร้างและให้คะแนน ด่านที่มีคุณค่าสูงถูกเขียนลงในบัฟเฟอร์ และด่านในบัฟเฟอร์ถูกเล่นซ้ำตามลำดับความสำคัญเพื่อฝึกอบรมนโยบาย ดังนั้น PACE จึงใช้การเปลี่ยนแปลงพารามิเตอร์นโยบายเพื่อสร้างสัญญาณความก้าวหน้าในการเรียนรู้จากภายใน และใช้มันเพื่อขับเคลื่อนหลักสูตรการฝึกอบรมให้วิวัฒนาการแบบไดนามิกตามความสามารถของเอเจนต์

ผลการทดลอง: จากการสรุปทั่วไปในเขาวงกตสู่งานแบบเปิด

บทความนี้ตรวจสอบ PACE บน MiniGrid และ Craftax โดยพิจารณาความสามารถในการสรุปทั่วไปแบบ zero-shot ในเขาวงกตที่มีโครงสร้าง และความสามารถในการเรียนรู้อย่างต่อเนื่องในงานระยะยาวที่ไม่คงที่ วิธีการเปรียบเทียบ ได้แก่ DR, PLR, PLR และ ACCEL

ในสภาพแวดล้อม MiniGrid ทุกวิธีจะเรียนรู้จากเขาวงกตฝึกอบรมที่แสดงใน

และในขั้นตอนการทดสอบ จะถูกย้ายไปยังด่านที่ออกแบบด้วยมือ 12 ด่านที่ไม่เคยเห็นมาก่อน โดยไม่มีการปรับแต่งเพิ่มเติมใดๆ การตั้งค่าการทดลองนี้ใช้เพื่อประเมินความสามารถในการสรุปทั่วไปแบบ zero-shot จากรูปที่ 2 จะเห็นได้ว่าในด่าน FourRooms ที่ค่อนข้างง่าย ทุกวิธีสามารถบรรลุอัตราความสำเร็จที่สูง อย่างไรก็ตาม เมื่อโครงสร้างของด่านซับซ้อนขึ้น ความแตกต่างของประสิทธิภาพระหว่างวิธีต่างๆ ก็เริ่มขยายตัวอย่างมีนัยสำคัญ ในด่านที่ท้าทายกว่า เช่น Labyrinth, Maze3 PACE ไม่เพียงแสดงอัตราความสำเร็จที่สูงขึ้นเท่านั้น แต่ยังมีความแปรปรวนของผลลัพธ์ที่ต่ำกว่าอีกด้วย

นักวิจัยได้ประเมินประสิทธิภาพโดยรวมเพิ่มเติมโดยใช้ไลบรารี rliable ตารางที่ 1 แสดงให้เห็นว่าค่า IQM ของ PACE อยู่ที่ 0.964 ซึ่งดีกว่าค่า 0.808 ของ PLR ซึ่งเป็นเส้นฐานที่แข็งแกร่งที่สุดอย่างเห็นได้ชัด ค่า Optimality Gap ของ PACE ลดลงเหลือ 0.172 ซึ่งดีกว่าวิธีการต่างๆ เช่น DR, PLR, PLR และ ACCEL เช่นกัน ซึ่งบ่งชี้ว่าการปรับปรุงประสิทธิภาพของ PACE ไม่ได้มาจากด่านเฉพาะเพียงไม่กี่ด่าน แต่สะท้อนถึงความสามารถในการสรุปทั่วไปที่เสถียรกว่าโดยรวม

รูปที่ 2: ประสิทธิภาพการถ่ายโอนแบบ zero-shot บน MiniGrid

ตารางที่ 1: ตัวชี้วัดการสรุปทั่วไปโดยรวมบน MiniGrid

เพื่อตรวจสอบความเหมาะสมของ PACE ในงานที่ซับซ้อนยิ่งขึ้น บทความนี้ยังได้ทำการทดลองบน Craftax อีกด้วย Craftax เป็นแพลตฟอร์มเกณฑ์มาตรฐาน JAX สำหรับการเรียนรู้แบบเสริมกำลังแบบเปิด (open-ended) เมื่อกระบวนการสำรวจดำเนินไป เอเจนต์จะพบกับพื้นที่ กลไก และเป้าหมายใหม่ๆ อย่างต่อเนื่อง การกระจายของงานก็จะเปลี่ยนแปลงไปเรื่อยๆ ดังนั้นจึงเหมาะที่จะทดสอบว่าวิธี UED สามารถให้หลักสูตรที่มีประสิทธิภาพอย่างต่อเนื่องในระหว่างการฝึกอบรมระยะยาวหรือไม่

การทดลองเป็นไปตามการตั้งค่า Craftax-1B โดยมีงบประมาณการฝึกอบรมประมาณ จำนวนการโต้ตอบกับสภาพแวดล้อม ในขั้นตอนการประเมิน นักวิจัยเปรียบเทียบรางวัลแบบเป็นตอน (episodic reward) ของนโยบายสุดท้ายบนด่าน Craftax ที่ไม่เคยเห็น 20 ด่าน ดังแสดงในตารางที่ 2 PACE ได้รับผลตอบแทนการประเมินสูงสุดภายใต้งบประมาณการฝึกอบรมเดียวกัน โดยมีรางวัลเฉลี่ยถึง

สูงกว่า DR ที่

และดีกว่าวิธีการต่างๆ เช่น PLR, PLR และ ACCEL

ตารางที่ 2: รางวัลเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานบนด่านที่ไม่เคยเห็น 20 ด่านของ Craftax

บทสรุปและแนวโน้มในอนาคต

ในบริบทที่เอเจนต์การเรียนรู้แบบเสริมกำลังต้องปรับตัวให้เข้ากับสภาพแวดล้อมที่ไม่เคยเห็นอย่างต่อเนื่อง การระบุอย่างแม่นยำว่าด่านใดที่ผลักดันการเรียนรู้อย่างแท้จริงเป็นปัญหาสำคัญของ UED PACE ใช้สัญญาณภายในที่เรียบง่าย มีความแปรปรวนต่ำ และเป็นมิตรต่อการคำนวณ นั่นคือการเปลี่ยนแปลงพารามิเตอร์ เพื่อสร้างการประเมินสภาพแวดล้อมโดยตรงบนความก้าวหน้าในการเรียนรู้ที่เกิดขึ้นจริง (realized learning progress) ซึ่งช่วยลดผลกระทบจากอคติของตัวบ่งชี้แทน การประมาณค่าที่มีความแปรปรวนสูง และค่าใช้จ่ายในการรันเพิ่มเติม และนำเสนอแนวทางใหม่สำหรับการสร้างหลักสูตรการฝึกอบรมแบบปรับตัวที่เสถียรและปรับขนาดได้มากขึ้น

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/35862

Like (0)

0 0

阿里 QoderWork เปิดตัวแพลตฟอร์มการทำงานแบบ AI Native ที่ปรับแต่งได้เป็นรายแรกของโลก สิ้นสุดห่วงโซ่การแปลจากการออกแบบสู่โค้ดที่ยาวนานถึงสิบปี

Previous 16 hours ago

Anthropic ทำกำไรครั้งแรก! รายได้พุ่ง 80 เท่า ทิ้งห่าง OpenAI ขณะที่ฝ่ายหลังขาดทุน 1.22 ดอลลาร์ต่อทุก 1 ดอลลาร์ที่ทำได้

Next 16 hours ago

การฝึกโมเดลขนาดใหญ่

OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI

ตลอดสัปดาห์ที่ผ่านมา เอไอเอเจนต์รูปการ์ตูนกุ้งมังกรสีแดงชื่อ OpenClaw ได้รับความสนใจอย่างกว้างขวาง ประสบการณ์การใช้เอไอเอเจนต์ที่สามารถทำงานเฉพาะเจาะจงนี้ค่อนข้างน่าตื่นเต้น: ตั้งแ…

2026年3月16日
236000
การฝึกโมเดลขนาดใหญ่

การวิจัยร่วมของมหาวิทยาลัยชิงหวา ปักกิ่ง และเทนเซนต์: กรอบ GTR แก้ปัญหาการ ‘ล่มสลายของความคิด’ ในการฝึกตัวแทน VLM

ผู้เขียนคนแรกของบทความวิจัยคือ Wei Tong นักศึกษาปริญญาเอกที่กำลังศึกษาอยู่ที่มหาวิทยาลัย Tsinghua โดยมีทิศทางการวิจัยเกี่ยวกับเอเจนต์โมเดลขนาดใหญ่และการเรียนรู้แบบเสริมกำลัง (Reinf…

2026年3月13日
272000
การฝึกพารามิเตอร์ระดับล้านล้านไม่ใช่เรื่องยากอีกต่อไป: GraphPP ใช้การแปลงกราฟเพื่อกำจัดฟองในไปป์ไลน์อย่างสมบูรณ์ เพิ่มความเร็ว 70%

เมื่อขนาดพารามิเตอร์ของโมเดลทะลุหลักล้านล้าน การฝึกแบบกระจายได้กลายเป็น “กระบวนทัศน์โครงสร้างพื้นฐานใหม่” ในด้านการเรียนรู้เชิงลึก อย่างไรก็ตาม การวางท่อแบบขนาน (Pipeli…

การฝึกโมเดลขนาดใหญ่ 2026年4月29日
77000
การฝึกโมเดลขนาดใหญ่

ความก้าวหน้าใหม่ในการวิจัยอิสระของ AI: โครงการ Karpathy กระตุ้นการทำงานร่วมกันของกลุ่มเอเจนต์อัจฉริยะ ทำการทดลองกว่า 2,000 ครั้งใน 4 วัน

ความก้าวหน้าใหม่ในการวิจัยอิสระของ AI: โครงการ Karpathy กระตุ้นการทำงานร่วมกันแบบกลุ่มของเอเจนต์ ปฏิบัติการทดลองกว่า 2,000 ครั้งใน 4 วัน โครงการ Autoresearch ของ Karpathy ใช้โค้ด P…

2026年3月15日
233000
การฝึกโมเดลขนาดใหญ่

PyTorch torch.compile ประสิทธิภาพก้าวกระโดด: การปรับปรุงเคอร์เนล LayerNorm และ RMSNorm เพิ่มประสิทธิภาพ GPU ถึงระดับ SOTA

คำสำคัญ: torch.compile, ตัวดำเนินการปรับมาตรฐาน, LayerNorm, RMSNorm, การปรับปรุงประสิทธิภาพ GPU LayerNorm และ RMSNorm เป็นตัวดำเนินการปรับมาตรฐานพื้นฐานในโมเดลการเรียนรู้เชิงลึก ใช…

2026年4月9日
132000

PACE: วัดความก้าวหน้าในการเรียนรู้ด้วยการเปลี่ยนแปลงพารามิเตอร์ วิธีการ UED ใหม่ได้รับการตอบรับจาก ICML 2026

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

PyTorch torch.compile ประสิทธิภาพก้าวกระโดด: การปรับปรุงเคอร์เนล LayerNorm และ RMSNorm เพิ่มประสิทธิภาพ GPU ถึงระดับ SOTA