การเรียนรู้แบบเสริมกำลัง
-
Cursor กับ Kimi กลับมาเป็นประเด็นอีกครั้ง: รายงานเทคนิค Composer 2 ยืนยัน “การปรับใช้อย่างมีเทคนิค” แต่ชาวเน็ตไม่ยอมรับ
ข้อโต้แย้งเรื่อง Cursor ใช้ Kimi เป็นฐานยังคงดำเนินต่อไป เมื่อเร็วๆ นี้ Cursor ได้เผยแพร่รายงานทางเทคนิคของ Composer 2 พยายามพิสูจน์ว่าตนไม่ได้เพียงแค่ใช้เป็นฐานแบบง่ายๆ แต่ได้ดำเน…
-
ทีม Seed ของไบต์แดนซ์ทำลายกำแพงการควบคุมหุ่นยนต์อย่างคล่องแคล่ว: การปรับใช้จากศูนย์ตัวอย่างในโลกเสมือนสู่ความเป็นจริง ทำให้หุ่นยนต์มี ‘สัมผัส’ และ ‘ความรู้สึกถึงแรง’
การบรรลุความสามารถในการควบคุมการเคลื่อนไหวที่คล่องแคล่วในระดับมนุษย์เป็นหนึ่งในความท้าทายหลักในสาขาหุ่นยนต์ แม้ว่ามือกลหลายนิ้วจะมีศักยภาพทางฮาร์ดแวร์แล้ว แต่เนื่องด้วยความซับซ้อนข…
-
SWE-MiniSandbox: ฝึกฝนผู้ช่วย AI ด้านการเขียนโปรแกรมของคุณด้วยต้นทุนต่ำโดยไม่ต้องใช้คอนเทนเนอร์! ทีมมหาวิทยาลัยปักกิ่งเปิดตัวเฟรมเวิร์กฝึกฝน SWE Agent แบบเบา
งานนี้ดำเนินการโดยทีมของอาจารย์ Zhao Dongyan และ Zhang Huishuai จากสถาบันคอมพิวเตอร์ Wang Xuan มหาวิทยาลัยปักกิ่ง ผู้เขียนหลักคือ Yuan Danlong นักศึกษาปริญญาโทจากสถาบันวิทยาศาสตร์แ…
-
ความก้าวหน้าครั้งใหญ่ในการเคลื่อนไหวที่ละเอียดอ่อนของหุ่นยนต์! Physical Intelligence ใช้เทคโนโลยี RL token เรียนรู้การเสียบสายเน็ตเวิร์กและขันสกรูภายในเวลาเพียงไม่กี่สิบนาที
มีคนบอกว่า หุ่นยนต์เรียนรู้ช้า ทำท่าทางละเอียดไม่ได้ ส่งผลต่อความเร็วในการเข้าโรงงานขันน็อต ต่อไปปัญหานี้อาจจะไม่ใช่เรื่องอีกแล้ว Physical Intelligence ในสาขา Embodied Intelligence…
-
Cursor โมเดลใหม่ Composer 2: ประสิทธิภาพเหนือกว่า Claude Opus 4.6 แต่ราคาถูกลงอย่างมาก หลังใช้เทคโนโลยีการเรียนรู้เสริมแรงแบบ “จดบันทึก”
Cursor ได้เปิดตัวโมเดลการเขียนโปรแกรมรุ่นใหม่ Composer 2 ซึ่งแสดงผลลัพธ์เหนือกว่า Claude Opus 4.6 ในการทดสอบมาตรฐานหลายรายการ ในขณะที่ราคาถูกลงอย่างมีนัยสำคัญ แกนหลักเบื้องหลังคือว…
-
DeepGen 1.0: เปิดตัวโมเดลสร้างและแก้ไขหลายรูปแบบแบบรวมศูนย์ 5B พารามิเตอร์, 4060ti สร้างภาพใน 10 วินาที, หลายดัชนีวัดแซงโมเดลอุตสาหกรรมขนาดใหญ่กว่า 4 เท่า
DeepGen 1.0: โมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์ที่เป็นโอเพนซอร์ส ในช่วงไม่กี่ปีที่ผ่านมา โมเดลสร้างและแก้ไขแบบหลายรูปแบบแบบรวมศูนย์กำลังพัฒนาไปในทิศทางที่มีพารามิเตอร์จำนวน…
-
RISE 突破คอขวด VLA: โมเดลโลกแบบผสมผสานช่วยให้หุ่นยนต์เรียนรู้แบบเสริมกำลังในพื้นที่จินตนาการ อัตราความสำเร็จของภารกิจเพิ่มขึ้นกว่า 45%
ในการพัฒนาปัญญาที่มีตัวตน (Embodied AI) โมเดลวิสัยทัศน์-ภาษา-การกระทำ (Vision-Language-Action: VLA) ได้กลายเป็นกรอบหลักสำหรับงานการจัดการทั่วไป อย่างไรก็ตาม เมื่อเผชิญกับสถานการณ์ท…
-
อำลา AI โกงและขี้เกียจ: การเรียนรู้แบบเสริมกำลังจะกลายเป็นผู้เชี่ยวชาญการปรับแต่งเคอร์เนล GPU ที่แท้จริงได้อย่างไร
คำสำคัญ: การเรียนรู้แบบเสริมกำลัง, การสร้างเคอร์เนล Triton, การแฮกรางวัล, การปรับปรุงแบบขี้เกียจ, การปรับปรุงหลายรอบ บอกลาการ “โกง” และ “ขี้เกียจ” ทำให้การเ…
-
OpenClaw-RL: กรอบงานโอเพนซอร์สที่ทำให้ AI ฉลาดขึ้นเรื่อยๆ ทีมดุษฎีบัณฑิตจากมหาวิทยาลัยปักกิ่งไขปริศนาการฝึกฝนเอเจนต์ AI
ตลอดสัปดาห์ที่ผ่านมา เอไอเอเจนต์รูปการ์ตูนกุ้งมังกรสีแดงชื่อ OpenClaw ได้รับความสนใจอย่างกว้างขวาง ประสบการณ์การใช้เอไอเอเจนต์ที่สามารถทำงานเฉพาะเจาะจงนี้ค่อนข้างน่าตื่นเต้น: ตั้งแ…
-
การวิจัยร่วมของมหาวิทยาลัยชิงหวา ปักกิ่ง และเทนเซนต์: กรอบ GTR แก้ปัญหาการ ‘ล่มสลายของความคิด’ ในการฝึกตัวแทน VLM
ผู้เขียนคนแรกของบทความวิจัยคือ Wei Tong นักศึกษาปริญญาเอกที่กำลังศึกษาอยู่ที่มหาวิทยาลัย Tsinghua โดยมีทิศทางการวิจัยเกี่ยวกับเอเจนต์โมเดลขนาดใหญ่และการเรียนรู้แบบเสริมกำลัง (Reinf…