การเรียนรู้แบบเสริมกำลัง
-
LeRobot v0.5.0 เปิดตัวครั้งใหญ่: รองรับหุ่นยนต์คล้ายมนุษย์ Unitree G1 อย่างเต็มรูปแบบ พร้อมความก้าวหน้าทั้งด้านระบบนิเวศฮาร์ดแวร์และความสามารถของอัลกอริทึม
ตั้งแต่เวอร์ชัน v0.4.0 โครงการได้รวม PR มากกว่า 200 รายการ และมี ผู้ร่วมพัฒนามากกว่า 50 ท่าน เข้ามาใหม่ ด้วยเหตุนี้ LeRobot v0.5.0 จึงเป็นการเปิดตัวที่ใหญ่ที่สุดเท่าที่เคยมีมา โดยม…
-
OpenAI สูญเสียผู้มีความสามารถครั้งใหญ่! รองประธานฝ่ายหลักลดตำแหน่งตัวเองย้ายไป Anthropic เพื่อกลับสู่การวิจัย RL แนวหน้า
OpenAI สูญเสียบุคลากรครั้งใหญ่! รองประธานฝ่ายวิจัยลาออกไปร่วมงาน Anthropic เพื่อกลับสู่การวิจัย RL แบบลงมือทำ แม็กซ์ ชวาร์เซอร์ อดีตรองประธานฝ่ายวิจัยของ OpenAI ประกาศลาออกและได้เข…
-
AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning
เปิดปี 2026 เอเจนต์ (Agent) ยังคงเป็นหนึ่งในสนามแข่งขันที่ได้รับความสนใจสูงสุดในแวดวง AI ทั่วโลก ความร้อนแรงของกระแสเอเจนต์ที่จุดประกายโดย OpenClaw (เดิมชื่อ Clawbot) ยังคงดำเนินต่…
-
OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์
ในงานฉลองเทศกาลฤดูใบไม้ผลิ การแสดงศิลปะการต่อสู้ “武 BOT” โดยหุ่นยนต์ Unitree นั้นน่าประทับใจมาก ในการแสดง หุ่นยนต์ฮิวแมนนอยด์ G1 และ H2 สามารถวิ่งเร็วพร้อมทั้งเปลี่ยนรู…
-
การผสาน LLM กับการเรียนรู้แบบเสริมกำลัง: เปิดศักราชใหม่ของระบบแนะนำอัจฉริยะ บทวิจารณ์เชิงระบบฉบับแรกเผยแพร่แล้ว
การเรียนรู้แบบเสริมกำลัง (RL) จัดระบบการแนะนำเป็นกระบวนการตัดสินใจแบบลำดับ ซึ่งสนับสนุนการเพิ่มประสิทธิภาพของผลประโยชน์ระยะยาวและตัวชี้วัดที่ไม่ต่อเนื่อง เป็นหนึ่งในกระบวนทัศน์การส…
-
ไบต์แดนซ์และมหาวิทยาลัยชิงหว่าร่วมกันสร้าง CUDA Agent: AI เขียนโค้ดไม่เพียงแต่ถูกต้อง แต่ยังเร็วกว่าผู้เชี่ยวชาญมนุษย์ถึง 40%
เมื่อเร็วๆ นี้ ทีม Seed ของ ByteDance และนักวิจัยจาก AIR แห่งมหาวิทยาลัย Tsinghua ได้ร่วมกันเผยแพร่งานวิจัยใหม่ชื่อ CUDA Agent ซึ่งได้รับความสนใจอย่างกว้างขวางในวงการสร้างโค้ด AI ง…
-
เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าว…
-
เป็นครั้งแรกที่พิสูจน์แล้วว่า RL สามารถทำให้โมเดล 3D เรียนรู้การให้เหตุผลได้ คุณภาพการสร้างภายใต้คำอธิบายข้อความที่ซับซ้อนเพิ่มขึ้นอย่างก้าวกระโดด!
การศึกษาเชิงระบบครั้งแรก: การเรียนรู้แบบเสริมกำลังช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลได้อย่างไร? ในด้านการสร้างภาพ การเรียนรู้แบบเสริมกำลัง (RL) ได้แสดงผลงานที่น่าประทับใจแล้ว แล้…
-
RL ช่วยให้เกิดความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัยเชิงระบบครั้งแรกด้วยการเรียนรู้แบบเสริมกำลัง ช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน และคุณภาพการสร้างเพิ่มขึ้นอย่างมาก
RL ปลดปล่อยความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัย RL อย่างเป็นระบบครั้งแรกทำให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน ในด้านการสร้างภาพ การเรียนรู้แบบเสริมแรง (RL) ได้ร…
-
Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง
ในกระบวนทัศน์การฝึกอบรมโมเดลขนาดใหญ่และเอเจนต์จำนวนมาก มีแนวทาง “เน้นผลลัพธ์สุดท้าย” ที่แพร่หลาย: ให้รางวัลเพียงตามความถูกต้องของคำตอบสุดท้ายเท่านั้น ถ้าถูกต้องก็ได้คะแ…