การเรียนรู้แบบเสริมกำลัง

LeRobot v0.5.0 เปิดตัวครั้งใหญ่: รองรับหุ่นยนต์คล้ายมนุษย์ Unitree G1 อย่างเต็มรูปแบบ พร้อมความก้าวหน้าทั้งด้านระบบนิเวศฮาร์ดแวร์และความสามารถของอัลกอริทึม

ตั้งแต่เวอร์ชัน v0.4.0 โครงการได้รวม PR มากกว่า 200 รายการ และมี ผู้ร่วมพัฒนามากกว่า 50 ท่าน เข้ามาใหม่ ด้วยเหตุนี้ LeRobot v0.5.0 จึงเป็นการเปิดตัวที่ใหญ่ที่สุดเท่าที่เคยมีมา โดยม…

2026年3月11日

188000

ข่าวสารอุตสาหกรรม AI

OpenAI สูญเสียผู้มีความสามารถครั้งใหญ่! รองประธานฝ่ายหลักลดตำแหน่งตัวเองย้ายไป Anthropic เพื่อกลับสู่การวิจัย RL แนวหน้า

OpenAI สูญเสียบุคลากรครั้งใหญ่! รองประธานฝ่ายวิจัยลาออกไปร่วมงาน Anthropic เพื่อกลับสู่การวิจัย RL แบบลงมือทำ แม็กซ์ ชวาร์เซอร์ อดีตรองประธานฝ่ายวิจัยของ OpenAI ประกาศลาออกและได้เข…

2026年3月5日

191000

โครงการโอเพนซอร์ส

AReaL v1.0 เปิดตัว: เชื่อมต่อการฝึก RL ด้วยคลิกเดียว, กรอบ Agent เช่น OpenClaw เข้าสู่ยุคใหม่ของ Reinforcement Learning

เปิดปี 2026 เอเจนต์ (Agent) ยังคงเป็นหนึ่งในสนามแข่งขันที่ได้รับความสนใจสูงสุดในแวดวง AI ทั่วโลก ความร้อนแรงของกระแสเอเจนต์ที่จุดประกายโดย OpenClaw (เดิมชื่อ Clawbot) ยังคงดำเนินต่…

2026年3月4日

207000

ข่าวสารอุตสาหกรรม AI

OmniXtreme: หุ่นยนต์ฮิวแมนนอยด์ทำลายขีดจำกัดการเคลื่อนไหว บรรลุการตีลังกาต่อเนื่องและการแสดงเบรกแดนซ์

ในงานฉลองเทศกาลฤดูใบไม้ผลิ การแสดงศิลปะการต่อสู้ “武 BOT” โดยหุ่นยนต์ Unitree นั้นน่าประทับใจมาก ในการแสดง หุ่นยนต์ฮิวแมนนอยด์ G1 และ H2 สามารถวิ่งเร็วพร้อมทั้งเปลี่ยนรู…

2026年3月3日

183000

วิศวกรรมโมเดลขนาดใหญ่

การผสาน LLM กับการเรียนรู้แบบเสริมกำลัง: เปิดศักราชใหม่ของระบบแนะนำอัจฉริยะ บทวิจารณ์เชิงระบบฉบับแรกเผยแพร่แล้ว

การเรียนรู้แบบเสริมกำลัง (RL) จัดระบบการแนะนำเป็นกระบวนการตัดสินใจแบบลำดับ ซึ่งสนับสนุนการเพิ่มประสิทธิภาพของผลประโยชน์ระยะยาวและตัวชี้วัดที่ไม่ต่อเนื่อง เป็นหนึ่งในกระบวนทัศน์การส…

2026年3月3日

183000

วิศวกรรมโมเดลขนาดใหญ่

ไบต์แดนซ์และมหาวิทยาลัยชิงหว่าร่วมกันสร้าง CUDA Agent: AI เขียนโค้ดไม่เพียงแต่ถูกต้อง แต่ยังเร็วกว่าผู้เชี่ยวชาญมนุษย์ถึง 40%

เมื่อเร็วๆ นี้ ทีม Seed ของ ByteDance และนักวิจัยจาก AIR แห่งมหาวิทยาลัย Tsinghua ได้ร่วมกันเผยแพร่งานวิจัยใหม่ชื่อ CUDA Agent ซึ่งได้รับความสนใจอย่างกว้างขวางในวงการสร้างโค้ด AI ง…

2026年3月3日

194000

การอนุมานโมเดลขนาดใหญ่

เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%

คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าว…

2026年3月1日

167000

การอนุมานโมเดลขนาดใหญ่

เป็นครั้งแรกที่พิสูจน์แล้วว่า RL สามารถทำให้โมเดล 3D เรียนรู้การให้เหตุผลได้ คุณภาพการสร้างภายใต้คำอธิบายข้อความที่ซับซ้อนเพิ่มขึ้นอย่างก้าวกระโดด!

การศึกษาเชิงระบบครั้งแรก: การเรียนรู้แบบเสริมกำลังช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลได้อย่างไร? ในด้านการสร้างภาพ การเรียนรู้แบบเสริมกำลัง (RL) ได้แสดงผลงานที่น่าประทับใจแล้ว แล้…

2026年2月27日

209000

การอนุมานโมเดลขนาดใหญ่

RL ช่วยให้เกิดความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัยเชิงระบบครั้งแรกด้วยการเรียนรู้แบบเสริมกำลัง ช่วยให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน และคุณภาพการสร้างเพิ่มขึ้นอย่างมาก

RL ปลดปล่อยความก้าวหน้าใหม่ในการสร้าง 3D: การวิจัย RL อย่างเป็นระบบครั้งแรกทำให้โมเดล 3D เรียนรู้การให้เหตุผลจากข้อความที่ซับซ้อน ในด้านการสร้างภาพ การเรียนรู้แบบเสริมแรง (RL) ได้ร…

2026年2月27日

158000

การฝึกโมเดลขนาดใหญ่

Reagent Framework: แนะนำกลไกรางวัล “คะแนนกระบวนการ” สำหรับ AI Agents เพื่อแก้ปัญหาการให้รางวัลแบบเบาบาง

ในกระบวนทัศน์การฝึกอบรมโมเดลขนาดใหญ่และเอเจนต์จำนวนมาก มีแนวทาง “เน้นผลลัพธ์สุดท้าย” ที่แพร่หลาย: ให้รางวัลเพียงตามความถูกต้องของคำตอบสุดท้ายเท่านั้น ถ้าถูกต้องก็ได้คะแ…

2026年2月20日

232000