VLA ไม้เท้าถูกทิ้งแล้ว แบบจำลองโลกจะสนับสนุนการนำปัญญาประดิษฐ์แบบมีตัวตนไปใช้จริงได้อย่างไร?

2 hours ago • ข่าวสารอุตสาหกรรม AI • 12 views

ยุนจง ส่งมาจาก 凹非寺

Quantum Bit | บัญชี WeChat QbitAI

VLA กับ World Model: การเปลี่ยนกระบวนทัศน์ที่ถูกผลักดันโดยอุตสาหกรรม

เดือนเมษายนปีนี้ มีเหตุการณ์หนึ่งในสาขา Embodied AI ที่ดูเหมือนไม่ใหญ่โตแต่มีความหมายลึกซึ้ง

บริษัทดาวเด่นที่ก่อตั้งโดยผู้มีส่วนร่วมหลักของโมเดลอย่าง PaLM-E และ RT-2 ได้เปิดตัวโมเดลรุ่นใหม่ GEN-1 และประสบความสำเร็จในการยกระดับข้ามขั้นในสามมิติหลัก: อัตราความสำเร็จของงานเกิน 99% ความเร็วในการทำงานเพิ่มขึ้น 2-3 เท่า ปริมาณข้อมูลที่ต้องการและต้นทุน fine-tuning เพียง 1/10 ของรุ่นก่อนหน้า

เกือบในสัปดาห์เดียวกัน CEO ของบริษัท Pete Florence ได้เผยแพร่บล็อกโพสต์หนึ่ง โดยระบุชัดเจนว่า: พวกเขาไม่จัดประเภทโมเดลของตนเป็น VLA (Vision-Language-Action Model) อีกต่อไป

คำแถลงนี้มีความสำคัญเพราะ Florence เองเป็นหนึ่งในผู้ร่วมบุกเบิกแนวคิด VLA

ในบทความเขาให้เหตุผลตรงไปตรงมาว่า:

“World Model” กำลังเข้าสู่ช่วงเวลาสำคัญของมัน; ส่วนในช่วงปี 2023 ถึง 2025 ที่ได้รับความนิยมคือ VLA

การไล่ตามกระแสและเทรนด์เป็นเรื่องปกติในการวิจัยทางวิชาการ แต่หากเป้าหมายคือการบรรลุ Artificial General Intelligence (AGI) ในโลกกายภาพ เป้าหมายสุดท้ายสำคัญกว่าป้าย “เครื่องมือ” ในมือมากกว่า

ที่สำคัญกว่านั้น เขาชี้ให้เห็นถึงความจริงที่อุตสาหกรรมหลีกเลี่ยงมานาน: การนำการฝึก “Vision-Language” เข้าสู่สาขาหุ่นยนต์ ส่วนใหญ่เป็นเพราะ ข้อมูลการโต้ตอบทางกายภาพของหุ่นยนต์เองยังไม่เพียงพอ ดังนั้น VLA จึงคล้ายกับ “ไม้เท้า” ในช่วงเปลี่ยนผ่านมากกว่า

เมื่อขนาดและคุณภาพของข้อมูลการโต้ตอบทางกายภาพถึงจุดวิกฤต ไม้เท้านี้ก็ควรถูกนำออกไป แทนที่จะสร้างโครงสร้างระบบทั้งหมดรอบๆ มันต่อไป

เราจำเป็นต้องกลับไปสู่คำถามพื้นฐานมากขึ้นเพื่อคิดอย่างเป็นระบบ:

หลังจากก้าวข้าม VLA แล้ว รูปแบบของ Embodied Model รุ่นต่อไปควรเป็นอย่างไร จึงจะสามารถสนับสนุนการทำงานของหุ่นยนต์ในโลกแห่งความเป็นจริงได้อย่างต่อเนื่อง มีเสถียรภาพ และขยายขอบเขตได้อย่างแท้จริง?

นี่คือจุดแบ่งที่สำคัญ และเรียกร้องให้ผู้ปฏิบัติงานทั้งหมดทบทวนเส้นทางเทคโนโลยีด้วยวิธีคิดแบบ “กลับสู่พื้นฐาน”

ปัจจุบัน VLA และ World Model เป็นสองเส้นทางเทคโนโลยีหลักในสาขา Embodied AI

อย่างไรก็ตาม งานวิจัยหลายชิ้นที่ใช้ชื่อ “World Model” จริงๆ แล้วอยู่ในกระบวนทัศน์การสร้างวิดีโอ — พวกมันทำนายเฟรมในอนาคตในพื้นที่แฝงพิกเซล RGB หรือระดับต่ำ โดยพื้นฐานแล้วตอบคำถามว่า “เฟรมถัดไปสอดคล้องกับตรรกะภาพของวิดีโอจริงหรือไม่” ไม่ใช่ “โลกเข้าสู่สถานะใดที่มีความหมายต่อการกระทำของเอเจนต์”

โมเดลประเภทนี้อาจมีตัวชี้วัดที่โดดเด่นในชุดประเมินการสร้างวิดีโอ แต่เมื่อเชื่อมต่อกับงานหุ่นยนต์จริง จะเผยให้เห็นข้อจำกัดเชิงระบบสี่ประเภททันที:

ข้อจำกัดด้านการแสดง (Representation Bottleneck): การสร้างแบบจำลองในพื้นที่พิกเซล บังคับให้โมเดลใช้ความจุจำนวนมากไปกับรายละเอียดภาพที่เกี่ยวข้องกับงานน้อย เช่น พื้นผิว แสง พื้นหลัง
ข้อจำกัดด้านความจำ (Memory Bottleneck): การรวมกันของ Causal Autoregression และ KV Cache ทำให้ความซับซ้อนเชิงพื้นที่เพิ่มขึ้นตามความยาวของ trajectory งานระยะยาวมีภาระหนัก และติดตั้งอย่างมั่นคงได้ยาก
ข้อจำกัดด้านการอนุมาน (Reasoning Bottleneck): กระบวนการแบบอนุกรมที่เข้มงวดของการรับรู้ → อนุมาน → การดำเนินการ ทำให้เกิดความล่าช้าสูงที่ฝั่งการติดตั้ง ความถี่ของการควบคุมแบบปิดวง (closed-loop control) ยากที่จะเพิ่มขึ้น ส่งผลให้การเคลื่อนไหวของหุ่นยนต์ล่าช้า “เดินๆ หยุดๆ”
ข้อจำกัดด้านข้อมูล (Data Bottleneck): โมเดลพึ่งพาชุดข้อมูลออฟไลน์คงที่สำหรับการฝึก ขาดการไหลของข้อมูลออนไลน์ที่ต่อเนื่อง สดใหม่ และน่าเชื่อถือทางกายภาพ ทำให้ยากต่อการทำซ้ำและการวิวัฒนาการอย่างรวดเร็ว

หากข้อจำกัดทั้งสี่ประเภทนี้ไม่ได้รับการแก้ไขร่วมกัน การนำ “World Model” ไปใช้ในสาขาหุ่นยนต์จะประสบความยากลำบาก

การทบทวนมาตรฐานการประเมิน: หลายรายการ World Model Leaderboard ขาดความเชื่อมโยงกับงานหุ่นยนต์

หลังจากการเปลี่ยนกระบวนทัศน์ ปัญหาที่ซ่อนเร้นแต่สำคัญไม่แพ้กันคือ:

World Model ควรได้รับการประเมินอย่างไร?

สิ่งที่ถูกอ้างอิงอย่างกว้างขวางในปัจจุบัน ส่วนใหญ่เป็นรายการประเมินสำหรับโมเดลสร้างวิดีโอ — ตรวจสอบหลักๆ เกี่ยวกับคุณภาพภาพของเฟรมในอนาคต คะแนน FVD ความสม่ำเสมอของเวลา (temporal consistency) ระดับการจัดแนวข้อความ-วิดีโอ เป็นต้น

ตัวชี้วัดเหล่านี้สมเหตุสมผลสำหรับ “Generative Video Model” แต่ในบริบทของ Embodied AI วัตถุประเมินเริ่มเบี่ยงเบนจากเป้าหมายสุดท้าย

ข้อสรุปนี้ได้รับการสนับสนุนจากการวิจัยเชิงประจักษ์ ในเดือนกุมภาพันธ์ 2026 เกณฑ์มาตรฐาน WorldArena ที่เผยแพร่โดยสถาบันต่างๆ รวมถึงมหาวิทยาลัยชิงหวา ได้วัดความสัมพันธ์ระหว่างคุณภาพภาพและความสามารถในงาน Embodied อย่างเป็นระบบบน World Model ตัวแทน 14 รุ่น ข้อสรุปค่อนข้างตรงไปตรงมา:

คุณภาพภาพสูงไม่จำเป็นต้องแปลงเป็นความสามารถในงาน Embodied ที่แข็งแกร่ง

สิ่งที่สนับสนุนข้อสรุปนี้คือชุดข้อมูลที่หนักแน่น ตัวชี้วัดคุณภาพภาพแบบบูรณาการ EWMScore ที่สร้างขึ้นในบทความ มีสัมประสิทธิ์สหสัมพันธ์กับ การให้คะแนนอัตนัยของมนุษย์ สูงถึง Pearson r = 0.825 แต่สัมประสิทธิ์สหสัมพันธ์กับ อัตราความสำเร็จของงานในฐานะตัววางแผนการกระทำ (action planner) มีเพียง r = 0.360 — อยู่ในช่วงสหสัมพันธ์อ่อนแบบทั่วไป

ที่น่าสนใจยิ่งกว่านั้น การศึกษานี้ยังสังเกตเห็นว่าโมเดล Veo 3.1 ที่ได้คะแนนด้านภาพและสุนทรียภาพสูงสุด กลับมี “การปรับปรุงที่จำกัด” ในตัวชี้วัดงาน Embodied และมาพร้อมกับปรากฏการณ์การเลื่อนไหลของความหมาย (semantic drift) ที่ชัดเจน

โมเดลที่วาดภาพสมจริงที่สุด กลับเข้าใจการโต้ตอบทางกายภาพน้อยที่สุด

สาระสำคัญเบื้องหลังนี้คือการเบี่ยงเบนของเป้าหมายการประเมิน:

Generative World Model ถามว่า: “ภาพในอนาคตดูเหมือนวิดีโอที่สมเหตุสมผลหรือไม่?”
Embodied World Model ควรถามมากกว่า: “สถานะในอนาคตที่ทำนายนี้ หุ่นยนต์สามารถดำเนินการสำเร็จและบรรลุภารกิจในที่สุดได้หรือไม่?”

ช่องว่างระหว่างทั้งสองใหญ่กว่าที่เห็นจากภายนอกมาก

โมเดลหนึ่งสามารถสร้างวิดีโออนาคตที่สมจริงอย่างยิ่ง แต่ล้มเหลวบนหุ่นยนต์จริงเนื่องจากเรขาคณิตไม่แม่นยำ พลวัตไม่มั่นคง หรือการเลื่อนไหลของเวลา ในทางกลับกัน โมเดลที่ไม่ได้น่าตื่นตาตื่นใจด้านภาพ อาจได้อัตราความสำเร็จของงานที่สูงกว่าในหุ่นยนต์จริง

ดังนั้น ข้อสรุปที่ชัดเจนคือ:

ตัวชี้วัดการประเมินที่สมเหตุสมผลเพียงอย่างเดียวสำหรับ Embodied World Model ควรเป็นอัตราความสำเร็จของงานหุ่นยนต์ปลายทาง

ในแง่นี้ เกณฑ์มาตรฐานเช่น RoboTwin ที่ใช้ อัตราความสำเร็จของงานหุ่นยนต์เป็นมิติหลักในการประเมิน จึงเป็นเวทีที่ Embodied World Model ควรได้รับการทดสอบอย่างแท้จริง

มันไม่ได้ตรวจสอบว่า “สร้างออกมาสวยหรือไม่” แต่ตรวจสอบว่า “สามารถ ทำให้หุ่นยนต์ทำงานได้อย่างมั่นคงและเชื่อถือได้ในชุดงานที่หลากหลาย หรือไม่”

DexWorldModel ที่จะแนะนำต่อไปนี้ ตัวเลือกการออกแบบและวิธีการประเมินทั้งหมด ล้วนดำเนินการโดยมีเป้าหมายหลักนี้เป็นศูนย์กลาง

สแต็กเทคโนโลยีของ DexWorldModel: สี่ชั้นทำงานร่วมกัน ผลักดัน World Model สู่การปิดวงจรบนหุ่นยนต์จริง

VLA ไม้เท้าถูกทิ้งแล้ว แบบจำลองโลกจะสนับสนุนการนำปัญญาประดิษฐ์แบบมีตัวตนไปใช้จริงได้อย่างไร?

งานของ DexWorldModel ในระดับระบบ สามารถลดทอนเป็นบัสประสานงานเดียว:

Causal Latent Space World Model + Dual-State Test-Time Memory + Speculative Asynchronous Inference + Embodied Data Chain and Online Data Stream

(ลิงก์เอกสารทางเทคนิคถูกลบแล้ว)

องค์ประกอบหลักทั้งสี่นี้ไม่ใช่โมดูลที่แยกจากกัน แต่เป็นการอัปเกรดเชิงระบบที่ทำงานร่วมกัน โดยมีเป้าหมายหลักคือ “การติดตั้งแบบปิดวงจรบนหุ่นยนต์จริง” เพื่อแก้ไขข้อจำกัดสี่ประเภทที่กล่าวถึงก่อนหน้า: การแสดง, ความจำ, การอนุมาน, ข้อมูล

01 ชั้นการแสดง: เหตุใด “Pixel Reconstruction” อาจกลายเป็นอุปสรรคแฝงต่อการสรุปความของ World Model

World Model หลายตัวเลือกทำนายอนาคตในพื้นที่พิกเซลหรือพื้นที่แฝงภาพระดับต่ำโดยตรง

เส้นทางนี้ใช้ได้ในการวิจัยทางวิชาการ แต่ในงานหุ่นยนต์จริง ความจุของโมเดลจะถูกครอบครองโดยรายละเอียดภาพที่ไม่เกี่ยวข้องกับงานจำนวนมาก เช่น พื้นผิว แสง และพื้นหลัง

สำหรับหุ่นยนต์ สิ่งสำคัญไม่ใช่ภาพเฟรมถัดไปสมจริงหรือไม่ แต่คือ โลกเข้าสู่สถานะที่สามารถดำเนินการ โต้ตอบ และดำเนินการกระทำต่อไปได้หรือไม่

Causal Latent Space World Model ที่ DexWorldModel ใช้ เปลี่ยนเป้าหมายการสร้างจากพิกเซลไปเป็นคุณลักษณะความหมายระดับสูง

ภายใต้กรอบ Flow Matching สองขั้นตอน มันแยก “การทำนายสถานะความหมายแฝงในอนาคต” และ “การสร้างการกระทำที่สอดคล้องกัน” ออกจากกันอย่างชัดเจน:

ขั้นตอนที่หนึ่ง: ทำนายสถานะความหมายแฝงในอนาคต
ขั้นตอนที่สอง: สร้างลำดับการกระทำตามสถานะที่ทำนาย

สาขาการทำนายวิดีโอและสาขาการสร้างการกระทำ แชร์โครงข่ายหลัก Transformer แบบ Mixture of Experts เดียวกัน มีเพียงการกำหนดพารามิเตอร์แยกกันในชั้นฉายภาพอินพุต/เอาต์พุตและการฝังขั้นตอนเวลา (time step embedding) ของ Flow Matching เท่านั้น สิ่งนี้ทำให้ “การอนุมานสถานะโลก” และ “การสร้างการกระทำ” สามารถจัดแนวกันได้ภายในแบบจำลองพลวัตเวลาเดียวกัน

ขั้นตอนนี้เปลี่ยนคำถามที่ World Model ตอบโดยพื้นฐาน: ไม่ใช่ “เฟรมถัดไปสวยไหม” อีกต่อไป แต่เป็น “โลกเข้าสู่สถานะที่มีความหมายต่อการกระทำขั้นต่อไปหรือไม่”

นี่ยังทำให้โมเดลเอาชนะการรบกวนจากพื้นหลัง วัสดุ และสัญญาณรบกวนภาพได้ง่ายขึ้น เป็นรากฐานสำหรับการสรุปความที่แข็งแกร่งและการย้ายจากสถานการณ์จำลองสู่ความเป็นจริงในภายหลัง

02 ชั้นความจำ: ปลดปล่อยงานระยะยาวจากภาระแคชประวัติที่ขยายตัวไม่หยุด

World Model แบบ Autoregressive แบบดั้งเดิมพึ่งพา KV Cache เพื่อบันทึก trajectory ในอดีต ความซับซ้อนเชิงพื้นที่คือ O(T) เมื่อ trajectory งานยาวขึ้น การใช้หน่วยความจำจะเพิ่มขึ้นแบบเส้นตรง กลายเป็นข้อจำกัดของระบบ

ปัญหานี้ไม่เด่นชัดในการประเมินรอบสั้น แต่เมื่อเผชิญกับงานปฏิบัติการจริงที่ต่อเนื่อง หลายขั้นตอน และยาวนาน มันจะจำกัดความสามารถในการติดตั้งโมเดลอย่างรวดเร็ว

DexWorldModel ใช้โมดูลความจำ Test-Time Fine-Tuning Memory เพื่อบีบอัดและเข้ารหัสการสังเกตในอดีตและการกระทำที่ดำเนินการแล้วลงในน้ำหนักของเครือข่ายความจำ และออกแบบกลไก Dual-State เพิ่มเติม:

ความจำระยะยาว (Long-Term Memory): อัปเดตโดยใช้เฉพาะการสังเกตจริงและการกระทำที่ดำเนินการแล้ว เพื่อยึดโยงประวัติเชิงสาเหตุที่แท้จริง
ความจำขณะทำงาน (Working Memory): ได้มาจากความจำระยะยาว ใช้เป็นบริบทชั่วคราวในขั้นตอนการทำนายปัจจุบัน
ในกระบวนการลดสัญญาณรบกวนของ Flow Matching, Working Memory จะถูกแช่แข็ง (freeze) ไว้ และจะถูกอัปเดตเฉพาะหลังจากกระบวนการลดสัญญาณรบกวนเสร็จสิ้นเท่านั้น

คุณค่าหลักของกลไกนี้ไม่ใช่แค่ “การแทนที่การใช้งานแคช” อย่างง่าย แต่อยู่ที่ การแยกระหว่างประวัติจริงและประวัติที่คาดการณ์ (speculative history) อย่างเข้มงวด — สิ่งนี้ป้องกันไม่ให้อนาคตที่คาดการณ์ปนเปื้อนห่วงโซ่สาเหตุจริงในทางกลับกัน ขณะเดียวกันก็บีบอัดการใช้หน่วยความจำสำหรับลำดับเวลาที่ยาวให้อยู่ในระดับคงที่ O(1)

ความหมายต่อการติดตั้งชัดเจนมาก: ระบบจะไม่ต้องแบกรับภาระเพิ่มขึ้นจากการสะสมประวัติระหว่างการทำงานอย่างต่อเนื่องอีกต่อไป ดังนั้นงานระยะยาวจึงมีความเป็นไปได้ในการติดตั้งที่มั่นคงอย่างแท้จริง

03 ชั้นการอนุมาน: SAI นำการลดสัญญาณรบกวนล่วงหน้า (Pre-Denoising) มาใช้ ซ่อนเวลาการอนุมานครึ่งหนึ่งไว้ในการดำเนินการกระทำ

แม้ความสามารถของโมเดลจะเพิ่มขึ้นเอง แต่ตราบใดที่กระบวนการ “การรับรู้ → การอนุมาน → การดำเนินการ” ยังคงเป็นแบบอนุกรม ความถี่ของการปิดวงจรบนหุ่นยนต์จริงจะถูกจำกัดด้วยความล่าช้าแบบบล็อก (blocking delay) เสมอ

สิ่งที่มีค่าจริงๆ ของ World Model คือความสามารถในการทำนายอนาคต แต่หากการมองไปข้างหน้านี้ยังคงอยู่แค่ “โมเดลคิดถึงอนาคตภายใน” แต่ไม่สามารถเปลี่ยนจังหวะการทำงานของระบบหุ่นยนต์ได้ มันก็ยังห่างจากคุณค่าการติดตั้งจริงอีกก้าวหนึ่ง

SAI (Speculative Asynchronous Inference) เปลี่ยนความสามารถในการมองไปข้างหน้าของโมเดลให้เป็นผลประโยชน์ด้านเวลาของระบบ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/31194

Like (0)

0 0

Yushi Technology ผ่านการพิจารณาของตลาดหลักทรัพย์ฮ่องกง: ซัพพลายเออร์ระบบขับขี่อัตโนมัติระดับ L4 แห่งเดียวในสนามบินทั่วโลก ใช้ AI ขับเคลื่อนประสิทธิภาพเพิ่มขึ้นร้อยเท่าอย่างไร?

Previous 2 hours ago

โปรเจกต์ GitHub ยอดฮิต Nuwa.skill: ให้สตีฟ จ็อบส์ และอีลอน มัสก์ ทำงานให้คุณ! คว้าดาว 9k ดวงภายในหนึ่งสัปดาห์ กลั่นกรอบความคิดของบุคคลดัง

Next 2 hours ago

ข่าวสารอุตสาหกรรม AI

หุ้นแรกของโลกด้านความฉลาดเชิงพื้นที่พุ่ง 171% หลังเข้าตลาด! Qunhe Technology กลายเป็นผู้นำในยุคหลังของ AI รับการลงทุนจาก Li Feifei, NVIDIA, Tencent และ Alibaba

หุ้นแรกของความฉลาดเชิงพื้นที่พุ่ง 171% หลังเข้าตลาดหลักทรัพย์ Qunhe Technology กลายเป็นผู้นำในยุคหลังของ AI “หุ้นแรกของความฉลาดเชิงพื้นที่” ได้เข้าสู่ตลาดทุนอย่างเป็นทางการแล้ว วัน…

4 days ago
48000
ข่าวสารอุตสาหกรรม AI

Hugging Face เปิดตัวหุ่นยนต์ตั้งโต๊ะ Reachy Mini มียอดขายทะลุ 1 ล้านดอลลาร์ บริษัทจีน Seeed Studio เป็นกุญแจสำคัญเบื้องหลัง

รายงานจาก Quantum Bits ปีที่แล้ว Hugging Face ได้เปิดตัวหุ่นยนต์ตั้งโต๊ะชื่อ Reachy Mini หุ่นยนต์ที่สูง 28 ซม. และหนัก 1.5 กก. นี้ ประสบความสำเร็จอย่างโดดเด่นในช่วงกว่าครึ่งปีที่ผ่…

2026年3月30日
127000
ข่าวสารอุตสาหกรรม AI

ด่วนยามดึก! หลิน จวิ้นหยาง ผู้รับผิดชอบ Tongyi Qianwen ประกาศลาออก เจ้าหน้าที่บริหารเทคโนโลยีระดับ P10 ที่อายุน้อยที่สุดของอาลีบาบา ปลายทางยังเป็นปริศนา

ด่วนยามดึก! หัวหน้าทีม Tongyi Qianwen หลิน จวิ้นหยาง ประกาศลาออก เจ้าหน้าที่ฝ่ายเทคนิคระดับ P10 ที่อายุน้อยที่สุดของอาลีบาบา ยังไม่ทราบทิศทางต่อไป กะทันหันเกินไป! ยามดึก หัวหน้าทีม…

2026年3月4日
196000
ข่าวสารอุตสาหกรรม AI

Google Maps อัปเกรดครั้งใหญ่! เปิดตัวฟีเจอร์ “Ask Maps” และ “นำทางแบบ Immersive View” ขับเคลื่อนโดย Gemini เตรียมท้าทายแอปวางแผนท่องเที่ยว

Google Maps อัปเกรดครั้งใหญ่: “Ask Maps” และ “การนำทางแบบสมจริง” ขับเคลื่อนโดย Gemini Google กำลังผสานพลังของโมเดล Gemini เข้ากับผลิตภัณฑ์ต่าง ๆ อย่างต่อเนื…

2026年3月14日
205000
ข่าวสารอุตสาหกรรม AI

Pika AI Selves: จากวิดีโอสู่ดิจิทัลทวิน กับการปฏิวัติ “การเลี้ยงดู” เอเจนต์ AI

ในขณะที่บริษัท AI ส่วนใหญ่มุ่งเน้นการสร้างเครื่องมือเพิ่มเติม บริษัทที่โด่งดังจาก AI วิดีโอได้เริ่มต้นสร้าง “ตัวคุณคนที่สอง” แล้ว เมื่อเร็วๆ นี้ Pika ได้เปิดตัวผลิตภัณฑ…

2026年2月21日
238000

VLA ไม้เท้าถูกทิ้งแล้ว แบบจำลองโลกจะสนับสนุนการนำปัญญาประดิษฐ์แบบมีตัวตนไปใช้จริงได้อย่างไร?

ยุนจง ส่งมาจาก 凹非寺

VLA กับ World Model: การเปลี่ยนกระบวนทัศน์ที่ถูกผลักดันโดยอุตสาหกรรม

การทบทวนมาตรฐานการประเมิน: หลายรายการ World Model Leaderboard ขาดความเชื่อมโยงกับงานหุ่นยนต์

สแต็กเทคโนโลยีของ DexWorldModel: สี่ชั้นทำงานร่วมกัน ผลักดัน World Model สู่การปิดวงจรบนหุ่นยนต์จริง

01 ชั้นการแสดง: เหตุใด “Pixel Reconstruction” อาจกลายเป็นอุปสรรคแฝงต่อการสรุปความของ World Model

02 ชั้นความจำ: ปลดปล่อยงานระยะยาวจากภาระแคชประวัติที่ขยายตัวไม่หยุด

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

Hugging Face เปิดตัวหุ่นยนต์ตั้งโต๊ะ Reachy Mini มียอดขายทะลุ 1 ล้านดอลลาร์ บริษัทจีน Seeed Studio เป็นกุญแจสำคัญเบื้องหลัง

Pika AI Selves: จากวิดีโอสู่ดิจิทัลทวิน กับการปฏิวัติ “การเลี้ยงดู” เอเจนต์ AI