ในช่วงเวลาที่ผ่านมา บริษัทหลายแห่งในแวดวง embodied intelligence ต่างรู้สึกถึงความเร่งด่วน
ที่ฝั่งตรงข้ามของมหาสมุทร Generalist AI ได้เปิดเผยความก้าวหน้าที่สร้างความสนใจในอุตสาหกรรม: โมเดล GEN-1 ของพวกเขาซึ่งฝึกฝนด้วยข้อมูลพฤติกรรมมนุษย์ในโลกจริงประมาณ 500,000 ชั่วโมง มีอัตราความสำเร็จในหลายงานเกิน 99% Pete Florence ผู้ก่อตั้งและอดีตนักวิจัยอาวุโสของ DeepMind กล่าวในภายหลังว่า “เมื่อขนาดข้อมูลใหญ่เพียงพอ และทีมสามารถควบคุมโมเดลพื้นฐานได้อย่างสมบูรณ์ ขอบเขตทางเทคโนโลยีจะถูกผลักดันด้วยความเร็วที่เร็วขึ้น” สิ่งนี้ถูกมองว่าเป็นการยืนยันเพิ่มเติมต่อการตัดสินใจเกี่ยวกับกฎมาตราส่วน (scaling law) ของ embodied intelligence ที่เขาเคยกล่าวไว้ก่อนหน้านี้

อย่างไรก็ตาม บริษัทส่วนใหญ่ยังคงอยู่บนเส้นทางการไล่ตามขนาด โดยทั่วไปในอุตสาหกรรมเชื่อว่า เมื่อขนาดและคุณภาพของข้อมูลข้ามผ่านเกณฑ์หนึ่ง กฎการปรับปรุงประสิทธิภาพโมเดลตามการขยายขนาดมีแนวโน้มที่จะคงที่
แต่ในวันนี้ที่ปริมาณข้อมูลเพิ่มขึ้นอย่างรวดเร็ว บริษัทหลายแห่งติดอยู่กับปัญหาคุณภาพข้อมูล ดังที่ผู้เชี่ยวชาญในอุตสาหกรรมกล่าว ปัจจุบันบริษัทหลายแห่งไม่เห็นผลของกฎมาตราส่วนที่ชัดเจน เนื่องจากคุณภาพข้อมูลไม่ดีและมีสัญญาณรบกวนมากเกินไป “ก่อนหน้านี้ 80% ของงานอยู่ที่อัลกอริทึมโมเดล ตอนนี้ 80% ของงานอยู่ที่ข้อมูล”
การประเมินนี้ไม่ใช่การพูดเกินจริง disembodied intelligence สามารถพึ่งพาข้อมูลภาษาที่มนุษย์ “คอมไพล์” โดยไม่รู้ตัวบนอินเทอร์เน็ตเพื่อการฝึกฝนอย่างรวดเร็ว แต่ข้อมูลจากโลกกายภาพไม่เคยถูกคอมไพล์อย่างเป็นระบบมาก่อน กฎเกณฑ์ที่แฝงอยู่ในประสบการณ์การทำงานถูกฝังลึกอยู่ในสัญญาณรบกวนและไม่ได้รับการจัดระเบียบ เครื่องจักรไม่สามารถเรียนรู้ความสามารถจากโลกได้โดยอัตโนมัติ และประสบการณ์ของมนุษย์ก็ไม่ไหลเข้าสู่เครื่องจักรตามธรรมชาติ ระหว่างทางต้องผ่านกระบวนการเก็บรวบรวม แปลความหมาย และจัดระเบียบด้วยมือที่ยุ่งยาก จากนั้นจึงพูดถึง “การฝึกฝน” ได้ นี่คือสาเหตุที่วงจรการพัฒนาโมเดล embodied มักคำนวณเป็นเดือนหรือแม้แต่ปี ความซับซ้อนของมันไม่ควรประเมินต่ำไป
แต่ความซับซ้อนนี้เอง ที่ได้เปิดช่องโหว่แห่งโอกาสขนาดใหญ่ระหว่างโลกกายภาพกับโมเดลอัจฉริยะ ใครก็ตามที่สามารถแปลงข้อมูลโลกกายภาพที่ยุ่งเหยิงให้เป็นอินพุตการฝึกที่มีโครงสร้างชัดเจน และสร้างวงจร feedback ที่มีประสิทธิภาพได้ จะมีโอกาสเติมเต็มช่องว่างระดับโครงสร้างพื้นฐานนี้ และก้าวขึ้นสู่เส้นทางเติบโตที่รวดเร็ว
นี่คือสนามแข่งเกิดใหม่ขนาดใหญ่
Zhiyu Jishi (智域基石) ที่เริ่มปรากฏตัวขึ้นเมื่อไม่นานมานี้ คือบริษัทที่เติบโตมาจากระดับนี้ แม้จะก่อตั้งมาเพียงสามเดือน บริษัทได้รับเงินลงทุนจากสถาบันการลงทุนหลายแห่ง และมีคำสั่งซื้อในมือขนาดที่น่าพอใจ

ต่างจากบริษัทที่ยึดแนวคิดดั้งเดิม “เอาท์ซอร์สการติดป้ายกำกับ (annotation)” และพึ่งพาการเพิ่มจำนวนคนและสถานที่เพื่อเก็บรวบรวมข้อมูล Zhiyu Jishi ให้ความสนใจมากขึ้นกับวิธีการสร้างความสามารถที่เป็นระบบ เพื่อแปลงแรงงานของมนุษย์ในโลกกายภาพให้เป็นดิจิทัล และแปลงข้อมูลดิบเป็นอินพุตการฝึกของโมเดลด้วยต้นทุนที่ต่ำลง
เพื่อจุดประสงค์นี้ พวกเขาเสนอแนวคิด “การคอมไพล์ข้อมูล (data compilation)” การคอมไพล์ข้อมูล หมายถึงการสร้าง “ไปป์ไลน์การกลั่น” อัตโนมัติสำหรับข้อมูลดิบในโลกกายภาพที่มีเอนโทรปีสูง (high-entropy), แบบอะซิงโครนัส (asynchronous) และแบบมัลติโมดัล (multimodal) ผ่านการลดสัญญาณรบกวน การจัดตำแหน่ง การแยกย่อยเป็น “อะตอมของทักษะ (skill atoms)” และติดป้ายกำกับความหมายที่สามารถติดตามได้ เพื่อให้อัลกอริทึมเข้าใจกฎทางกายภาพและความตั้งใจในการกระทำอย่างแท้จริง และในที่สุดก็รวมตัวเป็นโมเดลที่ใช้งานได้

เช่นเดียวกับที่ระบบปฏิบัติการให้อินเทอร์เฟซมาตรฐานระหว่างฮาร์ดแวร์และแอปพลิเคชัน ชั้นคอมไพล์เลอร์นี้มีเป้าหมายเพื่อกำหนดมาตรฐานแบบ “คอมไพล์เลอร์” ระหว่างโลกกายภาพกับโมเดลและความสามารถของตัวหุ่นยนต์ (本体) นี่ไม่ใช่การเอาท์ซอร์สการเก็บรวบรวมข้อมูลแบบง่ายๆ แต่เป็นการสร้างระบบระดับอุตสาหกรรม ใครก็ตามที่สามารถสร้างระบบนี้ขึ้นมาได้ จะมีโอกาสกลายเป็น “จุดเข้าใช้งานความสามารถ (ability entry point)” ในส่วนต้นน้ำของการฝึกโมเดล กระโดดจากบทบาทแรงงานที่มีมูลค่าเพิ่มต่ำ ขึ้นสู่ชั้นโครงสร้างพื้นฐานที่มีมูลค่าสูง
เพื่อทำความเข้าใจเส้นทางและข้อได้เปรียบที่เฉพาะเจาะจงของ Zhiyu Jishi เราได้พูดคุยเชิงลึกกับทีมผู้ก่อตั้งของพวกเขา
โลกกายภาพ ไม่ยอมรับภาพลวงตา (hallucination)
ในวันนี้ที่โมเดลสร้างโค้ดกลายเป็นเครื่องมือทั่วไป เราเคยชินกับวิธีการทำงานแบบ “หนึ่งคำสั่ง สร้างโค้ดหมื่นบรรทัด” แต่ในโลกกายภาพ ความฝันแบบเดียวกัน (เช่น คำสั่งเดียวทำความสะอาดบ้านทั้งหลัง) ยังไม่เป็นจริง
สาเหตุพื้นฐานคือ: โลกกายภาพไม่ยอมรับภาพลวงตา โค้ดสามารถย้อนกลับได้ไม่จำกัด หากโมเดลขนาดใหญ่ (large model) ให้ผลลัพธ์ผิดพลาดก็เพียงแค่แก้ไข prompt และลองใหม่ แต่เมื่อหุ่นยนต์หยิบแก้วน้ำ หากมือลื่น น้ำก็หกจริงๆ ทุกครั้งที่ตัดสินใจมาพร้อมกับผลที่ตามมาที่ไม่สามารถเพิกถอนได้
ดังนั้น AI ทางกายภาพจึงพิถีพิถันอย่างมากกับคุณภาพข้อมูล หากข้อมูลมีปัญหา ผลลัพธ์ของโมเดลจะผิดเพี้ยนไปไกล อย่างไรก็ตาม สถานการณ์ในอุตสาหกรรมคือ: ตั้งแต่ปีนี้เป็นต้นมา ข้อมูลดิบไม่ใช่สิ่งที่หายากอีกต่อไป จุดที่เจ็บปวดจริงๆ คือการขาดอินพุตการฝึกที่สามารถเพิ่มอัตราความสำเร็จของงานได้อย่างมีประสิทธิภาพ ในบันทึกทางกายภาพที่เก็บรวบรวมมาจำนวนมาก มีปัญหาการสูญเสียเฟรม (丢帧), การรับแสงผิดปกติ, การกระทำที่ไม่มีผล, เซ็นเซอร์ไม่ประสานเวลา ฯลฯ หาก “ขยะข้อมูล” เหล่านี้ถูกนำไปใช้ฝึกฝนโดยตรง จะไม่เพียงแต่ทำให้โมเดลไม่สามารถเรียนรู้ความสัมพันธ์เชิงเหตุผลที่ถูกต้อง แต่ยังสิ้นเปลืองพลังการคำนวณ และอาจนำไปสู่พฤติกรรมของโมเดลที่ควบคุมไม่ได้
อย่างไรก็ตาม การแปรรูปข้อมูลดิบเป็นอินพุตการฝึกที่ใช้งานได้ ไม่ใช่แค่การ “ทำความสะอาด” หรือ “ติดป้ายกำกับ” ที่จะแก้ไขได้

ประการแรก ข้อมูลหุ่นยนต์มักมีลักษณะเป็นมัลติโมดัล, การเชื่อมโยงกันสูง (strong coupling), การสุ่มตัวอย่างแบบอะซิงโครนัส ตัวอย่างเช่น เมื่อแขนกลยื่นไปหาแก้ว กล้องอาจบันทึกภาพที่ 30Hz, IMU ส่งออกข้อมูลความเฉื่อยที่ 200Hz หรือสูงกว่า ตัวเข้ารหัสข้อต่อ (joint encoder) ก็ทำงานตามนาฬิกาการสุ่มตัวอย่างของตัวเอง อินพุตการฝึกในอุดมคติจำเป็นต้องซิงโครไนซ์ประทับเวลา (timestamp) ของเซ็นเซอร์หลายตัวในมิติเวลา และทำการสอบเทียบและจัดตำแหน่งระบบพิกัดระหว่างการมองเห็น, ตำแหน่งปลายแขน (end effector pose), แรง/สัมผัส กับสถานะของข้อต่อในมิติพื้นที่ มิฉะนั้นจะเกิดปรากฏการณ์ไม่ตรงกัน เช่น “มือสัมผัสแก้วแล้ว แต่การมองเห็นยังแสดงระยะห่างอยู่” การป้อนข้อมูลที่ไม่ตรงกันในกาล-อวกาศ (spatiotemporal mismatch) เข้าไปในโมเดล มีแนวโน้มสูงที่จะทำให้มันเรียนรู้การจับคู่การรับรู้-การกระทำ (perception-action mapping) ที่ผิดพลาด
แม้ว่าจะแก้ไขปัญหา “ชั้นกายภาพ” เช่น การจัดตำแหน่งกาล-อวกาศได้แล้ว ข้อมูลดิบยังคงใช้งานโดยตรงได้ยากเนื่องจากขาดความหมาย วิดีโอของหุ่นยนต์ที่ “หยิบ ยก วาง” แก้วน้ำ สำหรับอัลกอริทึมแล้วเป็นเพียงชุดของการเปลี่ยนแปลงพิกเซลและเส้นโค้งมุมข้อต่อ มันไม่เข้าใจว่า “นี่คือการหยิบแก้วน้ำ” ยิ่งไม่รู้ว่า “ทำไมต้องหยิบ” หรือ “อะไรคือความสำเร็จ” การใช้ข้อมูลประเภทนี้ฝึกฝนโดยตรง พารามิเตอร์ของโมเดลยากที่จะลู่เข้า (converge) ไปสู่การจับคู่ที่ถูกต้องระหว่างความตั้งใจของงานกับโครงสร้างการกระทำ ส่งผลให้ประสิทธิภาพการฝึกต่ำหรือพฤติกรรมควบคุมไม่ได้
เมื่อระดับปริมาณข้อมูลถึงล้านล้านชั่วโมง ความท้าทายที่แท้จริงเพิ่งจะปรากฏ ปัญหาไม่ใช่แค่ความซับซ้อนทางเทคนิคอีกต่อไป แต่ต้นทุนเริ่มเพิ่มขึ้นอย่างรวดเร็ว ทุกขั้นตอน เช่น การตรวจสอบคุณภาพ การจัดตำแหน่ง การคัดกรอง การคอมไพล์ใหม่ ต่างก็ใช้ทรัพยากรไป ต้นทุนที่เพิ่มขึ้นแบบระเบิดนี้ เป็นสิ่งที่รูปแบบดั้งเดิม “เพิ่มจำนวนคน” ไม่สามารถรับได้
นอกจากนี้ วงจร feedback ก็เป็นอุปสรรคเช่นกัน แม้อุตสาหกรรมหวังจะนำข้อมูลไปอยู่ในสถานการณ์จริงเพื่อรับ feedback อย่างต่อเนื่อง แต่ทุกสถานที่การผลิตจริงก็เหมือนเกาะข้อมูลโดดๆ ที่มีตรรกะการทำงานและกฎการเข้าถึงเป็นของตัวเอง หากไม่สามารถเชื่อมต่อวงจรนี้ได้ ระบบข้อมูลจะเป็นแบบคงที่ (static) และยากที่จะพัฒนาไปในทิศทางที่แน่นอนอย่างต่อเนื่อง
ในช่วงสองปีที่ผ่านมา อุตสาหกรรมได้ลองเส้นทางที่เป็นไปได้เกือบทั้งหมดแล้ว: บางคนพึ่งพาการเก็บรวบรวมข้อมูลแบบใช้คนจำนวนมาก บางคนหวังพึ่งการจำลอง (simulation) บางคนพยายามสร้างมาตรฐานข้อมูลให้เป็นหนึ่งเดียว บางคนทำการประสานทรัพยากรเพื่อรวบรวมข้อมูลที่กระจัดกระจาย แต่ละเส้นทางต่างก็มีบทบาทในส่วนของตัวเอง แต่แผนการที่แตกเป็นเสี่ยงๆ เหล่านี้เชื่อมต่อกันได้ยาก: ความน่าเชื่อถือของข้อมูลไม่เพียงพอ กระบวนการไม่ก่อตัวเป็นวงจรปิด ต้นทุนไม่สามารถควบคุมได้อย่างมีประสิทธิภาพ รากของปัญหามิได้อยู่ที่ขั้นตอนใดขั้นตอนหนึ่ง แต่เป็นเพราะทั้งสายโซ่จากข้อมูลดิบไปสู่อินพุตการฝึก ยังไม่ถูกแปลงเป็นกระบวนการอุตสาหกรรมที่สามารถนำกลับมาใช้ใหม่ได้อย่างมั่นคงและทำงานต่อเนื่องได้
แน่นอน สิ่งที่ทำได้ยากเช่นนี้ ก็เพราะมีกำแพงสูงมาก มันต้องการทีมงานข้ามสาขาวิชา ต้องเข้าใจทั้งหุ่นยนต์, เชี่ยวชาญทั้งข้อมูลขนาดใหญ่และสถาปัตยกรรมคลาวด์เนทีฟ (cloud-native) และยังต้องสามารถทำให้วงจรปิดเกิดขึ้นจริงได้จริง บางส่วนเป็นปัญหาทางเทคนิค บางส่วนก็เกินขอบเขตของเทคนิคล้วนๆ ในความเป็นจริง เป็นเรื่องยากที่ทีมใดทีมหนึ่งจะมีความสามารถทั้งหมดนี้พร้อมกัน และ Zhiyu Jishi ก็เป็นข้อยกเว้นดังกล่าว
สอง CTO ห้าชั้นไปป์ไลน์คอมไพล์
ทำไมถึงบอกว่า Zhiyu Jishi เป็นข้อยกเว้น? สามารถเห็นได้จากองค์ประกอบของทีม
CEO มีประสบการณ์ทางวิศวกรรมด้านฐานข้อมูลแบบกระจายโอเพ่นซอร์ส (open-source distributed database) ในสอง CTO คนหนึ่งมีประสบการณ์ปฏิบัติตลอดวงจรชีวิตของหุ่นยนต์ตั้งแต่ห้องปฏิบัติการจนถึงการผลิตจำนวนมาก อีกคนหนึ่งเชี่ยวชาญด้านการคอมไพล์ข้อมูลขนาดใหญ่และสถาปัตยกรรมคลาวด์เนทีฟ เป็นคู่หูทางเทคนิคของ CEO มานานหลายปี COO ชำนาญด้านการสร้างระบบนิเวศ สามารถบูรณาการทรัพยากรในห่วงโซ่อุตสาหกรรม เชื่อมต่อกับแนวโน้มนโยบาย และเปลี่ยนข้อได้เปรียบทางเทคนิคให้เป็นโครงสร้างพื้นฐานอุตสาหกรรมที่สามารถนำไปปฏิบัติได้จริง
นักลงทุนของ Zhiyu Jishi ก็ระบุชัดเจนว่า ให้ความสำคัญกับความสามารถแบบผสมผสานของทีมนี้ที่ “เข้าใจสถานการณ์ เข้าใจข้อมูล เข้าใจการนำไปปฏิบัติจริง” และมองว่าพวกเขาเป็นพันธมิตรที่มีคุณค่าทางยุทธศาสตร์อย่างมากในอุตสาหกรรม embodied intelligence
การจัดวางบุคลากรแบบนี้มีเป้าหมายชัดเจน: ยกระดับการคอมไพล์ข้อมูลจาก “โรงงานหัตถกรรม” เป็น “สายการผลิตอัตโนมัติ” และในที่สุดเติบโตเป็นชั้นโครงสร้างพื้นฐานที่ขาดไม่ได้ระหว่างโมเดลกับข้อมูลดิบ

ไปป์ไลน์การคอมไพล์ข้อมูลทั้งหมดแบ่งออกเป็นห้าชั้น
ชั้นแรกคือการตรวจสอบคุณภาพ (质检) ถูกกำหนดให้เป็น “การตรวจสอบวัตถุดิบ (来料检测)” “วัตถุดิบ” ที่นี่มาจากชุดอุปกรณ์เก็บรวบรวมแบบเห็นจากมุมมองตัวเอง (egocentric) ที่พัฒนาขึ้นเอง อุปกรณ์นี้ไม่ใช่โซลูชันที่มีอยู่ในตลาด แต่ถูกออกแบบมาเพื่อบันทึกการรับรู้ของมนุษย์ (สิ่งที่เห็น ได้ยิน สัมผัส) และข้อมูลสามมิติของสภาพแวดล้อมอย่างประสานเวลา แน่นอน นอกจากข้อมูลแบบเห็นจากมุมมองตัวเองแล้ว พวกเขายังเก็บรวบรวมข้อมูลตัวหุ่นยนต์ (本体) อย่างประสานเวลาด้วย ตามคำพูดของพวกเขา มีเพียงการได้ข้อมูลที่ “สมบูรณ์ที่สุดและเป็นข้อมูลดิบที่สุด” เท่านั้น ถึงจะมีพื้นที่สำหรับการคอมไพล์ในขั้นตอนต่อไป
Zhiyu Jishi: จากการคอมไพล์ข้อมูลสู่ Embodied Intelligence แก้ปัญหาการฝึก AI ในโลกกายภาพ (ตอนจบ)
ห้าชั้นไปป์ไลน์คอมไพล์: จากข้อมูลดิบสู่ทรัพย์สินที่ฝึกได้
หลังจากข้อมูลผ่านการตรวจสอบคุณภาพแล้ว Zhiyu Jishi ใช้ชุดไปป์ไลน์คอมไพล์ห้าชั้น เพื่อแปลงบันทึกเซ็นเซอร์ดิบให้เป็นทรัพย์สินที่มีโครงสร้างซึ่งสามารถนำไปใช้ฝึกโมเดลได้โดยตรง
ชั้นที่หนึ่ง: การตรวจสอบคุณภาพ (质检)
การตรวจสอบคุณภาพด้วยมือแบบดั้งเดิมเนื่องจากข้อจำกัดด้านต้นทุนมักใช้การสุ่มตรวจ (抽检) ส่งผลให้ข้อมูลที่มีสัญญาณรบกวนจำนวนมากปะปนเข้าไปในชุดฝึกฝน และส่งผลต่ออัตราความสำเร็จของงาน Zhiyu Jishi ใช้กลยุทธ์การตรวจสอบคุณภาพแบบเต็มจำนวน (全量质检) ดำเนินการตรวจสอบคุณภาพอย่างต่อเนื่องในทุกขั้นตอนของการนำข้อมูลเข้าฐานข้อมูล การคอมไพล์ และการส่งมอบ
หัวใจสำคัญอยู่ที่การใช้สถาปัตยกรรมแบบกระจายคลาวด์เนทีฟ (cloud-native distributed architecture) เพื่อแยกงานตรวจสอบคุณภาพออกเป็นหน่วยคำนวณขั้นต่ำที่สามารถประมวลผล
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30667
