6600 ล้านพิกเซล, พารามิเตอร์ 7 พันล้านตัวรันบนอุปกรณ์ หุ่นยนต์สี่ขานี้ยกระดับการรับรู้เหนือสายตามนุษย์

15 hours ago • คลังสินค้า AI • 16 views

อุตสาหกรรมหุ่นยนต์ระดับผู้บริโภคอาจกำลังจะเผชิญกับการเปลี่ยนแปลงครั้งสำคัญในรุ่นต่อรุ่น

ในช่วงไม่กี่ปีที่ผ่านมา มีหุ่นยนต์สุนัขจำนวนมากออกสู่ตลาด พวกมันวิ่งได้ กระโดดได้ และตีลังกาได้ แต่ปัญหาหลักยังคงไม่ได้รับการแก้ไข

หุ่นยนต์เหล่านี้ในหลายสถานการณ์ มองไม่เห็นชัด ฟังไม่ถนัด และคิดไม่ทะลุปรุโปร่ง

6600 ล้านพิกเซล, พารามิเตอร์ 7 พันล้านตัวรันบนอุปกรณ์ หุ่นยนต์สี่ขานี้ยกระดับการรับรู้เหนือสายตามนุษย์

การกำหนดค่าหลักของอุตสาหกรรมยังคง停留在กล้อง 2 ล้านพิกเซล, LiDAR 16 เส้น และสถาปัตยกรรมชิปประมวลผลเดี่ยว

ถึงแม้หุ่นยนต์จะ “เคลื่อนไหว” ได้ แต่ก็ยังห่างไกลจากการ “เข้าใจ” โลกอย่างแท้จริง โดยยังขาดขั้นตอนสำคัญ

จนกระทั่งเมื่อไม่นานมานี้ ผมได้เห็นข้อมูลที่น่าประหลาดใจชุดหนึ่ง

66 ล้านพิกเซล, HDR140db, จุดคลาวด์ 2.232 ล้านจุดต่อวินาที, โมเดลฝั่งอุปกรณ์ 7 พันล้านพารามิเตอร์ ที่ให้ผลลัพธ์ 280TPS

ที่น่าสังเกตยิ่งกว่าคือ มันไม่ได้แข่งขันในกฎเกณฑ์ที่ NVIDIA กำหนดไว้

แต่ใช้ 6 ชิป ประกอบเป็น คลัสเตอร์คอมพิวติ้งแบบ Heterogeneous ยกระดับประสิทธิภาพการประมวลผลของหุ่นยนต์ระดับผู้บริโภค ให้สูงกว่า ค่าเฉลี่ยอุตสาหกรรมมากกว่า 10 เท่า

ข้อมูลชุดนี้มาจาก หุ่นยนต์สี่ขาระดับผู้บริโภครุ่น BabyAlpha A3 ที่เพิ่งเปิดตัวโดย 蔚蓝科技 (Weilan Technology)

บริษัทนี้มียอดขายสะสม มากกว่า 25,000 เครื่อง สำหรับหุ่นยนต์สี่ขาระดับผู้บริโภค จำนวนการโต้ตอบกับผู้ใช้ถึง 65.48 ล้านครั้ง และระยะเวลาการใช้งาน มากกว่า 950 ล้านนาที ปัจจุบัน ในที่สุดมันก็ปลดปล่อยเทคโนโลยีหลักที่สะสมไว้ในช่วงไม่กี่ปีที่ผ่านมา มาสู่ A3 อย่างเข้มข้น

สัญญาณที่ชัดเจนได้ปรากฏขึ้นแล้ว: หุ่นยนต์สี่ขาระดับผู้บริโภคกำลังเปลี่ยนผ่านจากระยะ “เคลื่อนไหวได้” สู่ยุคใหม่ของ “เข้าใจมนุษย์”

คำถามที่ตามมาคือ:

เมื่อความสามารถในการรับรู้และพลังประมวลผลของหุ่นยนต์ทะลุเพดานอุตสาหกรรมไปแล้ว ปัญญาแบบมีกาย (Embodied Intelligence) จะถูกผลักดันไปสู่ระดับสูงเพียงใด?

ในที่สุดหุ่นยนต์ก็告别สถานะ “ตาบอดครึ่งซีก”

ในช่วงไม่กี่ปีที่ผ่านมา อุตสาหกรรมหุ่นยนต์ระดับผู้บริโภคมีจุดปวดที่ซ่อนเร้นอยู่

ทุกคนแข่งขันกันอย่างบ้าคลั่งในเรื่อง ความสามารถในการเคลื่อนไหว: ตีลังกา, ปาร์กัวร์, ฝ่าสิ่งกีดขวาง, ปีนทางลาด การเคลื่อนไหวดูคล้ายกับฉากในภาพยนตร์ไซไฟมากขึ้นเรื่อยๆ

อย่างไรก็ตาม ระบบการรับรู้ยังคง停留在ระดับ “พอใช้ได้” เท่านั้น

ในสภาพแวดล้อมที่มีแสงย้อน มักจะเบลอ ในพื้นที่ซับซ้อน มักจะตัดสินผิดพลาด และความเร็วในการจับวัตถุที่เคลื่อนไหวก็ช้า

หุ่นยนต์จำนวนมากดูฉลาดบนพื้นผิว แต่โดยพื้นฐานแล้วยังคงเข้าใจโลกอย่างคลุมเครือ

นี่คือสาเหตุที่หุ่นยนต์จำนวนมากในอุตสาหกรรมแม้จะเคลื่อนไหวคล่องแคล่ว แต่ทันทีที่脱离รีโมทคอนโทรลหรือสภาพแวดล้อมที่กำหนดไว้ ก็จะเผยให้เห็นธรรมชาติของ “นักสู้ตาบอดครึ่งซีก” ทันที

ถ้าหุ่นยนต์มองโลกไม่ชัด ก็ไม่ต้องพูดถึงการตัดสินใจอย่างอิสระที่แท้จริง

และจุดที่ A3 เก่งที่สุดคือการยกระดับ มิติการรับรู้ ขึ้นไปอีกยุคหนึ่งโดยตรง

มาดูด้านการมองเห็นกันก่อน

A3 ติดตั้ง ระบบรับรู้ภาพอัจฉริยะพิเศษ ประกอบด้วยกล้องหลัก 50 ล้านพิกเซล, เลนส์อัลตร้าไวด์ f/2.8 และกล้องพาโนรามา 4K ความละเอียด 8K, 4K และ 4K ตามลำดับ รวมพิกเซลสูงถึง 66 ล้าน พร้อมเซ็นเซอร์ขนาดใหญ่ 1/1.3 นิ้ว

นี่คือแนวคิดอะไร? กล้องหลักของโทรศัพท์เรือธงหลายรุ่นก็แค่ 50 ล้านพิกเซลเท่านั้น

ที่สำคัญยิ่งกว่าคือ ความไวแสง ของมันถึงระดับ HDR140db ระดับเรตินา

หุ่นยนต์กระแสหลักในอุตสาหกรรมส่วนใหญ่ยังคงอยู่ต่ำกว่า HDR90db ในขณะที่ช่วงไดนามิกทางทฤษฎีของดวงตามนุษย์อยู่ที่ประมาณ 100db ถึง 120db

A3 เป็นครั้งแรกที่ผลักดัน ช่วงไดนามิกของการมองเห็นหุ่นยนต์ ให้ เกินกว่าระดับสายตามนุษย์

นั่นหมายความว่า ในอดีตหุ่นยนต์ในสภาพแวดล้อมที่มีแสงย้อนแรง แสงน้อย หรือการสลับแสงสลับมืดที่ซับซ้อน มักจะ “ตาบอด” ทันที

แต่ตอนนี้ A3 มีความสามารถในการ เข้าใจสภาพแวดล้อมภายใต้สภาพแสงที่ซับซ้อน อย่างแท้จริง

ยังมีข้อมูลอีกชุดที่มักถูกมองข้าม——อัตราเฟรมสูงสุด 480fps

กระแสหลักของอุตสาหกรรมส่วนใหญ่ยังคงอยู่ที่ 30fps เทียบเท่ากับความลื่นไหลของวิดีโอทั่วไป

480fps ใกล้เคียงกับประสบการณ์การมองเห็นแบบสโลว์โมชั่นสุดขีด

วัตถุที่เคลื่อนที่ด้วยความเร็วสูง เด็กที่วิ่งเล่น สิ่งกีดขวางที่ปรากฏขึ้นอย่างกะทันหัน กลายเป็นภาพสโลว์โมชั่นในสายตาหุ่นยนต์ เป็นภาพที่ชัดเจนสามารถวิเคราะห์ทีละเฟรมได้

แต่นี่ยังไม่ใช่ส่วนที่น่าทึ่งที่สุด

สิ่งที่สร้างความแตกต่างระหว่างรุ่นอย่างแท้จริงคือความสามารถในการรับรู้เชิงพื้นที่

A3 ใช้ 5 ชุด 3D ToF และ 3D โครงสร้างแสงประกอบเป็น อาร์เรย์ 360° รอบทิศทาง ความหนาแน่นของจุดคลาวด์ถึง 2.232 ล้านจุดต่อวินาที

ในขณะที่โซลูชัน LiDAR 16 เส้นกระแสหลักของอุตสาหกรรม มีความหนาแน่นของจุดคลาวด์เพียง 48,000 จุดต่อวินาที

“ความหนาแน่นของจุดคลาวด์” สามารถเข้าใจง่ายๆ ว่า: จำนวนจุดในพื้นที่สามมิติที่หุ่นยนต์รวบรวมผ่านเซ็นเซอร์ในแต่ละวินาที

จุดคลาวด์ความหนาแน่นสูงเปรียบเสมือน ภาพถ่ายความละเอียดสูง ที่สามารถแยกแยะสิ่งกีดขวางขนาดเล็ก (เช่น สายไฟ, ของเล่น, ขั้นบันไดเล็ก) ในขณะที่จุดคลาวด์ความหนาแน่นต่ำเปรียบเสมือน ภาพโมเสค

48,000 จุด/วินาที เทียบกับ 2.232 ล้านจุด/วินาที ความแตกต่างใกล้เคียงสองอันดับของขนาด

ถ้าจะบอกว่าหุ่นยนต์ของคนอื่นยังใช้แผนที่นำทางแบบ 2G อยู่ A3 ก็เปลี่ยนมาใช้แผนที่เรียลไทม์ 4K แล้ว

สิ่งที่มันเห็นไม่ใช่แค่โครงร่างของสิ่งกีดขวางอีกต่อไป แต่เป็นโลกสามมิติที่มีความแม่นยำสูงและเปลี่ยนแปลงแบบเรียลไทม์

ระบบการได้ยินก็เช่นกัน หุ่นยนต์หลายตัวในอุตสาหกรรมแค่ “ได้ยินเสียง”

A3 เปิดตัวครั้งแรกของโลกด้วยระบบการได้ยินสามมิติเลียนแบบชีวภาพ 12-Mic 3D Mesh ที่สามารถ “ฟังรู้ว่าเสียงมาจากไหน”

ไมโครโฟน 12 ตัวประกอบเป็นอาร์เรย์สนามเสียงสามมิติ สามารถระบุทิศทาง ระยะทาง และตำแหน่งเชิงพื้นที่ของเสียงได้อย่างแม่นยำ

พูดอย่างถ่อมตัว มันใกล้เคียงกับปัญญาแบบมีกาย (Embodied Intelligence) มากกว่า แต่ในความคิดผม นี่คือปัญญาแบบมีกาย! มันไม่เพียงเข้าใจภาษา แต่ยังเข้าใจสภาพแวดล้อม

เหมือนกับเวลามนุษย์ทำงานที่ต้องการ “ความรู้และการกระทำเป็นหนึ่งเดียว” เฉพาะเมื่อรับรู้ถูกต้องเท่านั้น จึงจะสามารถปฏิบัติได้ดีขึ้น เป้าหมายสูงสุดของปัญญาแบบมีกายไม่ใช่หรือ?

ภายใต้การสนับสนุนของความสามารถในการรับรู้เช่นนี้ A3 ก็กำลังท้าทายขีดจำกัดของตัวเองเช่นกัน ปัจจุบันความเร็วสูงสุด可达 3.5 เมตร/วินาที ปีนทางลาด 45° ได้ และความสูงสูงสุดในการฝ่าสิ่งกีดขวางถึง 28 เซนติเมตร

โปรดทราบ นี่ไม่ใช่แค่การอวดตัวเลข ความเข้าใจของหุ่นยนต์ต่อสภาพแวดล้อมที่ซับซ้อนได้เปลี่ยนแปลงในเชิงคุณภาพแล้ว

ในขณะเดียวกัน นี่ยังหมายความว่าปัญญาแบบมีกายกำลังเปลี่ยนจากตรรกะในห้องปฏิบัติการ สู่ตรรกะของโลกแห่งความจริง

แต่ “มองเห็น” เป็นเพียงก้าวแรก

คิดค้นคลัสเตอร์คอมพิวติ้งแบบ Heterogeneous หลีกเลี่ยงเส้นทางของ NVIDIA

เมื่อรับรู้ได้แล้ว ก็ต้อง “คิดเคลื่อนไหวได้”

ในช่วง 5 ปีที่ผ่านมา ไม่ว่าจะเป็นผลิตภัณฑ์เรือธงของ NVIDIA อย่าง OrinNX หรือโซลูชันที่คุ้มค่าของจีน โดยพื้นฐานแล้วทุกคนยังคงแข่งขันกันในโซลูชันชิปเดี่ยว

สาเหตุที่แท้จริงก็คือ พลังประมวลผลฝั่งอุปกรณ์ ตามไม่ทัน จึงจำใจต้องถูกดึงเข้าสู่เส้นทางของ NVIDIA เพื่อสู้ต่อ

อันที่จริง เส้นทางนี้มีข้อจำกัดทางกายภาพที่ชัดเจน การใช้พลังงาน การระบายความร้อน ต้นทุน และความสามารถในการทำงานร่วมกันแบบเรียลไทม์ จะยากขึ้นเรื่อยๆ ที่จะ突破

ดังนั้น อุตสาหกรรมจึงเกิดสภาวะที่แปลกประหลาด

หุ่นยนต์มีราคาแพงขึ้นเรื่อยๆ แต่การพัฒนาปัญญาที่แท้จริงกลับช้าลงเรื่อยๆ

นี่คือสาเหตุที่หุ่นยนต์หลายตัวดูเหมือน “รถ遥控配置สูง” มากขึ้นเรื่อยๆ

ขยับได้ แต่ไม่คิด

ครั้งนี้ A3 เลือกเส้นทางการ突破ที่แตกต่าง ไม่继续堆砌พารามิเตอร์อีกต่อไป แต่ หลีกเลี่ยงเส้นทางของ NVIDIA โดยตรง

มันออกแบบชุด “คลัสเตอร์คอมพิวติ้งแบบ Heterogeneous ฝั่งขอบสำหรับปัญญาแบบมีกาย” ที่พัฒนาขึ้นเอง

พูดง่ายๆ มัน更像 “คณะที่ปรึกษาชิป” ไม่ใช่ให้ชิปตัวเดียวรับภาระทั้งหมด แต่ให้ 6 ชิป ทำงานร่วมกันแบบแบ่งหน้าที่

ประกอบด้วยชิป 5nm 2 ตัว, ชิป 8nm 2 ตัว, ชิป 3D Stacked 2 ตัว รวม CPU 22 คอร์

ชิปแต่ละตัวรับผิดชอบงานที่แตกต่างกัน: การรับรู้, การตัดสินใจ, การควบคุมการเคลื่อนไหวแบบเรียลไทม์ประสานงานกัน

เหมือนในบริษัทที่ฝ่ายผลิตภัณฑ์ เทคโนโลยี การออกแบบ และปฏิบัติการ ต่างทำหน้าที่ของตน แทนที่จะให้คนๆ เดียวเขียนโค้ด ทำพรีเซนเทชั่น และไปหาเงินทุนพร้อมกัน

เบื้องหลังนี้แท้จริงแล้วคือการต่อสู้ทางเส้นทาง การเดินตามกฎของ NVIDIA มีแต่จะ拾人牙慧 (เอาของเหลือของคนอื่นมาใช้) สู้เปลี่ยน赛道 วิ่งด้วยตัวเองดีกว่า

เพราะปัญหาที่แท้จริงของหุ่นยนต์ระดับผู้บริโภค ไม่เคยใช่ “ทำได้หรือไม่” แต่เป็น “ทำให้ครอบครัวทั่วไปซื้อได้หรือไม่”

นี่คือสาเหตุที่ข้อมูลชุดที่สำคัญที่สุดของ A3 ไม่ใช่พารามิเตอร์ แต่เป็นประสิทธิภาพ

ภายใต้โมเดล 1.5 พันล้านพารามิเตอร์: 617TPS;
ภายใต้โมเดล 3 พันล้านพารามิเตอร์: 427TPS;
ภายใต้โมเดล 7 พันล้านพารามิเตอร์: 280TPS

อุตสาหกรรมอยู่ระดับไหน? คู่แข่งหลายรายไม่สามารถรันโมเดล 7 พันล้านพารามิเตอร์ได้เลย ที่รันได้ สูงสุดก็แค่ 6TPS

ในเวลาที่คู่แข่งคิดหนึ่งประโยค A3 สามารถสนทนาได้หนึ่งบทสนทนาแล้ว

ที่สำคัญยิ่งกว่าคือต้นทุน: โซลูชันจีนเพียง 300 กว่าดอลลาร์สหรัฐ ในขณะที่ NVIDIA Jetson Thor T5000 ประมาณ 3,000 ดอลลาร์สหรัฐ

蔚蓝打破การผูกขาดพลังประมวลผล ใช้ต้นทุนที่ต่ำกว่าเพื่อให้ได้ผลลัพธ์ที่เหนือกว่า NVIDIA ซึ่งน่าชื่นชมจริงๆ

สิ่งที่มีคุณค่าอย่างแท้จริงในเรื่องนี้คือ มันเป็นครั้งแรกที่นำ “การรันโมเดลใหญ่บนฝั่งอุปกรณ์ได้จริง” เข้าสู่ตลาดระดับผู้บริโภค

ในอดีต อุตสาหกรรมมีการพึ่งพาคลาวด์อย่างรุนแรง ซึ่ง本质上เกิดจากพลังประมวลผลชิปไม่เพียงพอ

แต่หุ่นยนต์แตกต่างจาก ChatBot มันต้องการการรับรู้แบบเรียลไทม์ การตัดสินใจแบบเรียลไทม์ และการเคลื่อนไหวแบบเรียลไทม์

ความหน่วงของคลาวด์ ในหลายกรณีหมายถึงหุ่นยนต์จะชนกำแพงโดยตรง

และ A3 ด้วยพลังประมวลผลที่แข็งแกร่ง สามารถ “รันโมเดลใหญ่บนฝั่งอุปกรณ์” ได้ และนี่คือ รากฐานหลักที่ทำให้ Physical AI สามารถลงหลักปักฐานได้

หุ่นยนต์ที่สามารถเข้าสู่ครอบครัวได้ ต้องปลอดภัยเพียงพอเป็นอันดับแรก

ไม่ว่าพารามิเตอร์การรับรู้ พลังประมวลผล และความสามารถในการเคลื่อนไหวจะแข็งแกร่งแค่ไหน ก็เป็นเพียงตั๋วเข้าสนามของหุ่นยนต์ระดับผู้บริโภค

สิ่งที่กำหนดจริงๆ ว่าหุ่นยนต์จะเข้าสู่ครอบครัวได้หรือไม่ คืออีกเรื่องที่พื้นฐานกว่า: ความปลอดภัย

เพราะสภาพแวดล้อมในครอบครัวแตกต่างจากห้องปฏิบัติการโดยสิ้นเชิง

ในห้องปฏิบัติการไม่มีแมวที่วิ่งโผล่มากะทันหัน ไม่มีรองเท้าแตะและสายชาร์จที่เกลื่อนพื้น ไม่มีเด็กที่เพิ่งหัดเดิน แต่ในครอบครัวจริง สถานการณ์เหล่านี้มีอยู่ทั้งหมด

△ AI สร้าง

蔚蓝ให้ความสำคัญกับความปลอดภัยเป็นลำดับสูงสุดตั้งแต่เนิ่นๆ วัตถุดิบและชิ้นส่วนทั้งหมดมาจากซัพพลายเออร์ระดับโลกชั้นนำ แนวคิดการออกแบบหลายอย่างเกิดจากหลุมพรางที่เจอในครอบครัวจริง

ลักษณะเด่นอย่างหนึ่งของ A3 คือ ความสามารถด้านความปลอดภัยจำนวนมากไม่ได้ถูกเพิ่มเข้ามาทีหลัง แต่ถูกผสานรวมอย่างลึกซึ้งตั้งแต่การออกแบบพื้นฐาน

ยกตัวอย่าง ความปลอดภัยทางกายภาพ หุ่นยนต์หลายตัวในอุตสาหกรรมมีข้อต่อ ชุดสายไฟ และโครงสร้างการเคลื่อนไหวที่เปิดเผย เมื่อเด็กสัมผัสโดยไม่ตั้งใจ อาจทำให้เกิดความเสี่ยง เช่น มือถูกหนีบหรือชน A3 ใช้ การออกแบบข้อต่อซ่อน, ชุดสายไฟซ่อน และป้องกันมือหนีบ โดยตรง แม้ในสถานะขัดข้อง มันก็สามารถ เบรกเพื่อความปลอดภัยในระดับมิลลิวินาที

สิ่งนี้คล้ายกับการเปลี่ยนแปลงของอุตสาหกรรมยานยนต์จากยุคเครื่องกลสู่ยุคอัจฉริยะ ความปลอดภัยระดับสูงอย่างแท้จริง ไม่ได้อยู่ที่ว่าหลังเกิดปัญหาจะช่วยเหลือได้หรือไม่ แต่อยู่ที่การหลีกเลี่ยงไม่ให้ปัญหาเกิดขึ้นให้มากที่สุด ความปลอดภัยของระบบก็เช่นกัน

ปัจจุบัน เมื่อหลายคนพูดถึงหุ่นยนต์ มักให้ความสนใจกับ ขอบเขตความปลอดภัย เมื่อหุ่นยนต์มีความสามารถในการเชื่อมต่อเครือข่ายระยะยาว เคลื่อนที่อัตโนมัติ และรับรู้สภาพแวดล้อมอย่างต่อเนื่อง โดยพื้นฐานแล้วมันกลายเป็นเทอร์มินัลอัจฉริยะที่เคลื่อนที่ได้ ไม่สามารถออกแบบตามแนวคิดของของเล่นทั่วไปอีกต่อไป A3 ติดตั้ง สถาปัตยกรรมความปลอดภัยแบบคู่ทั้งฝั่งอุปกรณ์และคลาวด์ โดยตรง: ฝั่งอุปกรณ์ 360 Security Guard ทำหน้าที่สกัดกั้นการโจมตีที่เป็นอันตราย มัลแวร์ และการโจมตีระยะไกล

ฝั่งคลาวด์เชื่อมต่อกับระบบรักษาความปลอดภัยระดับ 3, ระบบความปลอดภัยของ Alibaba Cloud และการป้องกัน DDoS ของ Azure โดยพื้นฐานแล้ว มันเริ่มสร้างระบบความปลอดภัยตาม “ระดับเทอร์มินัลอัจฉริยะ” แล้ว

อีกประเด็นสำคัญคือ ความเป็นส่วนตัว ในช่วงไม่กี่ปีที่ผ่านมา ข้อกังวลที่ใหญ่ที่สุดของผู้ใช้จำนวนมากเกี่ยวกับหุ่นยนต์ในครอบครัวไม่ใช่ราคา แต่เป็นความไม่ไว้วางใจ ท้ายที่สุดแล้ว บ้านคือที่พักพิงที่ปลอดภัยของทุกคน เป็นสถานที่ที่ให้ผ่อนคลายอย่างเต็มที่ ถ้าอุปกรณ์ที่รวมกล้องเคลื่อนที่ ไมโครโฟน และเซ็นเซอร์ไว้ด้วยกัน อยู่ที่บ้านเป็นเวลานาน นั่นหมายความว่าอย่างไร? ดังนั้น 蔚蓝 ครั้งนี้จึงเน้นย้ำหลักการ: เก็บพลังประมวลผลและการประมวลผลข้อมูลไว้ในเครื่องให้มากที่สุด

รวมถึงสถาปัตยกรรมคอมพิวติ้งที่เชื่อถือได้ในเครื่อง, การเข้ารหัสการสื่อสารแบบ end-to-end, การจัดเก็บและประมวลผลข้อมูลฝั่งอุปกรณ์, ห่วงโซ่การบูตที่ปลอดภัย ฯลฯ นี่ไม่ใช่แค่การพูดว่า “เราจะไม่รั่วไหลข้อมูล” แต่เป็นการรับประกันจากระดับสถาปัตยกรรมว่าข้อมูลจำนวนมาก ไม่จำเป็นต้องออกจากอุปกรณ์เลย ประเด็นนี้สำคัญยิ่ง โดยเฉพาะสำหรับ ปัญญาแบบมีกายระดับผู้บริโภค ที่จะเข้าสู่ครอบครัวในวงกว้าง “ความปลอดภัย” สำคัญกว่า “ความฉลาด” มาก

เบื้องหลังหุ่นยนต์ระดับผู้บริโภคราคาหมื่นหยวน

นี่คือสาเหตุที่ผู้เล่นที่ผลิตจำนวนมากในระดับผู้บริโภคมีน้อย ธุรกิจ To B และ To G ยังสามารถพึ่งพาความสัมพันธ์ โครงการ หรือการปรับแต่งเพื่อรับออเดอร์ได้ แต่ To C ไม่ได้ผล: ตลาดผู้บริโภคสนใจแค่เรื่องเดียว——ผู้ใช้ยินดีจ่ายเงินหรือไม่

蔚蓝 ไม่ได้พึ่งพา To B หรือ To G เพื่อขยายขนาดก่อน แต่เลือกเส้นทางที่ยากซึ่งต้องการเทคโนโลยีที่ ต้นทุนต่ำและความน่าเชื่อถือสูง ตั้งแต่ก่อตั้งบริษัทในปี 2019 วันแรก ตำแหน่งคือ ผลิตภัณฑ์ระดับผู้บริโภคราคาหมื่นหยวน เน้นสถานการณ์ครอบครัวและการอยู่ร่วมกันระยะยาว

△ AI สร้าง

หลายบริษัทในอุตสาหกรรมยังคงอยู่ในขั้นตอน Demo ในขณะที่ผลิตภัณฑ์หลักของ蔚蓝 อย่าง BabyAlpha มียอดขายสะสมมากกว่า 25,000 เครื่อง กลายเป็น ผลิตภัณฑ์หุ่นยนต์สี่ขาระดับผู้บริโภคที่มียอดขายสูงสุดในโลก

蔚蓝 มีตรรกะสำคัญภายใน: หุ่นยนต์สี่ขาคือ “ระยะเริ่มต้น” ที่ต้องผ่านก่อนที่หุ่นยนต์ฮิวแมนนอยด์จะเติบโตเต็มที่ ใช้ผลิตภัณฑ์สี่ขาระดับผู้บริโภคเพื่อรับข้อมูลโลกแห่งความจริงก่อน จากนั้นจึงป้อนกลับเพื่อฝึกสมองปัญญาแบบมีกาย โดยการเร่งความฉลาดของสมอง สร้างขนาดห่วงโซ่อุตสาหกรรมเพื่อลดต้นทุน เพื่อแก้ปัญหา ต้นทุน-มูลค่า กลับหัว ของหุ่นยนต์ฮิวแมนนอยด์ในสถานการณ์ผู้บริโภค

ประเด็นนี้สำคัญยิ่ง ปัจจุบัน การทำให้หุ่นยนต์ก้าวจาก “Demo สาธิต” สู่ “การใช้งานจริง” ผู้เล่นหลายคนยังคงทุกข์ทรมานจากการขาดข้อมูลคุณภาพสูง มีขนาดใหญ่ และมีการโต้ตอบทางกายภาพจริง หลายบริษัทยังคงพึ่งพาข้อมูลสังเคราะห์ในการฝึก ในขณะที่ข้อมูลสภาพแวดล้อมครอบครัวจริงแทบจะจำลองไม่ได้ ไม่รู้เลยว่า เด็กที่วิ่งเข้ามากะทันหัน, ของเล่นที่กระจายเต็มพื้น, แสงไฟในห้องนั่งเล่นที่เปลี่ยนไป, หลายคนพูดพร้อมกัน… เสียงรบกวนในโลกแห่งความจริงเหล่านี้ คือสนามสอบที่แท้จริงของหุ่นยนต์

△ AI สร้าง

และ蔚蓝 ด้วยยอดสั่งซื้อกว่า 25,000 เครื่อง, เวลาการใช้งานสะสมของผู้ใช้มากกว่า 950 ล้านนาที, จำนวนการโต้ตอบสะสมมากกว่า 65 ล้านครั้ง ข้อมูลที่สะสมมา ทั้งหมดมาจากสภาพแวดล้อมครอบครัวจริง ไม่ใช่จากห้องปฏิบัติการ เพื่อให้ได้ข้อมูลอันมีค่านี้ 蔚蓝 ดำเนินการสี่ขั้นตอน:

ใช้ ผลิตภัณฑ์陪伴เด็กในระดับราคาโทรศัพท์มือถือ เพื่อให้ได้ยอดขายจำนวนมาก และรับ ข้อมูลสถานการณ์ครอบครัวจริง;
ฝึกโมเดลคลาวด์ตามข้อมูลผู้ใช้ และ配合 OTA ความถี่สูง เพื่อเพิ่มความผูกพันของผู้ใช้กับผลิตภัณฑ์อย่างต่อเนื่อง;
ผ่าน นวัตกรรมเทคโนโลยี ลดต้นทุนผลิตภัณฑ์ เพื่อให้มีที่ว่างสำหรับพลังประมวลผล และ ย้ายโมเดลคลาวด์ลงสู่ฝั่งอุปกรณ์;
สุดท้าย ดำเนินการ อัปเกรดผลิตภัณฑ์และรับคืนโดยมีกำไรต่ำ สำหรับผู้ใช้เก่า เพื่อสร้างวงล้อสมบูรณ์ “ข้อมูล→ปัญญา→ผลิตภัณฑ์” อย่างต่อเนื่อง

โดยพื้นฐานแล้ว มัน ไม่ได้ขายแค่ฮาร์ดแวร์ แต่อยู่ในกระบวนการ ฝึกฝนปัญญาแบบมีกายอย่างต่อเนื่อง

ทีมงานหลัก

สุดท้าย มาพูดถึงทีมกัน ผู้ก่อตั้ง หลิว เวยเฉา (Liu Weichao) เป็นผู้ประกอบการต่อเนื่อง ตั้งแต่สมัยมัธยมเขาสนใจอัลกอริทึมเอเจนต์อัจฉริยะ ตั้งแต่ปี 2009 ถึง 2011 เขาได้รับ แชมป์โลกหุ่นยนต์ฮิวแมนนอยด์ RoboCup ติดต่อกันสามปี หลังจากนั้นไปเรียนต่อที่เยอรมนี ศึกษาเอกปัญญาประดิษฐ์และหุ่นยนต์ที่มหาวิทยาลัยบอนน์ เป็นศิษย์ของ Prof. Sven Behnke คณบดีคณะวิทยาการคอมพิวเตอร์ มหาวิทยาลัยบอนน์, Prof. Daniel Cremers ผู้ได้รับรางวัล Leibniz และเป็นศิษย์ร่วมสำนักเดียวกับ Prof. Sebastian Thrun บิดาแห่งรถยนต์ไร้คนขับ

△ หลิว เวยเฉา ผู้ก่อตั้ง蔚蓝科技

ตั้งแต่ปี 2012 ถึง 2017 หลิว เวยเฉา ก่อตั้ง AUGTEX และยังเป็นกรรมการผู้ก่อตั้ง LoRa Alliance และเป็นกรรมการเพียงคนเดียวในภูมิภาคเอเชียแปซิฟิก ในปี 2018 เขาเริ่มเตรียมการก่อตั้ง蔚蓝科技 ปัจจุบัน ทีมเทคนิคทั้งหมดมีพื้นฐานจากห้องปฏิบัติการระดับโลกชั้นนำ เช่น GRASP Lab ของ University of Pennsylvania, UIUC AI Lab, Harbin Institute of Technology เป็นต้น เมื่อเทียบกับพื้นฐานการวิจัยทางวิทยาศาสตร์แล้ว ความสามารถในการสร้างอุตสาหกรรม ของพวกเขาก็แข็งแกร่งไม่แพ้กัน

พูดแบบนี้ดีกว่า “การรับรู้และความสามารถในการเคลื่อนไหว” ที่กล่าวถึงข้างต้นคือร่างกายที่เข้าสู่โลกทางกายภาพ “พลังประมวลผล” เทียบเท่าเครื่องยนต์พื้นฐาน “ความหนาแน่นของข้อมูล” คือคูเมืองขององค์กร “ความปลอดภัย” คือเส้นชีวิตในการเข้าสู่สถานการณ์ครอบครัว ดังนั้น “การทำให้เป็นอุตสาหกรรม” คือ ประตูสุดท้าย ที่บริษัทปัญญาแบบมีกายต้องก้าวข้ามเพื่อนำ เทคโนโลยีที่ซับซ้อน เข้าสู่ตลาดระดับผู้บริโภค ในด้านนี้蔚蓝 สั่งสมประสบการณ์มาหลายปี

ในปี 2021 เครื่องวิศวกรรมรุ่นที่ 2 C200 ทำลายสถิติความเร็ววิ่งและความเร็วหมุนของหุ่นยนต์สี่ขาของ MIT ในปี 2022 บริษัทสร้าง โรงงานผลิตหุ่นยนต์สี่ขาแห่งแรกของจีน

ในปี 2023蔚蓝 เปิดตัวหุ่นยนต์สี่ขาเพื่อการอยู่ร่วมกันในครอบครัวรุ่นแรกของโลก BabyAlpha ถึงปี 2024 ร้านค้าปลีกปัญญาแบบมีกายระดับผู้บริโภคแห่งแรกของประเทศเปิดที่ Nanjing Deji หลายบริษัทยังคงพูดถึงอนาคต蔚蓝 เริ่มวางหุ่นยนต์ในห้างสรรพสินค้าและครอบครัวจริงแล้ว

จุดยากที่แท้จริงของปัญญาแบบมีกายระดับผู้บริโภค ไม่เคยใช่การทำ Demo แต่คือการผลิตจำนวนมากอย่างต่อเนื่อง การ迭代อย่างต่อเนื่อง และการเข้าสู่โลกแห่งความจริงอย่างต่อเนื่อง สิ่งที่น่าสนใจของ BabyAlpha A3 คือ มันเป็นครั้งแรกที่ดึงการรับรู้ พลังประมวลผล และความสามารถอัตโนมัติเข้าสู่ยุคเดียวกัน

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/35199

Like (0)

0 0

บอกลาความชอบแบบคู่! มหาวิทยาลัยแห่งชาติสิงคโปร์เสนอ TGO: จัดแนวโมเดลสร้างด้วยคะแนนสเกลาร์โดยตรง รับการตีพิมพ์ใน ICML 2026

Previous 15 hours ago

4 เครื่องมือ AI โอเพนซอร์สที่ให้คุณติดตั้งในเครื่องเพื่อการวิจัยเชิงลึก เอเจนต์การเงิน การจดจำการเขียนโปรแกรม และคลัสเตอร์ประสาท

Next 15 hours ago

คลังสินค้า AI

ทีม Gen Z สร้าง AI สุดเจ๋ง: พิมพ์แค่ประโยคเดียวก็สร้างวิดีโอความยาว 1 นาทีได้ ไม่ต้องเรียน Prompt ใช้ได้ทันที

ทีมงาน Gen Z สร้าง AI สุดเจ๋ง: พูด一句ก็สร้างวิดีโอ 1 นาทีได้ ไม่ต้องเรียน Prompt ใช้ได้ทันที ในวงการ AI มีปรากฏการณ์แปลก ๆ อยู่อย่างหนึ่ง: ความสามารถของโมเดลเพิ่มขึ้นเรื่อย ๆ ซึ่งเป…

2026年5月7日
93000
คลังสินค้า AI

Li Feifei’s World Labs เปิดตัวโมเดล Marble 1.1 Series: สร้างโลก 3D แบบสมจริงได้ในคลิกเดียว พร้อมอัปเกรดเอฟเฟกต์แสงและขนาดฉากอย่างครบวงจร

World Labs ซึ่งก่อตั้งโดย Li Fei-Fei ได้เผยแพร่อัปเดตซีรีส์ 1.1 ของโมเดลโลก 3 มิติแบบสร้างสรรค์ Marble เมื่อเร็วๆ นี้ โดยประกอบด้วยสองโมเดลคือ Marble 1.1 และ Marble 1.1-Plus ซึ่งมี…

2026年4月8日
143000
คลังสินค้า AI

Zhipu AI เปิดตัว AutoClaw: ติดตั้ง Agent แบบ Local ด้วยคลิกเดียว เชื่อมต่อ Feishu เพียงแค่สแกน QR Code พร้อม 60+ ทักษะที่ไม่ต้องปรับแต่ง

ความนิยมของ AutoClaw ยังคงดำเนินต่อไป หลังจากคุ้นเคยกับผู้ช่วยแชทแล้ว ผู้ใช้จำนวนมากเริ่มหวังที่จะมีเอเจนต์ (Agent) อัจฉริยะที่สามารถช่วยเหลือในการทำงานได้จริง แม้ว่าเอเจนต์จะมีประ…

2026年3月11日
442000
เขียน GPU Assembly ด้วย Python? pyptx ทำ 1240 TFLOPS บน Blackwell แซงหน้า cuBLAS

ในแวดวงการเขียนโปรแกรม GPU มีภาวะกลืนไม่เข้าคายไม่ออกที่น่าอึดอัดใจมานาน ด้านหนึ่ง การไล่ตามประสิทธิภาพสูงสุดต้องพึ่งพา CUDA C++ หรือแม้แต่การเขียน PTX Assembly โดยตรง อีกด้านหนึ่ง…

คลังสินค้า AI 2026年4月28日
108000
คลังสินค้า AI

เมื่อ AI ก้าวออกจากหน้าจอ: Looki PIE ทำให้ AI ฉลาดเชิงรุกในโลกแห่งความจริง “คอยดูแลแทนคุณ”

หนึ่ง. เมื่อวิวัฒนาการของ AI หยุดอยู่แค่หน้าจอ ความนิยมของ OpenClaw ไม่ได้อยู่แค่ที่ความสามารถในการแทนที่ผู้ใช้ในการทำงานเท่านั้น หากเพียงเพื่อทำให้เกิดระบบอัตโนมัติ เครื่องมือ RPA…

2026年3月24日
223000

6600 ล้านพิกเซล, พารามิเตอร์ 7 พันล้านตัวรันบนอุปกรณ์ หุ่นยนต์สี่ขานี้ยกระดับการรับรู้เหนือสายตามนุษย์

ในที่สุดหุ่นยนต์ก็告别สถานะ “ตาบอดครึ่งซีก”

คิดค้นคลัสเตอร์คอมพิวติ้งแบบ Heterogeneous หลีกเลี่ยงเส้นทางของ NVIDIA

หุ่นยนต์ที่สามารถเข้าสู่ครอบครัวได้ ต้องปลอดภัยเพียงพอเป็นอันดับแรก

△ AI สร้าง

เบื้องหลังหุ่นยนต์ระดับผู้บริโภคราคาหมื่นหยวน

△ AI สร้าง

△ AI สร้าง

ทีมงานหลัก

△ หลิว เวยเฉา ผู้ก่อตั้ง蔚蓝科技

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ทีม Gen Z สร้าง AI สุดเจ๋ง: พิมพ์แค่ประโยคเดียวก็สร้างวิดีโอความยาว 1 นาทีได้ ไม่ต้องเรียน Prompt ใช้ได้ทันที

Zhipu AI เปิดตัว AutoClaw: ติดตั้ง Agent แบบ Local ด้วยคลิกเดียว เชื่อมต่อ Feishu เพียงแค่สแกน QR Code พร้อม 60+ ทักษะที่ไม่ต้องปรับแต่ง

เขียน GPU Assembly ด้วย Python? pyptx ทำ 1240 TFLOPS บน Blackwell แซงหน้า cuBLAS

เมื่อ AI ก้าวออกจากหน้าจอ: Looki PIE ทำให้ AI ฉลาดเชิงรุกในโลกแห่งความจริง “คอยดูแลแทนคุณ”