โมเดลโลกในพื้นที่แฝง: ม้ามืดเซินเจิ้นท้าชน LeCun ให้ AI ก้าวจาก “การมองเห็น” สู่ “การคาดการณ์”
เส้นทางเทคโนโลยีโมเดลโลกที่ Yann LeCun ผลักดันอย่างหนัก ตอนนี้มีสตาร์ทอัพจากเซินเจิ้นเข้ามาวางแผนล่วงหน้าแล้ว
บริษัทนี้ชื่อ Vision Future ซึ่งเป็นทีมหลักที่สร้าง โมเดล视觉ขนาดใหญ่ระดับโลกตัวแรก อย่าง Grounding DINO และ DINO-X
พวกเขาไม่พอใจแค่ให้ AI “มองเห็นโลก” เท่านั้น แต่ยังมุ่งมั่นผลักดันขีดความสามารถไปสู่ “การคาดการณ์อนาคต”

ตอนนี้ จุดศูนย์กลางเชิงกลยุทธ์ของพวกเขาตกอยู่ที่ โมเดลโลกในพื้นที่แฝง
ที่น่าสนใจคือ LeCun ตัดสินใจออกจาก Meta เพื่อมุ่งมั่นในทิศทางเทคโนโลยีนี้ ก่อตั้ง AMI Labs และระดมทุนได้สำเร็จ 1.03 พันล้านดอลลาร์สหรัฐ สร้างสถิติการระดมทุนรอบ Seed ที่ใหญ่ที่สุดในประวัติศาสตร์ยุโรป
แตกต่างจากโมเดลโลกกระแสหลักที่เน้นการคาดการณ์เฟรมถัดไป โมเดลโลกในพื้นที่แฝงต้องการให้ AI เรียนรู้กฎความสัมพันธ์เชิงเหตุและผลระหว่างการกระทำและการเปลี่ยนแปลงสถานะ ภายในพื้นที่การแสดงผลที่เป็นนามธรรมมากขึ้น
ในวันที่ 15 พฤษภาคม ในฟอรัม “ก่อนถึงยุค AGI: ช่วงเวลาแห่งการตื่นรู้ของโมเดลใหญ่” ภายในงาน 2026 Global AI Terminal Exhibition และ งานแสดงสินค้า AI นานาชาติเซินเจิ้นครั้งที่ 7 ผู้ก่อตั้ง Vision Future จางเหล่ย ได้แสดงจุดยืนอย่างชัดเจนในสุนทรพจน์สำคัญ:
การสร้างโมเดลโลกเป็นความท้าทายอย่างยิ่ง การสร้างโมเดลโลกในพื้นที่แฝงยิ่งยากขึ้นไปอีก แต่เราเลือกที่จะเผชิญกับความยาก

ทำไมโมเดลโลกในพื้นที่แฝงถึงถูกมองว่าเป็นเส้นทางที่ยากกว่า? จุดยากอยู่ที่ไหนกันแน่?
เมื่อประสบความสำเร็จแล้ว จะนำมาซึ่งความก้าวหน้าอย่างไร?
“โมเดลโลกในพื้นที่แฝงนั้นยาก แต่เราต้องทำให้ได้”
เมื่อ AI เร่งการซึมผ่านจากโลกดิจิทัลสู่โลกกายภาพ ภารกิจหลักที่ตัวแทนอัจฉริยะต้องเผชิญได้เปลี่ยนแปลงไปอย่างสิ้นเชิง
มันไม่เพียงต้อง “มองเห็น” แต่ต้อง “คาดการณ์” ด้วย — เข้าใจความสัมพันธ์เชิงเหตุและผล จับพลวัตของกาลอวกาศ และดำเนินการวางแผน ตัดสินใจ และเรียนรู้ภายใต้ข้อจำกัดที่ซับซ้อนและการตอบสนองที่เบาบาง
การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) เป็นกระบวนทัศน์พื้นฐานสำหรับการเรียนรู้จากประสบการณ์ปฏิสัมพันธ์ ยกตัวอย่างโมเดลภาษาขนาดใหญ่ ตั้งแต่ ChatGPT ที่ใช้การเรียนรู้แบบเสริมกำลัง ไปจนถึงความก้าวหน้าของโมเดลตระกูล o และความสามารถในการเขียนโค้ด โดยพื้นฐานแล้วล้วนเป็นวิวัฒนาการอย่างต่อเนื่องของการประยุกต์ใช้อัลกอริทึมการเรียนรู้แบบเสริมกำลัง
อย่างไรก็ตาม โลกกายภาพมีลักษณะเฉพาะ เช่น ประสิทธิภาพตัวอย่างต่ำ ข้อจำกัดด้านความปลอดภัยที่เข้มงวด ต้นทุนปฏิสัมพันธ์สูง และสภาพแวดล้อมที่ไม่สามารถรีเซ็ตได้ ทำให้วิธีการที่อาศัยการลองผิดลองถูกออนไลน์เพียงอย่างเดียวนั้นยากที่จะขยายไปสู่สถานการณ์จริง

△ AI สร้าง
จางเหล่ยเชื่อว่า ปัญญาที่แท้จริงไม่สามารถหยุดอยู่แค่ระดับ “เห็นสถานะปัจจุบันแล้วส่งออกการกระทำ”
หากขาดการคาดการณ์สถานะในอนาคตและการจินตนาการถึงผลลัพธ์ของการกระทำ ตัวแทนอัจฉริยะจะไม่สามารถดำเนินห่วงโซ่การตัดสินใจในโลกกายภาพได้อย่างต่อเนื่อง และยากที่จะผสานเข้ากับสภาพแวดล้อมจริงได้อย่างแท้จริง
นี่คือคุณค่าหลักของโมเดลโลก: ให้ AI เรียนรู้ความสัมพันธ์เชิงเหตุและผลระหว่างการกระทำ สถานะ และผลลัพธ์จากข้อมูลประสบการณ์ “จินตนาการ” ก่อนว่าสิ่งใดจะเกิดขึ้นต่อไปก่อนลงมือปฏิบัติ เพื่อจัดหาพื้นที่ซ้อมภายในที่ขยายได้สำหรับการเรียนรู้แบบเสริมกำลัง
ในมุมมองของจางเหล่ย เส้นทางโมเดลโลกต่างๆ ในปัจจุบันกำลังก้าวหน้าอย่างรวดเร็วในทิศทางที่แตกต่างกัน แต่สำหรับหุ่นยนต์และปัญญาทางกายภาพแล้ว ความท้าทายหลักยังคงมีอยู่:
สิ่งที่โมเดลเรียนรู้คือความสัมพันธ์เชิงสหสัมพันธ์ระดับพิกเซล หรือกฎทางกายภาพและความสัมพันธ์เชิงเหตุและผลที่สามารถใช้ในการวางแผนและควบคุม?
หากโมเดลเรียนรู้ในระดับพิกเซล มันจะถูกรบกวนได้ง่ายจากรายละเอียด เช่น พื้นผิว แสง และพื้นหลัง ส่งผลให้ประสิทธิภาพการเรียนรู้ต่ำ และยากที่จะเข้าใจความสัมพันธ์เชิงเหตุและผลและกฎทางกายภาพได้อย่างแท้จริง
นี่คือสาเหตุที่ LeCun กล่าวว่า “การทำนายในพื้นที่อินพุตนั้นแย่” และเป็น จุดเริ่มต้นของโมเดลโลกในพื้นที่แฝง

คุณค่าของการแสดงผลแบบ Latent คือมันสามารถบีบอัดอินพุตภาพที่มีมิติสูงและซ้ำซ้อนให้เป็นการแสดงสถานะที่เป็นนามธรรมมากขึ้น กรองรายละเอียดพิกเซลที่ไม่เกี่ยวข้องกับการตัดสินใจออกไปจำนวนมาก และมุ่งเน้นการเรียนรู้ไปที่กฎการเปลี่ยนแปลงที่สำคัญกว่า
อาจกล่าวได้ว่า การเรียนรู้การแสดงผล (Representation Learning) เป็นปัญหาหลักที่สุดในโมเดลโลก
กล่าวอีกนัยหนึ่ง โมเดลโลกในพื้นที่แฝงไม่ยึดติดกับ “ภาพอนาคตจะมีหน้าตาอย่างไร” แต่ให้ความสำคัญกับ “สถานะของโลกวิวัฒนาการอย่างไร” ดังนั้นจึงเหมาะสมกว่าสำหรับการเรียนรู้กฎทางกายภาพและความสัมพันธ์เชิงเหตุและผล
แต่ Vision Future ค้นพบว่า โซลูชันพื้นที่แฝงที่มีอยู่ในปัจจุบันยังขาดขั้นตอนสำคัญ
การแสดงผลแบบ Latent ส่วนใหญ่แม้จะหลุดพ้นจากพิกเซลแล้ว แต่ก็ยังไม่ “เข้าใจวัตถุ” อย่างแท้จริง
หากโมเดลไม่สามารถระบุวัตถุอิสระในฉาก ความสัมพันธ์ระหว่างวัตถุ การเปลี่ยนแปลงใดมาจากมุมมอง และการเปลี่ยนแปลงใดมาจากปฏิสัมพันธ์ การเรียนรู้กฎทางกายภาพโดยตรงในพื้นที่แฝงก็ยังคงยากอย่างยิ่ง
เหตุผลง่ายมาก: โดยพื้นฐานแล้วกฎทางกายภาพไม่ได้กระทำต่อพิกเซล แต่กระทำต่อวัตถุ โครงสร้าง และความสัมพันธ์
เราได้สร้างภาพเพื่อให้เข้าใจ:

△ AI สร้าง
จางเหล่ยเชื่อว่า การแสดงผลแบบ Latent ต้องมีความสามารถในการเข้าใจวัตถุ จึงจะเรียนรู้กฎทางกายภาพได้ดีขึ้น
โซลูชันของ Vision Future คือ การนำความสามารถในการเข้าใจวัตถุเข้าสู่การเรียนรู้การแสดงผลแบบ Latent ผ่านการรับรู้ 2D การแสดงผล 3D การแบ่งส่วน และความเข้าใจเชิงความหมาย เพื่อให้การแสดงผลแบบ Latent มีความรู้พื้นฐานว่า “โลกประกอบด้วยวัตถุใดบ้าง วัตถุเหล่านั้นอยู่ในตำแหน่งเชิงพื้นที่ใด มีคุณสมบัติเชิงความหมายอะไร” จากนั้นจึงเรียนรู้การเปลี่ยนแปลงสถานะและวิวัฒนาการทางกายภาพที่ขับเคลื่อนโดยการกระทำต่อไป
ด้วยการแนะนำข้อมูลโครงสร้างของความเข้าใจวัตถุ โมเดลสามารถบีบอัดข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น และเรียนรู้กฎภายในที่สำคัญยิ่งขึ้นจากข้อมูลมหาศาล
ด้วยวิธีนี้ สิ่งที่โมเดลเรียนรู้จะไม่ใช่การแสดงผลแบบกล่องดำอีกต่อไป แต่เป็นโลก Latent ที่มีโครงสร้างซึ่งมีลักษณะเชิงวัตถุ เชิงพื้นที่ และเชิงกายภาพมากขึ้น
ดังนั้น Vision Future จึงเรียกเส้นทางของตนว่า “โมเดลโลกดั้งเดิมทาง视觉” ซึ่งเป็นความแตกต่างสำคัญจากโมเดลโลกในพื้นที่แฝงอื่นๆ
เพื่อให้บรรลุโมเดลโลกทางกายภาพที่สามารถนำไปใช้ได้จริง จางเหล่ยเชื่อว่าโมเดลประเภทนี้จำเป็นต้องมีคุณสมบัติหลักสามประการพร้อมกัน:
Object-Centric: ยึดวัตถุเป็นศูนย์กลาง
การแสดงผลต้องไม่หยุดอยู่ที่ระดับพิกเซล ต้องมีความสามารถในการเข้าใจวัตถุ สามารถระบุได้ว่าโลกประกอบด้วยวัตถุใดบ้าง และวัตถุเหล่านั้นมีปฏิสัมพันธ์กันอย่างไร เฉพาะในกรณีนี้เท่านั้นที่โมเดลจะมีโอกาสเรียนรู้กฎทางกายภาพที่เสถียรกว่าและสามารถสรุปทั่วไปได้ดีกว่าจากข้อมูลมหาศาล แทนที่จะหยุดอยู่ที่ความสัมพันธ์เชิงสหสัมพันธ์ทาง视觉ผิวเผิน

Action-Aligned: การจัดแนวการกระทำข้ามตัวตน
จัดแนวข้อมูลการกระทำของมือมนุษย์ การทำงานของแขนกล และตัวตนหุ่นยนต์ต่างๆ ให้เป็นพื้นที่การแสดงผลที่เป็นหนึ่งเดียวกัน เพื่อใช้ข้อมูลปฏิสัมพันธ์ของมนุษย์จำนวนมากได้อย่างมีประสิทธิภาพมากขึ้น ช่วยให้หุ่นยนต์เรียนรู้วิธีการโต้ตอบกับสภาพแวดล้อมได้เร็วขึ้น
Causality-Driven: ขับเคลื่อนด้วยเหตุและผล
โมเดลโลกต้องเรียนรู้ว่า “หลังจากดำเนินการกระทำบางอย่าง สถานะของโลกจะเปลี่ยนแปลงอย่างไร” เฉพาะเมื่อมีความสามารถในการสร้างแบบจำลองเชิงเหตุและผลนี้เท่านั้น โมเดลโลกจึงจะสามารถรวมเข้ากับการเรียนรู้แบบเสริมกำลังได้อย่างแท้จริง สนับสนุนให้หุ่นยนต์ปรับปรุงความสามารถในการตัดสินใจ การเรียนรู้ และการสรุปทั่วไปอย่างต่อเนื่องในขณะที่มีปฏิสัมพันธ์กับสภาพแวดล้อมอย่างต่อเนื่อง
จางเหล่ยกล่าวว่า Vision Future มีความแม่นยำในการตัดสินทิศทางเสมอ เพียงแต่ระดับความคึกคักของสนามแข่งนั้นเกินความคาดหมายในตอนแรก
อย่างไรก็ตาม สิ่งนี้กลับยืนยันถึงความ前瞻性ของการที่ Vision Future ยึดมั่นในเส้นทางพื้นที่แฝง — เมื่อทุกคนมุ่งหน้าไปยังพื้นที่พิกเซล Vision Future ก็ได้สะสมความได้เปรียบในฐานะผู้บุกเบิกในทิศทางที่ยากกว่าและถูกต้องกว่าแล้ว
จากโมเดล视觉ขนาดใหญ่ระดับโลกตัวแรก สู่โมเดลโลกดั้งเดิมทาง视觉
ความเข้าใจอย่างลึกซึ้งของจางเหล่ยเกี่ยวกับโมเดลโลกไม่ได้เกิดขึ้นจากความว่างเปล่า
เบื้องหลังนี้คือความสามารถในการ理解ทาง视觉ที่ยึดวัตถุเป็นศูนย์กลางซึ่ง Vision Future สร้างขึ้นมาเป็นเวลานาน และเป็นผลลัพธ์จากการสะสมของทีมงานหลายปี
Vision Future ทีมหลักมาจาก ทีม DINO-X ซึ่งบ่มเพาะจากศูนย์วิจัยวิทัศน์คอมพิวเตอร์และหุ่นยนต์ (IDEA CVR) ของสถาบันวิจัยเศรษฐกิจดิจิทัลเขตอ่าวกวางตุ้ง-ฮ่องกง-มาเก๊า
ทีมนี้ได้เปิดตัวผลงานที่เป็นตัวแทนอย่างต่อเนื่อง เช่น DINO, Grounding DINO, DINO-X ผลักดันการพัฒนา การตรวจจับวัตถุในโลกเปิด และความเข้าใจวัตถุในระดับ视觉

Grounding DINO ได้กลายเป็นหนึ่งในเหตุการณ์สำคัญที่สำคัญในด้านการตรวจจับชุดเปิด ในขณะที่ DINO-X เป็นโมเดล视觉ขนาดใหญ่ระดับโลกที่นำทางสำหรับความเข้าใจวัตถุในโลกเปิด

ในเดือนเมษายนปีนี้ ในเอกสาร Vision Banana ที่ Google DeepMind ตีพิมพ์ มีการกล่าวถึงโมเดล DINO-X ของ Vision Future หลายครั้ง
ผู้เขียนเอกสารนี้รวมถึง He Kaiming และ Xie Saining ในงาน SA-CO/Gold instance segmentation เน้นย้ำว่า DINO-X เป็น SOTA ระดับโลกสำหรับการถ่ายโอนความเข้าใจวัตถุแบบ zero-shot

นอกจากนี้ เอกสารชุด DINO ยังถูกอ้างอิงอย่างกว้างขวางโดย SAM2/SAM3 ของ Meta, ชุด Qwen ของ Alibaba, ชุด Seed ของ ByteDance สิ่งนี้บ่งชี้ว่าเกณฑ์ของโมเดลพื้นฐานความเข้าใจวัตถุทาง视觉นั้นสูงมาก ต้องอาศัยความสามารถในการฝึกฝนโมเดล视觉พื้นฐานขนาดใหญ่ที่แข็งแกร่ง
ตั้งแต่ปี 2023 เป็นต้นมา Vision Future ได้รักษาสถิติการนำที่ยาวนานที่สุดในตารางอันดับความเข้าใจวัตถุเปิด ด้วยซีรีส์ Grounding-DINO และ DINO-X
ที่น่าสนใจคือ DINO แปลว่า “ไดโนเสาร์” และไดโนเสาร์ก็กลายเป็นสัญลักษณ์ของโมเดลต่างๆ ของทีมนี้
พวกเขายังเปิดตัวโมเดล T-Rex2 (ECCV 2024) สำหรับการตรวจจับวัตถุตามคำแนะนำทาง视觉 ซึ่งก็คือทีเร็กซ์ในตระกูลไดโนเสาร์
ปัญหาหลักที่ซีรีส์ DINO แก้ไขคือความสามารถพื้นฐานที่โมเดลโลกแบบ Object-Centric ต้องการมากที่สุด: ทำให้เครื่องจักร “มองเห็น” อย่างแท้จริงว่าโลกประกอบด้วยวัตถุใดบ้าง วัตถุเหล่านั้นอยู่ที่ไหน และมีความสัมพันธ์กันอย่างไร

เส้นทางของ Vision Future เน้นย้ำความสามารถในการแสดงผลแบบ Object-Centric ที่มุ่งสู่ปฏิสัมพันธ์ในโลกจริงมากขึ้น นั่นคือการสร้างความสามารถในการสร้างแบบจำลองที่เป็นหนึ่งเดียวโดยรอบ “วัตถุคืออะไร อยู่ที่ไหน ถูกอ้างอิงอย่างไร และมีความสัมพันธ์กับสภาพแวดล้อมอย่างไร”
บนพื้นฐานนี้ Vision Future ไม่เพียงแต่สร้างความได้เปรียบที่สำคัญในการตรวจจับและแบ่งส่วนวัตถุ 2D ความเข้าใจวัตถุ 3D และความเข้าใจเชิงความหมาย แต่ยังขยายไปสู่ความเข้าใจการกระทำ 3D อย่างต่อเนื่อง ก่อตัวเป็นห่วงโซ่ความสามารถที่สมบูรณ์ตั้งแต่การมองเห็นวัตถุ ไปจนถึงการเข้าใจวัตถุ และไปจนถึงการเข้าใจปฏิสัมพันธ์ระหว่างการกระทำกับวัตถุ

ในแง่นี้ การที่ Vision Future ทำโมเดลโลกไม่ใช่การเปลี่ยนทิศทาง แต่เป็นการขยายต่อเนื่องตามธรรมชาติจากพื้นฐานทางเทคนิคเดิม
ความสำเร็จของโมเดลเดี่ยวอาจ归结เป็นโชค แต่การสร้างโมเดล视觉พื้นฐานความเข้าใจวัตถุระดับโลกอย่าง Grounding DINO, DINO-X อย่างต่อเนื่อง ยิ่งพิสูจน์ได้ว่าทีมงานมีความสามารถพื้นฐานที่成熟แล้ว
สำหรับทีมที่专注于โมเดลพื้นฐาน นั่นหมายความว่ามันไม่เพียง “สร้างโมเดล” ได้ แต่ยังเชี่ยวชาญวิธีการจัดระเบียบข้อมูล กระบวนทัศน์การฝึกฝนล่วงหน้า การถ่ายโอนความสามารถ และการขยายงานอย่างเป็นระบบ นี่คือการแสดงให้เห็นถึงความสามารถในการฝึกฝนโมเดลพื้นฐานที่น่าเชื่อถือที่สุด
ความสามารถนี้เริ่มนำไปใช้ในระดับผลิตภัณฑ์แล้ว ในวันที่ 15 พฤษภาคม Vision Future และ Baidu Intelligent Cloud ได้ร่วมกันเปิดตัว EgoTwin ในงาน 2026 Global AI Terminal Exhibition ซึ่งเป็นเอ็นจิ้นการจัดแนว 3D มือมนุษย์ Ego คุณภาพสูงล่าสุดของโลก

หากกล่าวว่าโมเดลโลกดั้งเดิมทาง视觉เป็นเส้นทางเทคโนโลยีระยะยาวของ Vision Future แล้ว EgoTwin ก็เป็นจุดเริ่มต้นเชิงผลิตภัณฑ์แรกของเส้นทางนี้ในด้านข้อมูลหุ่นยนต์มีตัวตน
EgoTwin มุ่งตรงไปยังปัญหาที่ยากที่สุดของอุตสาหกรรม — การแปลงข้อมูลการทำงานของมือมนุษย์เป็นข้อมูลฝึกอบรมที่หุ่นยนต์สามารถใช้ได้ โดยประสิทธิภาพการรวบรวมข้อมูลสูงกว่าโซลูชันหลักในอุตสาหกรรมถึง 3.75 เท่า
ที่สำคัญกว่านั้น EgoTwin ไม่ใช่แค่เครื่องมือรวบรวมข้อมูลเท่านั้น ในด้านหนึ่งมันแปลงวิดีโอการทำงาน Ego ของมนุษย์เป็นสินทรัพย์ข้อมูลที่หุ่นยนต์สามารถเรียนรู้ได้ ในอีกด้านหนึ่งมันยังมอบฐานการฝึกอบรมแบบ Action-Aligned สำหรับโมเดลโลก กลายเป็นก้าวแรกของวงจรปิด “เครื่องยนต์ข้อมูล — การปรับปรุงโมเดล — การนำไปใช้กับตัวตน”

วิสัยทัศน์ที่ใหญ่กว่านั้น จางเหล่ยกล่าวตรงไปตรงมา: โมเดลโลกจะกลายเป็นโครงสร้างพื้นฐานหลักของ AI ในโลกกายภาพ
ในมุมมองของเขา ในโลกดิจิทัล โมเดลภาษาขนาดใหญ่กำลังมีบทบาทคล้าย OS (ระบบปฏิบัติการ): ชั้นล่างคือพลังประมวลผล GPU ชั้นกลางคือโมเดลภาษาขนาดใหญ่ และชั้นบนคือ Agent ต่างๆ
เส้นทางนี้ได้รับการพิสูจน์อย่างเพียงพอแล้ว ไม่ว่าจะในด้าน Coding หรือรูปแบบ Agent อื่นๆ ล้วนพิสูจน์ความเป็นไปได้
ในโลกกายภาพ การเปลี่ยนแปลงกระบวนทัศน์ที่คล้ายคลึงกันกำลังเกิดขึ้น อย่างไรก็ตาม โครงสร้างพื้นฐานของโลกกายภาพนอกจากพลังประมวลผลแล้ว ยังรวมถึงตัวตนของหุ่นยนต์ด้วย
เหนือชั้นนี้ ทีมโมเดลโลกที่นำโดยจางเหล่ยกำลังเปิดกระบวนทัศน์ Learning From Experience หุ่นยนต์สามารถเป็นอิสระและมีประสิทธิภาพมากขึ้นในระหว่างกระบวนการเรียนรู้ จึงได้รับทักษะภารกิจทางกายภาพที่แข็งแกร่งขึ้น
นักวิทยาศาสตร์ของ NVIDIA Jim Fan ชี้ให้เห็นเมื่อต้นปีว่า การทำนายคำถัดไปเป็นกระบวนทัศน์การฝึกฝนล่วงหน้าแบบแรก ตอนนี้เรากำลังเผชิญกับการเปลี่ยนแปลงกระบวนทัศน์ครั้งที่สอง: การทำนายสถานะทางกายภาพถัดไป
เขาทำนายว่า ปี 2026 จะถูกบันทึกไว้ในประวัติศาสตร์ เป็นปีแรกที่โมเดลโลกวางรากฐานที่แท้จริงสำหรับเทคโนโลยีหุ่นยนต์

จางเหล่ยเห็นด้วยกับการตัดสินนี้ พร้อมเน้นย้ำว่า: 视觉 เป็นช่องทางข้อมูลหลักของปัญญาทางกายภาพ และเป็นทิศทางที่ได้เปรียบสำคัญสู่โมเดลโลก
ความสามารถที่ Vision Future สะสมมาเป็นเวลานานในด้านการตรวจจับ การ识别 การแบ่งส่วน การติดตาม ความเข้าใจวัตถุ 3D ความเข้าใจการกระทำ 3D และการรับรู้โลกเปิด ไม่เพียงช่วยให้เครื่องจักร “มองเห็น” โลกได้ดีขึ้น แต่ยังเป็นรากฐานที่มั่นคงสำหรับการสร้างแบบจำลองโลก การซ้อมอนาคต และการสนับสนุนการกระทำ
เป้าหมายระดับโลก ดึงดูดบุคลากรระดับโลก
การจะสร้างโมเดลระดับโลก ต้องมีทีมระดับโลกก่อน
ผู้ก่อตั้งและ CEO ของ Vision Future จางเหล่ย คือ底色ที่สำคัญที่สุดของทีมนี้

ดร. จางเหล่ย เป็นศิษย์ของศาสตราจารย์จาง ปั๋ว ผู้บุกเบิก AI ของจีน และเคยทำงานภายใต้การนำของนายเซิน เซียงหยาง ผู้เชี่ยวชาญระดับโลกด้านวิทยาการคอมพิวเตอร์และ AI และสมาชิกต่างประเทศของ National Academy of Engineering สหรัฐอเมริกา
ในฐานะ IEEE Fellow เขาได้ตีพิมพ์บทความในการประชุมและวารสารระดับสูงมากกว่า 200 ฉบับ มียอดอ้างอิงรวมใน Google Scholar เกิน 73,000 ครั้ง
เขาเคยดำรงตำแหน่งนักวิจัยหลักที่ Microsoft Research Asia, Microsoft Research Redmond และแผนกผลิตภัณฑ์ที่เกี่ยวข้องกับวิทัศน์คอมพิวเตอร์ นำทีมทำการวิจัยพื้นฐานด้านวิทัศน์คอมพิวเตอร์และการประยุกต์ใช้ในการวิเคราะห์ภาพขนาดใหญ่ การตรวจจับวัตถุ และความเข้าใจ multimodal ทาง视觉-ภาษา ผลงานวิจัยถูกนำไปใช้อย่างกว้างขวางใน Bing Search และแพลตฟอร์มคลาวด์ Cognitive Services ของ Microsoft

ที่น่าสนใจคือ ก่อนที่จางเหล่ยจะศึกษาต่อในระดับปริญญาเอก เขาเป็นหนึ่งในกลุ่มแรกๆ ในจีนที่เข้าร่วมการวิจัยหุ่นยนต์เคลื่อนที่ในร่ม
วนกลับมาอีกครั้ง จากหุ่นยนต์สู่วิทัศน์คอมพิวเตอร์ และจาก视觉กลับมาสู่หุ่นยนต์ เส้นทางนี้ไม่ใช่เรื่องบังเอิญ แต่ถูกขับเคลื่อนโดยตรรกะที่สอดคล้องกันในการตัดสินของเขาเกี่ยวกับ AI ในโลกกายภาพ
ในปี 2021 จางเหล่ยเข้าร่วม IDEA Research Institute นำทีมพัฒนาโมเดล视觉ขนาดใหญ่ DINO-X เพื่อ赋予เครื่องจักรความสามารถในการเข้าใจระดับวัตถุ
ต่อมา เขาบ่มเพาะ Vision Future และนำความสามารถนี้สู่สนามแข่งโมเดลโลก
Vision Future ยังได้เชิญ ศาสตราจารย์จาง ปั๋ว และศาสตราจารย์เซิน เซียงหยาง มาเป็นที่ปรึกษาทางวิทยาศาสตร์ สมาชิกหลักของทีมส่วนใหญ่มาจากมหาวิทยาลัยชั้นนำ เช่น Tsinghua, Microsoft, Tencent และบริษัทเทคโนโลยีขนาดใหญ่ทั้งในและต่างประเทศ
ตามที่ Vision Future เปิดเผย ทีมงานประมาณ 50% มีพื้นฐานจาก Tsinghua ประมาณ 20% มีประสบการณ์ด้านการขับขี่อัจฉริยะ 80% เป็นบุคลากรวัยหนุ่มสาวรุ่น 90s และ 100% มีประสบการณ์ในองค์กรเทคโนโลยีชั้นนำในต่างประเทศหรือในประเทศ
เมื่อเร็วๆ นี้ Vision Future ในปักกิ่งได้ดึงดูดผู้มีความสามารถด้านอัลกอริทึมรุ่นใหม่ที่โดดเด่นในด้านหุ่นยนต์และการเรียนรู้แบบเสริมกำลังในประเทศเข้าร่วมอีกหลายคน
การเลือกเข้าร่วมด้วยความสมัครใจของพวกเขานั้น本身就是การลงคะแนนเสียง — ลงคะแนนให้กับการตัดสินทางเทคนิคของ Vision Future ในทิศทางโมเดลโลก และเป็นความเชื่อมั่นว่าทีมนี้จะสามารถสร้างความสำเร็จอีกครั้ง

การทำโมเดลโลกนั้นยาก การทำโมเดลโลกในพื้นที่แฝงนั้นยากยิ่งกว่า
ทีม Vision Future ที่เคยสร้างโมเดล视觉ขนาดใหญ่ระดับโลกตัวแรก กำลังทุ่มเทความเชื่อมั่นแบบเดียวกันให้กับโมเดลโลกในพื้นที่แฝง
จางเหล่ยและ Vision Future ของเขากำลังเดินบนเส้นทางที่จะนำโมเดลโลกในพื้นที่แฝงไปสู่จุดสิ้นสุด เผชิญความยากและก้าวไปข้างหน้า
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/36092
