รากฐานแห่งปัญญา: จากคอมไพล์ข้อมูลสู่ปัญญาเชิงกายภาพ ไขปริศนาการฝึกอบรม AI ในโลกกายภาพ

1 hour ago • ข่าวสารอุตสาหกรรม AI • 11 views

ในช่วงเวลาที่ผ่านมา บริษัทหลายแห่งในแวดวง embodied intelligence ต่างรู้สึกถึงความเร่งด่วน

ที่ฝั่งตรงข้ามของมหาสมุทร Generalist AI ได้เปิดเผยความก้าวหน้าที่สร้างความสนใจในอุตสาหกรรม: โมเดล GEN-1 ของพวกเขาซึ่งฝึกฝนด้วยข้อมูลพฤติกรรมมนุษย์ในโลกจริงประมาณ 500,000 ชั่วโมง มีอัตราความสำเร็จในหลายงานเกิน 99% Pete Florence ผู้ก่อตั้งและอดีตนักวิจัยอาวุโสของ DeepMind กล่าวในภายหลังว่า “เมื่อขนาดข้อมูลใหญ่เพียงพอ และทีมสามารถควบคุมโมเดลพื้นฐานได้อย่างสมบูรณ์ ขอบเขตทางเทคโนโลยีจะถูกผลักดันด้วยความเร็วที่เร็วขึ้น” สิ่งนี้ถูกมองว่าเป็นการยืนยันเพิ่มเติมต่อการตัดสินใจเกี่ยวกับกฎมาตราส่วน (scaling law) ของ embodied intelligence ที่เขาเคยกล่าวไว้ก่อนหน้านี้

รากฐานแห่งปัญญา: จากคอมไพล์ข้อมูลสู่ปัญญาเชิงกายภาพ ไขปริศนาการฝึกอบรม AI ในโลกกายภาพ

อย่างไรก็ตาม บริษัทส่วนใหญ่ยังคงอยู่บนเส้นทางการไล่ตามขนาด โดยทั่วไปในอุตสาหกรรมเชื่อว่า เมื่อขนาดและคุณภาพของข้อมูลข้ามผ่านเกณฑ์หนึ่ง กฎการปรับปรุงประสิทธิภาพโมเดลตามการขยายขนาดมีแนวโน้มที่จะคงที่

แต่ในวันนี้ที่ปริมาณข้อมูลเพิ่มขึ้นอย่างรวดเร็ว บริษัทหลายแห่งติดอยู่กับปัญหาคุณภาพข้อมูล ดังที่ผู้เชี่ยวชาญในอุตสาหกรรมกล่าว ปัจจุบันบริษัทหลายแห่งไม่เห็นผลของกฎมาตราส่วนที่ชัดเจน เนื่องจากคุณภาพข้อมูลไม่ดีและมีสัญญาณรบกวนมากเกินไป “ก่อนหน้านี้ 80% ของงานอยู่ที่อัลกอริทึมโมเดล ตอนนี้ 80% ของงานอยู่ที่ข้อมูล”

การประเมินนี้ไม่ใช่การพูดเกินจริง disembodied intelligence สามารถพึ่งพาข้อมูลภาษาที่มนุษย์ “คอมไพล์” โดยไม่รู้ตัวบนอินเทอร์เน็ตเพื่อการฝึกฝนอย่างรวดเร็ว แต่ข้อมูลจากโลกกายภาพไม่เคยถูกคอมไพล์อย่างเป็นระบบมาก่อน กฎเกณฑ์ที่แฝงอยู่ในประสบการณ์การทำงานถูกฝังลึกอยู่ในสัญญาณรบกวนและไม่ได้รับการจัดระเบียบ เครื่องจักรไม่สามารถเรียนรู้ความสามารถจากโลกได้โดยอัตโนมัติ และประสบการณ์ของมนุษย์ก็ไม่ไหลเข้าสู่เครื่องจักรตามธรรมชาติ ระหว่างทางต้องผ่านกระบวนการเก็บรวบรวม แปลความหมาย และจัดระเบียบด้วยมือที่ยุ่งยาก จากนั้นจึงพูดถึง “การฝึกฝน” ได้ นี่คือสาเหตุที่วงจรการพัฒนาโมเดล embodied มักคำนวณเป็นเดือนหรือแม้แต่ปี ความซับซ้อนของมันไม่ควรประเมินต่ำไป

แต่ความซับซ้อนนี้เอง ที่ได้เปิดช่องโหว่แห่งโอกาสขนาดใหญ่ระหว่างโลกกายภาพกับโมเดลอัจฉริยะ ใครก็ตามที่สามารถแปลงข้อมูลโลกกายภาพที่ยุ่งเหยิงให้เป็นอินพุตการฝึกที่มีโครงสร้างชัดเจน และสร้างวงจร feedback ที่มีประสิทธิภาพได้ จะมีโอกาสเติมเต็มช่องว่างระดับโครงสร้างพื้นฐานนี้ และก้าวขึ้นสู่เส้นทางเติบโตที่รวดเร็ว

นี่คือสนามแข่งเกิดใหม่ขนาดใหญ่

Zhiyu Jishi (智域基石) ที่เริ่มปรากฏตัวขึ้นเมื่อไม่นานมานี้ คือบริษัทที่เติบโตมาจากระดับนี้ แม้จะก่อตั้งมาเพียงสามเดือน บริษัทได้รับเงินลงทุนจากสถาบันการลงทุนหลายแห่ง และมีคำสั่งซื้อในมือขนาดที่น่าพอใจ

ต่างจากบริษัทที่ยึดแนวคิดดั้งเดิม “เอาท์ซอร์สการติดป้ายกำกับ (annotation)” และพึ่งพาการเพิ่มจำนวนคนและสถานที่เพื่อเก็บรวบรวมข้อมูล Zhiyu Jishi ให้ความสนใจมากขึ้นกับวิธีการสร้างความสามารถที่เป็นระบบ เพื่อแปลงแรงงานของมนุษย์ในโลกกายภาพให้เป็นดิจิทัล และแปลงข้อมูลดิบเป็นอินพุตการฝึกของโมเดลด้วยต้นทุนที่ต่ำลง

เพื่อจุดประสงค์นี้ พวกเขาเสนอแนวคิด “การคอมไพล์ข้อมูล (data compilation)” การคอมไพล์ข้อมูล หมายถึงการสร้าง “ไปป์ไลน์การกลั่น” อัตโนมัติสำหรับข้อมูลดิบในโลกกายภาพที่มีเอนโทรปีสูง (high-entropy), แบบอะซิงโครนัส (asynchronous) และแบบมัลติโมดัล (multimodal) ผ่านการลดสัญญาณรบกวน การจัดตำแหน่ง การแยกย่อยเป็น “อะตอมของทักษะ (skill atoms)” และติดป้ายกำกับความหมายที่สามารถติดตามได้ เพื่อให้อัลกอริทึมเข้าใจกฎทางกายภาพและความตั้งใจในการกระทำอย่างแท้จริง และในที่สุดก็รวมตัวเป็นโมเดลที่ใช้งานได้

เช่นเดียวกับที่ระบบปฏิบัติการให้อินเทอร์เฟซมาตรฐานระหว่างฮาร์ดแวร์และแอปพลิเคชัน ชั้นคอมไพล์เลอร์นี้มีเป้าหมายเพื่อกำหนดมาตรฐานแบบ “คอมไพล์เลอร์” ระหว่างโลกกายภาพกับโมเดลและความสามารถของตัวหุ่นยนต์ (本体) นี่ไม่ใช่การเอาท์ซอร์สการเก็บรวบรวมข้อมูลแบบง่ายๆ แต่เป็นการสร้างระบบระดับอุตสาหกรรม ใครก็ตามที่สามารถสร้างระบบนี้ขึ้นมาได้ จะมีโอกาสกลายเป็น “จุดเข้าใช้งานความสามารถ (ability entry point)” ในส่วนต้นน้ำของการฝึกโมเดล กระโดดจากบทบาทแรงงานที่มีมูลค่าเพิ่มต่ำ ขึ้นสู่ชั้นโครงสร้างพื้นฐานที่มีมูลค่าสูง

เพื่อทำความเข้าใจเส้นทางและข้อได้เปรียบที่เฉพาะเจาะจงของ Zhiyu Jishi เราได้พูดคุยเชิงลึกกับทีมผู้ก่อตั้งของพวกเขา

โลกกายภาพ ไม่ยอมรับภาพลวงตา (hallucination)

ในวันนี้ที่โมเดลสร้างโค้ดกลายเป็นเครื่องมือทั่วไป เราเคยชินกับวิธีการทำงานแบบ “หนึ่งคำสั่ง สร้างโค้ดหมื่นบรรทัด” แต่ในโลกกายภาพ ความฝันแบบเดียวกัน (เช่น คำสั่งเดียวทำความสะอาดบ้านทั้งหลัง) ยังไม่เป็นจริง

สาเหตุพื้นฐานคือ: โลกกายภาพไม่ยอมรับภาพลวงตา โค้ดสามารถย้อนกลับได้ไม่จำกัด หากโมเดลขนาดใหญ่ (large model) ให้ผลลัพธ์ผิดพลาดก็เพียงแค่แก้ไข prompt และลองใหม่ แต่เมื่อหุ่นยนต์หยิบแก้วน้ำ หากมือลื่น น้ำก็หกจริงๆ ทุกครั้งที่ตัดสินใจมาพร้อมกับผลที่ตามมาที่ไม่สามารถเพิกถอนได้

ดังนั้น AI ทางกายภาพจึงพิถีพิถันอย่างมากกับคุณภาพข้อมูล หากข้อมูลมีปัญหา ผลลัพธ์ของโมเดลจะผิดเพี้ยนไปไกล อย่างไรก็ตาม สถานการณ์ในอุตสาหกรรมคือ: ตั้งแต่ปีนี้เป็นต้นมา ข้อมูลดิบไม่ใช่สิ่งที่หายากอีกต่อไป จุดที่เจ็บปวดจริงๆ คือการขาดอินพุตการฝึกที่สามารถเพิ่มอัตราความสำเร็จของงานได้อย่างมีประสิทธิภาพ ในบันทึกทางกายภาพที่เก็บรวบรวมมาจำนวนมาก มีปัญหาการสูญเสียเฟรม (丢帧), การรับแสงผิดปกติ, การกระทำที่ไม่มีผล, เซ็นเซอร์ไม่ประสานเวลา ฯลฯ หาก “ขยะข้อมูล” เหล่านี้ถูกนำไปใช้ฝึกฝนโดยตรง จะไม่เพียงแต่ทำให้โมเดลไม่สามารถเรียนรู้ความสัมพันธ์เชิงเหตุผลที่ถูกต้อง แต่ยังสิ้นเปลืองพลังการคำนวณ และอาจนำไปสู่พฤติกรรมของโมเดลที่ควบคุมไม่ได้

อย่างไรก็ตาม การแปรรูปข้อมูลดิบเป็นอินพุตการฝึกที่ใช้งานได้ ไม่ใช่แค่การ “ทำความสะอาด” หรือ “ติดป้ายกำกับ” ที่จะแก้ไขได้

ประการแรก ข้อมูลหุ่นยนต์มักมีลักษณะเป็นมัลติโมดัล, การเชื่อมโยงกันสูง (strong coupling), การสุ่มตัวอย่างแบบอะซิงโครนัส ตัวอย่างเช่น เมื่อแขนกลยื่นไปหาแก้ว กล้องอาจบันทึกภาพที่ 30Hz, IMU ส่งออกข้อมูลความเฉื่อยที่ 200Hz หรือสูงกว่า ตัวเข้ารหัสข้อต่อ (joint encoder) ก็ทำงานตามนาฬิกาการสุ่มตัวอย่างของตัวเอง อินพุตการฝึกในอุดมคติจำเป็นต้องซิงโครไนซ์ประทับเวลา (timestamp) ของเซ็นเซอร์หลายตัวในมิติเวลา และทำการสอบเทียบและจัดตำแหน่งระบบพิกัดระหว่างการมองเห็น, ตำแหน่งปลายแขน (end effector pose), แรง/สัมผัส กับสถานะของข้อต่อในมิติพื้นที่ มิฉะนั้นจะเกิดปรากฏการณ์ไม่ตรงกัน เช่น “มือสัมผัสแก้วแล้ว แต่การมองเห็นยังแสดงระยะห่างอยู่” การป้อนข้อมูลที่ไม่ตรงกันในกาล-อวกาศ (spatiotemporal mismatch) เข้าไปในโมเดล มีแนวโน้มสูงที่จะทำให้มันเรียนรู้การจับคู่การรับรู้-การกระทำ (perception-action mapping) ที่ผิดพลาด

แม้ว่าจะแก้ไขปัญหา “ชั้นกายภาพ” เช่น การจัดตำแหน่งกาล-อวกาศได้แล้ว ข้อมูลดิบยังคงใช้งานโดยตรงได้ยากเนื่องจากขาดความหมาย วิดีโอของหุ่นยนต์ที่ “หยิบ ยก วาง” แก้วน้ำ สำหรับอัลกอริทึมแล้วเป็นเพียงชุดของการเปลี่ยนแปลงพิกเซลและเส้นโค้งมุมข้อต่อ มันไม่เข้าใจว่า “นี่คือการหยิบแก้วน้ำ” ยิ่งไม่รู้ว่า “ทำไมต้องหยิบ” หรือ “อะไรคือความสำเร็จ” การใช้ข้อมูลประเภทนี้ฝึกฝนโดยตรง พารามิเตอร์ของโมเดลยากที่จะลู่เข้า (converge) ไปสู่การจับคู่ที่ถูกต้องระหว่างความตั้งใจของงานกับโครงสร้างการกระทำ ส่งผลให้ประสิทธิภาพการฝึกต่ำหรือพฤติกรรมควบคุมไม่ได้

เมื่อระดับปริมาณข้อมูลถึงล้านล้านชั่วโมง ความท้าทายที่แท้จริงเพิ่งจะปรากฏ ปัญหาไม่ใช่แค่ความซับซ้อนทางเทคนิคอีกต่อไป แต่ต้นทุนเริ่มเพิ่มขึ้นอย่างรวดเร็ว ทุกขั้นตอน เช่น การตรวจสอบคุณภาพ การจัดตำแหน่ง การคัดกรอง การคอมไพล์ใหม่ ต่างก็ใช้ทรัพยากรไป ต้นทุนที่เพิ่มขึ้นแบบระเบิดนี้ เป็นสิ่งที่รูปแบบดั้งเดิม “เพิ่มจำนวนคน” ไม่สามารถรับได้

นอกจากนี้ วงจร feedback ก็เป็นอุปสรรคเช่นกัน แม้อุตสาหกรรมหวังจะนำข้อมูลไปอยู่ในสถานการณ์จริงเพื่อรับ feedback อย่างต่อเนื่อง แต่ทุกสถานที่การผลิตจริงก็เหมือนเกาะข้อมูลโดดๆ ที่มีตรรกะการทำงานและกฎการเข้าถึงเป็นของตัวเอง หากไม่สามารถเชื่อมต่อวงจรนี้ได้ ระบบข้อมูลจะเป็นแบบคงที่ (static) และยากที่จะพัฒนาไปในทิศทางที่แน่นอนอย่างต่อเนื่อง

ในช่วงสองปีที่ผ่านมา อุตสาหกรรมได้ลองเส้นทางที่เป็นไปได้เกือบทั้งหมดแล้ว: บางคนพึ่งพาการเก็บรวบรวมข้อมูลแบบใช้คนจำนวนมาก บางคนหวังพึ่งการจำลอง (simulation) บางคนพยายามสร้างมาตรฐานข้อมูลให้เป็นหนึ่งเดียว บางคนทำการประสานทรัพยากรเพื่อรวบรวมข้อมูลที่กระจัดกระจาย แต่ละเส้นทางต่างก็มีบทบาทในส่วนของตัวเอง แต่แผนการที่แตกเป็นเสี่ยงๆ เหล่านี้เชื่อมต่อกันได้ยาก: ความน่าเชื่อถือของข้อมูลไม่เพียงพอ กระบวนการไม่ก่อตัวเป็นวงจรปิด ต้นทุนไม่สามารถควบคุมได้อย่างมีประสิทธิภาพ รากของปัญหามิได้อยู่ที่ขั้นตอนใดขั้นตอนหนึ่ง แต่เป็นเพราะทั้งสายโซ่จากข้อมูลดิบไปสู่อินพุตการฝึก ยังไม่ถูกแปลงเป็นกระบวนการอุตสาหกรรมที่สามารถนำกลับมาใช้ใหม่ได้อย่างมั่นคงและทำงานต่อเนื่องได้

แน่นอน สิ่งที่ทำได้ยากเช่นนี้ ก็เพราะมีกำแพงสูงมาก มันต้องการทีมงานข้ามสาขาวิชา ต้องเข้าใจทั้งหุ่นยนต์, เชี่ยวชาญทั้งข้อมูลขนาดใหญ่และสถาปัตยกรรมคลาวด์เนทีฟ (cloud-native) และยังต้องสามารถทำให้วงจรปิดเกิดขึ้นจริงได้จริง บางส่วนเป็นปัญหาทางเทคนิค บางส่วนก็เกินขอบเขตของเทคนิคล้วนๆ ในความเป็นจริง เป็นเรื่องยากที่ทีมใดทีมหนึ่งจะมีความสามารถทั้งหมดนี้พร้อมกัน และ Zhiyu Jishi ก็เป็นข้อยกเว้นดังกล่าว

สอง CTO ห้าชั้นไปป์ไลน์คอมไพล์

ทำไมถึงบอกว่า Zhiyu Jishi เป็นข้อยกเว้น? สามารถเห็นได้จากองค์ประกอบของทีม

CEO มีประสบการณ์ทางวิศวกรรมด้านฐานข้อมูลแบบกระจายโอเพ่นซอร์ส (open-source distributed database) ในสอง CTO คนหนึ่งมีประสบการณ์ปฏิบัติตลอดวงจรชีวิตของหุ่นยนต์ตั้งแต่ห้องปฏิบัติการจนถึงการผลิตจำนวนมาก อีกคนหนึ่งเชี่ยวชาญด้านการคอมไพล์ข้อมูลขนาดใหญ่และสถาปัตยกรรมคลาวด์เนทีฟ เป็นคู่หูทางเทคนิคของ CEO มานานหลายปี COO ชำนาญด้านการสร้างระบบนิเวศ สามารถบูรณาการทรัพยากรในห่วงโซ่อุตสาหกรรม เชื่อมต่อกับแนวโน้มนโยบาย และเปลี่ยนข้อได้เปรียบทางเทคนิคให้เป็นโครงสร้างพื้นฐานอุตสาหกรรมที่สามารถนำไปปฏิบัติได้จริง

นักลงทุนของ Zhiyu Jishi ก็ระบุชัดเจนว่า ให้ความสำคัญกับความสามารถแบบผสมผสานของทีมนี้ที่ “เข้าใจสถานการณ์ เข้าใจข้อมูล เข้าใจการนำไปปฏิบัติจริง” และมองว่าพวกเขาเป็นพันธมิตรที่มีคุณค่าทางยุทธศาสตร์อย่างมากในอุตสาหกรรม embodied intelligence

การจัดวางบุคลากรแบบนี้มีเป้าหมายชัดเจน: ยกระดับการคอมไพล์ข้อมูลจาก “โรงงานหัตถกรรม” เป็น “สายการผลิตอัตโนมัติ” และในที่สุดเติบโตเป็นชั้นโครงสร้างพื้นฐานที่ขาดไม่ได้ระหว่างโมเดลกับข้อมูลดิบ

ไปป์ไลน์การคอมไพล์ข้อมูลทั้งหมดแบ่งออกเป็นห้าชั้น

ชั้นแรกคือการตรวจสอบคุณภาพ (质检) ถูกกำหนดให้เป็น “การตรวจสอบวัตถุดิบ (来料检测)” “วัตถุดิบ” ที่นี่มาจากชุดอุปกรณ์เก็บรวบรวมแบบเห็นจากมุมมองตัวเอง (egocentric) ที่พัฒนาขึ้นเอง อุปกรณ์นี้ไม่ใช่โซลูชันที่มีอยู่ในตลาด แต่ถูกออกแบบมาเพื่อบันทึกการรับรู้ของมนุษย์ (สิ่งที่เห็น ได้ยิน สัมผัส) และข้อมูลสามมิติของสภาพแวดล้อมอย่างประสานเวลา แน่นอน นอกจากข้อมูลแบบเห็นจากมุมมองตัวเองแล้ว พวกเขายังเก็บรวบรวมข้อมูลตัวหุ่นยนต์ (本体) อย่างประสานเวลาด้วย ตามคำพูดของพวกเขา มีเพียงการได้ข้อมูลที่ “สมบูรณ์ที่สุดและเป็นข้อมูลดิบที่สุด” เท่านั้น ถึงจะมีพื้นที่สำหรับการคอมไพล์ในขั้นตอนต่อไป

Zhiyu Jishi: จากการคอมไพล์ข้อมูลสู่ Embodied Intelligence แก้ปัญหาการฝึก AI ในโลกกายภาพ (ตอนจบ)

ห้าชั้นไปป์ไลน์คอมไพล์: จากข้อมูลดิบสู่ทรัพย์สินที่ฝึกได้

หลังจากข้อมูลผ่านการตรวจสอบคุณภาพแล้ว Zhiyu Jishi ใช้ชุดไปป์ไลน์คอมไพล์ห้าชั้น เพื่อแปลงบันทึกเซ็นเซอร์ดิบให้เป็นทรัพย์สินที่มีโครงสร้างซึ่งสามารถนำไปใช้ฝึกโมเดลได้โดยตรง

ชั้นที่หนึ่ง: การตรวจสอบคุณภาพ (质检)
การตรวจสอบคุณภาพด้วยมือแบบดั้งเดิมเนื่องจากข้อจำกัดด้านต้นทุนมักใช้การสุ่มตรวจ (抽检) ส่งผลให้ข้อมูลที่มีสัญญาณรบกวนจำนวนมากปะปนเข้าไปในชุดฝึกฝน และส่งผลต่ออัตราความสำเร็จของงาน Zhiyu Jishi ใช้กลยุทธ์การตรวจสอบคุณภาพแบบเต็มจำนวน (全量质检) ดำเนินการตรวจสอบคุณภาพอย่างต่อเนื่องในทุกขั้นตอนของการนำข้อมูลเข้าฐานข้อมูล การคอมไพล์ และการส่งมอบ

หัวใจสำคัญอยู่ที่การใช้สถาปัตยกรรมแบบกระจายคลาวด์เนทีฟ (cloud-native distributed architecture) เพื่อแยกงานตรวจสอบคุณภาพออกเป็นหน่วยคำนวณขั้นต่ำที่สามารถประมวลผล

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/30667

Like (0)

0 0

นักวิชาการชั้นนำด้านปัญญาประดิษฐ์เชิงรูปธรรม ซู เฮ่า เข้าร่วมมหาวิทยาลัยฟู่ตาน นำการก่อตั้งสถาบันวิจัยปัญญาประดิษฐ์ทางกายภาพทั่วไป

Previous 1 hour ago

เมื่อประสิทธิภาพการคำนวณของ H100 เพิ่มขึ้น 200 เท่า: จุดสมดุลของการสร้างแบบจำลองข้อมูลที่มีโครงสร้างควรถูกกำหนดใหม่หรือไม่?

Next 1 hour ago

ข่าวสารอุตสาหกรรม AI

ผู้ก่อตั้ง OpenClaw เข้าร่วม OpenAI: จากข้อพิพาทเครื่องหมายการค้าสู่การปฏิวัติเอเจนต์ AI การสั่นสะเทือนในอุตสาหกรรมที่เกิดจาก ‘ความผิดพลาดระดับยุคสมัย’

ทั่วทั้งอินเทอร์เน็ตเรียกเหตุการณ์นี้ว่า “ความผิดพลาดระดับยุคสมัย” แซม อัลต์แมน และ ปีเตอร์ สไตน์เบอร์เกอร์ ปีเตอร์ สไตน์เบอร์เกอร์ ผู้สร้างเอเจนต์อัจฉริยะระดับปรากฏการ…

2026年2月24日
236000
ข่าวสารอุตสาหกรรม AI

อาลีบาบาปล่อย HappyOyster โมเดลโลกแบบโต้ตอบแบบเรียลไทม์แรกของโลก เปิดยุคใหม่ของการสร้างสรรค์ AI แบบสมจริง

西风发自凹非寺量子位 | 公众号 QbitAI 近期，世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH（Alibaba Token Hub）事业群，正式发布了其首个主动式实时交互世界模型产品——HappyOyster（快乐生蚝）。据官方介绍，HappyOyster基于原生多模态架构，是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功…

1 hour ago
8000
นโยบายใหม่ปี 2025 ของกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศ: ศูนย์แลกเปลี่ยนอินเทอร์เน็ตรูปแบบใหม่จะปรับโครงสร้างเครือข่ายพลังการประมวลผลและรูปแบบการไหลเวียนข้อมูลอย่างไร?

สำนักงานกระทรวงอุตสาหกรรมและเทคโนโลยีสารสนเทศได้ออก “คำแนะนำเกี่ยวกับการเร่งส่งเสริมการพัฒนานวัตกรรมของศูนย์แลกเปลี่ยนอินเทอร์เน็ตรูปแบบใหม่แห่งชาติ” (MIIT Information …

ข่าวสารอุตสาหกรรม AI 2026年2月20日
237000
ข่าวสารอุตสาหกรรม AI

Arcee AI เปิดตัว Trinity-Large-Thinking: โมเดลการอนุมานโอเพนซอร์ส 399 พันล้านพารามิเตอร์ ประสิทธิภาพเทียบเท่า Claude Opus 4.6 ลดต้นทุน 96%

คำสำคัญ: Trinity-Large-Thinking, โมเดลโอเพนซอร์สขนาดใหญ่, Opus 4.6, Arcee AI, Apache 2.0 เมษายน 2026 อุตสาหกรรมโมเดลขนาดใหญ่ทั่วโลกได้เห็นการเปิดตัวครั้งสำคัญที่อาจเปลี่ยนแปลงภูมิท…

2026年4月5日
81000
ข่าวสารอุตสาหกรรม AI

แท้จริง measurement ของ Bytedance เมล็ดพันธ์ 2.0 บมินิ:ยังไงที่ไม่สำคัญหรอ AI รุ่นก็จะประสบความสำเร็จในส่วนสมดุลระหว่างค่าใช้จ่าย-effectiveness และการแสดง?

Bytedance เมื่อเร็วๆนี้อย่างเป็นทางการถูกปล่อยตัวอร์ดของดินแดนเวลทั้ง 2.0 บนชุดซึ่งก็คือ systematically ปรับแต่งแล้วสำหรับขนาดใหญ่-ปรับขนาดสภาพแวดล้อมการผลิตและอร์สฝึกถูกออกแบบมาเพ…

2026年2月25日
346000

รากฐานแห่งปัญญา: จากคอมไพล์ข้อมูลสู่ปัญญาเชิงกายภาพ ไขปริศนาการฝึกอบรม AI ในโลกกายภาพ

โลกกายภาพ ไม่ยอมรับภาพลวงตา (hallucination)

สอง CTO ห้าชั้นไปป์ไลน์คอมไพล์

Zhiyu Jishi: จากการคอมไพล์ข้อมูลสู่ Embodied Intelligence แก้ปัญหาการฝึก AI ในโลกกายภาพ (ตอนจบ)

ห้าชั้นไปป์ไลน์คอมไพล์: จากข้อมูลดิบสู่ทรัพย์สินที่ฝึกได้

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

อาลีบาบาปล่อย HappyOyster โมเดลโลกแบบโต้ตอบแบบเรียลไทม์แรกของโลก เปิดยุคใหม่ของการสร้างสรรค์ AI แบบสมจริง

Arcee AI เปิดตัว Trinity-Large-Thinking: โมเดลการอนุมานโอเพนซอร์ส 399 พันล้านพารามิเตอร์ ประสิทธิภาพเทียบเท่า Claude Opus 4.6 ลดต้นทุน 96%