ทีมจีนคว้าตำแหน่ง “แชมป์สองรายการ” แรกในด้านหุ่นยนต์อัจฉริยะ: Pelican-Unify 1.0 ขึ้นอันดับหนึ่งใน WorldArena ด้วยความแม่นยำ 3D เกือบเต็มคะแนน

8 hours ago • ข่าวสารอุตสาหกรรม AI • 14 views

เมื่อเร็วๆ นี้ ผู้ใช้อินเทอร์เน็ตทั่วโลกต่างพากันเป็น “ผู้ตรวจสอบออนไลน์” ร่วมกันชมการถ่ายทอดสดของหุ่นยนต์ฮิวแมนนอยด์จาก Figure AI บนสายพานลำเลียงในคลังสินค้า โดยมันทำงานอย่างต่อเนื่องเป็นเวลาหลายสิบชั่วโมงในการคัดแยกพัสดุโดยไม่หยุดพัก

หุ่นยนต์ตัวนี้สามารถทำงานในสภาพแวดล้อมการผลิตจริงได้อย่างต่อเนื่อง โดยอาศัยระบบการมองเห็นในตัวของมันเองเท่านั้น ดำเนินการครบวงจรตั้งแต่การระบุ การหยิบจับ ไปจนถึงการคัดแยกด้วยตนเอง ซึ่งถือเป็นก้าวสำคัญครั้งใหม่ในวงการปัญญาประดิษฐ์เชิงกายภาพ (Embodied AI)

เบื้องหลังความก้าวหน้าทางเทคโนโลยีครั้งนี้คือองค์ประกอบหลักของปัญญาประดิษฐ์เชิงกายภาพในปัจจุบัน นั่นคือ ตัวแทนอัจฉริยะ (Agent) ปัจจุบัน หุ่นยนต์ได้เปลี่ยนผ่านเข้าสู่ขั้นตอน “การให้เหตุผลแบบ end-to-end บนพื้นฐานของโมเดล” อย่างเป็นทางการแล้ว

หุ่นยนต์ไม่ได้เป็นเพียงแค่การดำเนินการตามคำสั่งที่ตั้งไว้ล่วงหน้าเพียงอย่างเดียวอีกต่อไป แต่จำเป็นต้องพึ่งพาระบบการมองเห็นของตัวเองในการ识别สภาพแวดล้อม ทำความเข้าใจเป้าหมาย วางแผนการเคลื่อนไหว และทำงานให้สำเร็จในโลกทางกายภาพที่เปลี่ยนแปลงตลอดเวลา

ใครก็ตามที่สามารถช่วยให้หุ่นยนต์ “มองเห็น” โลกได้ดีขึ้น “ให้เหตุผล” กับงาน “จินตนาการ” ผลลัพธ์ และ “ดำเนินการ” ได้ดีกว่า ก็จะเข้าใกล้แกนกลางของปัญญาประดิษฐ์เชิงกายภาพอเนกประสงค์มากขึ้นอีกก้าว

และในช่วงเวลาสำคัญนี้เอง วงการปัญญาประดิษฐ์เชิงกายภาพในประเทศจีนก็มีความก้าวหน้าที่สำคัญเกิดขึ้น

ศูนย์นวัตกรรมหุ่นยนต์ฮิวแมนนอยด์แห่งปักกิ่ง (Beijing Humanoid Robot Innovation Center ซึ่งต่อไปนี้จะเรียกว่า “Beijing Humanoid”) ประสบความสำเร็จอย่างต่อเนื่องในการจัดอันดับระดับโลกของ WorldArena

โมเดลรวมหนึ่งเดียวเชิงกายภาพ (Embodied Unified Model) ของพวกเขา Pelican-Unify 1.0 สามารถขึ้นสู่อันดับสูงสุดของตารางอันดับ WorldArena ได้สำเร็จ โดยครองอันดับหนึ่งในด้านคะแนนรวม EWM Score (EWM Score) และทำคะแนน 3D Accuracy (ความแม่นยำ 3 มิติ) เกือบเต็ม

ทีมจีนคว้าตำแหน่ง "แชมป์สองรายการ" แรกในด้านหุ่นยนต์อัจฉริยะ: Pelican-Unify 1.0 ขึ้นอันดับหนึ่งใน WorldArena ด้วยความแม่นยำ 3D เกือบเต็มคะแนน

ตารางอันดับล่าสุดของ WorldArena

ก่อนหน้านี้ โมเดลโลกเชิงกายภาพ WoW (WoW Embodied World Model) ที่เผยแพร่โดย Beijing Humanoid ได้ขึ้นสู่อันดับสูงสุดในสาขา Data Engine (Data Engine) ของ WorldArena และได้รับการแนะนำอย่างเป็นทางการจาก Hugging Face ต่อมาถูกอ้างอิงโดยทีมงานชั้นนำ เช่น Stanford และ Physical Intelligence (PI) ซึ่งแสดงให้เห็นถึงอิทธิพลทางเทคโนโลยีในทิศทางของโมเดลโลกเชิงกายภาพและ Data Engine

นั่นหมายความว่า Beijing Humanoid กลายเป็นองค์กรเดียวในโลกที่สามารถขึ้นสู่อันดับสูงสุดของสองสาขาหลักของ WorldArena พร้อมกัน และคว้าตำแหน่ง “แชมป์สองสมัย” (Double Crown) รายแรกในสาขาปัญญาประดิษฐ์เชิงกายภาพ ก้าวขึ้นสู่ระดับแนวหน้าของโลกในด้านความสามารถของสมองเชิงกายภาพ

จากผลการจัดอันดับ Pelican-Unify 1.0 ครองอันดับหนึ่งด้วยคะแนน 66.03 ในการประเมินอย่างเข้มงวดของ WorldArena ซึ่งครอบคลุมหลายมิติ เช่น คุณภาพของภาพ คุณภาพการเคลื่อนไหว ความสอดคล้องของเนื้อหา การปฏิบัติตามกฎฟิสิกส์ ความแม่นยำ 3 มิติ และความสามารถในการควบคุม Pelican-Unify 1.0 อยู่ในอันดับหนึ่งโดยรวม แสดงให้เห็นถึงความสามารถที่สมดุลค่อนข้างดี โดยเฉพาะอย่างยิ่งในด้าน 3D Accuracy (ความแม่นยำ 3 มิติ) ทำได้ถึง 98.12 ซึ่งเกือบเต็มคะแนน

นี่แสดงให้เห็นว่าโมเดลนี้มีความสามารถในการสร้างแบบจำลองเชิงพื้นที่ที่ใกล้เคียงกับโลกแห่งความเป็นจริงแล้ว เนื่องจาก 3D Accuracy ไม่ได้ประเมินแค่คุณภาพของภาพที่เรียบง่าย แต่ประเมินความสามารถของโมเดลในการทำความเข้าใจความสัมพันธ์ทางเรขาคณิตเชิงพื้นที่ การที่ Pelican-Unify 1.0 ทำคะแนนเกือบเต็มในตัวชี้วัดนี้ แสดงให้เห็นว่ามันไม่เพียงแต่สร้างภาพที่ “ดูเหมือน” เท่านั้น แต่ยังสามารถเข้าใจและสร้างความสัมพันธ์เชิงพื้นที่ในฉากได้อย่างแม่นยำ ซึ่งเป็นสิ่งสำคัญอย่างยิ่งสำหรับหุ่นยนต์

นำตัวแทนอัจฉริยะ (Agent) สู่โลกทางกายภาพ

ตั้งแต่ปี 2025 เป็นต้นมา ตัวแทนอัจฉริยะ (Agent) กลายเป็นคำศัพท์ที่ได้รับความนิยมมากที่สุดในวงการ AI ทั้งหมด OpenAI, Google, Anthropic ต่างทุ่มเทลงทุน และผู้ผลิตโมเดลขนาดใหญ่ในประเทศจีนก็แทบไม่มีใครพลาด ตรรกะหลักของ Agent ไม่ได้ซับซ้อน: ให้โมเดลไม่ใช่แค่ตอบคำถามอีกต่อไป แต่ “ทำงานให้สำเร็จ” นั่นคือ รับรู้สภาพแวดล้อม วางแผน เรียกใช้เครื่องมือ และดำเนินการอย่างต่อเนื่อง

ตรรกะนี้ใช้ได้ในโลกดิจิทัล แต่เมื่อเข้าสู่โลกทางกายภาพ ปัญหาก็จะกลายเป็นพื้นฐานมากขึ้น

หุ่นยนต์ต้องทำงาน “หยิบชิ้นส่วนสีน้ำเงินบนโต๊ะใส่ลงในกล่องด้านขวา” ให้สำเร็จ มันต้อง看懂ฉากปัจจุบัน เข้าใจเจตนาของคำสั่ง คาดการณ์ผลลัพธ์หลังการหยิบจับ และสร้างลำดับการเคลื่อนไหวที่แม่นยำถึงระดับมิลลิเมตร

ตรรกะของระบบปัญญาประดิษฐ์เชิงกายภาพแบบดั้งเดิมนั้นเหมือน “การต่อบล็อก” มากกว่า: โมเดลการมองเห็น负责ดู โมเดลภาษา负责พูด โมเดลโลก负责ทำนาย และกลยุทธ์การเคลื่อนไหว负责ดำเนินการ แต่ละโมเดลทำหน้าที่ของตัวเอง ทำงานผ่านระบบสายการผลิต

แม้โซลูชันนี้จะใช้งานได้ แต่มีข้อบกพร่องลึกซึ้ง: ช่องว่างทางความหมายระหว่างโมดูล (Semantic Gap) เป็นเพดานที่ขัดขวางไม่ให้หุ่นยนต์ “เข้าใจ” งานอย่างแท้จริง

ในเดือนมีนาคม 2025 Beijing Humanoid ได้เปิดตัวแพลตฟอร์มปัญญาประดิษฐ์เชิงกายภาพอเนกประสงค์ “慧思开物” (Huisi Kaiwu) โดยเสนอเส้นทางที่แตกต่าง: ให้ความเข้าใจ การให้เหตุผล จินตนาการ และการกระทำ วิวัฒนาการร่วมกันภายในโมเดลเดียวกัน แทนที่จะประกอบกันจากภายนอก

หลังจากผ่านการทำซ้ำอย่างต่อเนื่องและการสะสมประสบการณ์มากว่าหนึ่งปี แนวคิดนี้ได้รับการตรวจสอบทางเทคนิคที่น่าเชื่อถือที่สุดในเดือนพฤษภาคม 2026: เมื่อวานนี้ Beijing Humanoid ได้เปิดตัวโมเดลพื้นฐานเชิงกายภาพ “大一统” (Da Yi Tong – Unified) ตัวแรกของแพลตฟอร์ม “慧思开物”: Pelican-Unify 1.0

รายงานทางเทคนิค: Pelican-Unify 1.0: A Unified Embodied Intelligence Model (UEI) for Understanding, Reasoning, Imagination and Action
ที่อยู่รายงาน: https://arxiv.org/pdf/2605.15153

Pelican-Unify 1.0 เมื่อเปิดตัวก็ให้ผลลัพธ์ที่โดดเด่นมาก: ทำประสิทธิภาพใกล้เคียง SOTA ในตารางอันดับนานาชาติสามแห่ง ไม่เพียงแต่ขึ้นสู่อันดับสูงสุดใน World Arena เท่านั้น แต่ยังมีประสิทธิภาพเป็นอันดับหนึ่งในบรรดาโมเดลระดับเดียวกัน (ภายใน 4B) ในตาราง VLM Benchmark 8 รายการ และอยู่ในระดับแนวหน้าในการประเมิน VLA ตาราง RoboTwin มันกลายเป็นโมเดลปัญญาประดิษฐ์เชิงกายภาพแบบรวมชุดแรกของโลกที่บรรลุระดับชั้นนำของโลกพร้อมกันในมิติต่างๆ เช่น ความเข้าใจ การให้เหตุผล จินตนาการ และการกระทำ

ความหมายเฉพาะของ “大一统” (Da Yi Tong – Unified): สามความเป็นหนึ่งเดียว

ในตอนต้นของรายงานทางเทคนิคของ Pelican-Unify 1.0 ทีมงาน Beijing Humanoid ได้อ้างอิงคำพูดสามคำ: “จิตวิญญาณไม่เคยคิดโดยปราศจากภาพ” ของอริสโตเติล; “ความคิดของฉัน รับใช้การกระทำของฉันเสมอ” ของวิลเลียม เจมส์; และจาก “จงเรียนรู้อย่างกว้างขวาง สอบถามอย่างละเอียด คิดอย่างรอบคอบ แยกแยะอย่างชัดเจน และปฏิบัติอย่างจริงจัง” (博学之，审问之，慎思之，明辨之，笃行之) จาก 礼记·中庸

สิ่งเหล่านี้สะท้อนถึงการตัดสินใจหลักเบื้องหลัง Pelican-Unify 1.0: เพื่อให้ปัญญาประดิษฐ์เชิงกายภาพแข็งแกร่งขึ้น จำเป็นต้องมีวงจรแบบรวมที่ให้ความเข้าใจ การให้เหตุผล จินตนาการ และการกระทำ จำกัดซึ่งกันและกันและวิวัฒนาการร่วมกัน

กล่าวคือ ความเป็นหนึ่งเดียวของ Pelican-Unify 1.0 ไม่ใช่ “การนำเอาผลลัพธ์ของหลายโมดูลมาต่อกัน” แต่เป็นการแบ่งปันการแสดงแทน (Representation) เงื่อนไขข้อจำกัดซึ่งกันและกันในเชิงโครงสร้าง และวิวัฒนาการร่วมกันผ่านกระบวนการฝึกอบรมเดียวกัน

ในเชิงสถาปัตยกรรม Pelican-Unify 1.0 บรรลุความเป็นหนึ่งเดียวสามประเภท: ความเข้าใจ การให้เหตุผล และการสร้าง (Generation) ทำให้ความเข้าใจ การให้เหตุผล จินตนาการ และการกระทำ เติบโตไปพร้อมกัน เรียนรู้ไปพร้อมกันว่า “如何理解任务” (จะเข้าใจงานอย่างไร) “未来会发生什么” (อนาคตจะเกิดอะไรขึ้น) และ “应该执行什么动作” (ควรดำเนินการอะไร)

ในการดำเนินการทางวิศวกรรมเฉพาะ โมเดลทั้งหมดประกอบด้วยสององค์ประกอบที่เชื่อมโยงกันอย่างแน่นหนา: โมเดลภาษา-ภาพ (VLM) ทำหน้าที่รับผิดชอบความเข้าใจแบบรวมและการให้เหตุผลแบบรวม; และตัวสร้างอนาคตแบบรวม (Unified Future Generator, UFG) ทำหน้าที่รับผิดชอบการสร้างแบบรวม

การเปรียบเทียบสถาปัตยกรรมของ Pelican-Unify 1.0 กับโมเดล VLA และโมเดลโลก

การสร้างแบบจำลองแบบรวม: การแสดงแทนร่วมกัน สามทางประสานงาน

ในสายการผลิตแบบดั้งเดิม แต่ละโมดูลมีสถานะภายในของตัวเอง: โมดูลการมองเห็นมีเวกเตอร์คุณลักษณะ โมดูลภาษามีลำดับโทเค็น โมดูลการเคลื่อนไหวมีการกระจายกลยุทธ์ โมเดลโลกมีสถานะแฝง พวกมันปรับให้เหมาะสมกันเอง และส่งสัญญาณเอาต์พุตที่ถูกบีบอัดให้กันและกันเท่านั้น ซึ่งเป็นที่มาของช่องว่างทางความหมาย

วิธีการของ Pelican-Unify 1.0 คือ: ใช้ตัวแปรแฝงหนาแน่นร่วมกัน z แทนที่สถานะภายในที่กระจัดกระจายทั้งหมดนี้ ทำให้การไล่ระดับการฝึกของการให้เหตุผลทางภาษา จินตนาการวิดีโอ และการทำนายการเคลื่อนไหว ทำงานบนการแสดงแทนเดียวกัน ดังนั้น การให้เหตุผล จินตนาการ และการกระทำ จะไม่ใช่สามระบบที่สื่อสารผ่านอินเทอร์เฟซอีกต่อไป แต่สามารถจำกัดซึ่งกันและกันและวิวัฒนาการร่วมกันในการแสดงแทนร่วมกัน

ตัวเข้ารหัสแบบรวม: บีบอัดประวัติศาสตร์ คำสั่ง และฉาก เข้าสู่พื้นที่ความหมายเดียวกัน

ตัวเข้ารหัสแบบรวม是由基于 Qwen3-VL 4B 初始化的视觉-语言模型承担。

它接收的输入是一个多模态上下文 c_t，其中包含三类信息：过去时刻的观测序列 o（连续帧图像）、历史动作序列 a，以及当前语言指令 l。

这三类信息被统一编码进共享语义空间，而非由三个平行分支分别处理。

在此基础上，VLM 自回归地生成一条思维链推理迹 τ_t。这条推理迹并非事后解释，而是模型对任务意图、物理约束、未来后果与动作选择的中间表征。它能让语言推理成为具身生成过程中可训练、可监督的一个组件，而不是漂浮在决策之外的语言注释。

推理迹生成完毕后，VLM 取最后一层隐状态 h_{τ_t}，通过一个投影层 P_ϕ 压缩为稠密潜变量 z：

这一步是整个架构的关键耦合点。z 不仅针对语言建模优化，还受到下游的视频和动作生成损失的持续施压，被迫同时编码“物理世界将如何演化”和“应当执行什么动作”所需的信息。

统一未来生成器：视频与动作在单一扩散过程中同步生成

统一未来生成器以基于Wan2.2-5B初始化的扩散Transformer（DiT）为核心架构，以z为条件，在同一个去噪过程中同步生成未来视频帧与低层动作序列。

具体流程如下：未来视频会先经由视频自编码器压缩为潜变量x^v，而动作轨迹则被归一化为连续的表示形式x^a。在扩散过程的每一步中，视频token和动作token在经过各自的输入嵌入层转换后，会被共同送入同一个DiT主干网络进行处理：

其中，s代表扩散时间步，z通过交叉注意力机制注入。自注意力负责建模生成序列内部的时空依赖关系，交叉注意力则负责注入语言grounding的任务语义，而扩散时间步则通过自适应归一化来调控整体计算过程。

DiT主干网络由两类token共享，只有输入嵌入层和输出头（d_v用于视频读出，d_a用于动作读出）是模态专属的。这意味着，在去噪过程的每一步，视频token和动作token都在同一空间中相互感知、相互约束。

训练目标由三个损失函数组成：语言推理损失𝓛_text（自回归负对数似然）、视频流匹配损失𝓛_video（连续时间flow matching）以及动作预测损失𝓛_action（SmoothL1鲁棒回归）：

这三个损失函数共同作用于同一表征z：

语言损失确保z与任务级语义对齐
视频损失促使z对物理世界的动态演化具有预测能力
动作损失将z锚定在可执行的控制空间中

z必须同时满足这三重压力，才能在训练过程中存活下来。这正是统一范式在优化层面的核心含义：推理、想象与行动的一致性，是通过梯度博弈自然涌现的。

实验结果：第三方评测验证单项能力

技术架构的优雅，最终需要通过评测来检验。Pelican-Unify 1.0 给出了令人信服的答案：统一并不意味着全面平庸，反而能在专项能力上与专用模型同台竞技。

在统一的理解与推理能力方面，Pelican-Unify 1.0 达到了同级别模型中的最高水平。在VLM评测中，该模型在8个通用/具身基准测试上取得了64.7的平均分，均达到SOTA水平。特别是在更具具身属性的Where2Place和PhyX基准上，相比基座模型分别提升了28.2分和20.6分。这证明了统一训练并未削弱通用多模态能力，反而增强了空间理解、物理理解及行动相关的语义能力。

（图注：Pelican-Unify 1.0 与其他方法在通用和具身基准上的成绩对比）

在统一的动作生成能力方面，整体性能与当前最佳模型相当。在RoboTwin 50任务双臂操作基准上，Pelican-Unify 1.0 取得了93.5%的平均成功率。其中，50个任务中有31个任务的成功率达到至少95%，15个任务达到100%，覆盖了插拔、堆叠、交接等不同类型的任务。这一成绩与当前SOTA模型基本持平，证明具身大一统模型具备强大的动作执行能力。

（图注：Pelican-Unify 1.0 与主要VLA和世界模型在RoboTwin双臂操作50任务基准上的成绩对比）

这些成绩单共同传达了一个清晰的信息：Pelican-Unify 1.0 确实能够通过结构性共享表征，让理解、推理和行动相互增强。在具身智能研究领域，这是首次如此全面的验证。

北京人形与「慧思开物」

要理解Pelican-Unify 1.0 的完整意义，需要将其置于「慧思开物」平台的整体布局以及北京人形机器人的机构定位中来看。

2025年3月，「慧思开物」正式发布，定位为全球首个「一脑多能、一脑多机」的通用具身智能平台。该平台由AI大模型驱动的任务规划「大脑」与数据驱动的端到端技能执行「小脑」构成，能够实现单一软件系统在机械臂、轮式机器人、人形机器人等多构型本体上的兼容部署。

Pelican-Unify 1.0 作为该平台统一具身基础模型的首发版本，为「慧思开物」提供了真正的「认知内核」。它使得「一脑多机」不再仅仅是调度层将多个专家模型串联起来，而是同一个理解-推理-想象-行动回路在不同本体上的自然泛化。

这一能力已在真实硬件上得到验证。该模型在UR5e工业机械臂和天工人形机器人上的工业控制面板操作任务中，无论是零样本泛化还是组合任务评测，都全面超越了模块化基线方法。尤其是在组合泛化测试中，模型仅凭各原子任务的训练数据，无需任何组合示范，就能在自然语言指令下完成两段任务的连续执行。

（图注：组合泛化评估。训练时仅针对单个原子操作任务，未接触组合版本。测试时评估模型在未见过的组合任务上的表现，这些任务需结合多种已学技能，展示了模型在长周期具身操作中的强大组合泛化能力。）

这正是「先想象，再行动」闭环在物理世界中最直接的体现：想象面在训练中已将每个原子动词映射为未来帧分布，因此能够在A阶段结束后渲染出新初始态，并以此重新条件化B阶段的动作。整个过程没有人工设计的状态机，也没有模块间的显式通信。

（图注：Pelican-Unify 1.0 可将动作作为条件输入，实现动作条件视频预测。左图：动作条件视频预测模型概览。右图：本方法生成的视频与真实值的对比。基于历史观测，该模型实现了输入动作指令与生成视频帧之间的细粒度对齐。）

经过一年多的场景打磨，「慧思开物」已从发布时的技术演示走向可量产的工业落地：

2025年9月，搭载「慧思开物」的「具身天工 2.0」进入福田康明斯发动机工厂，在无人生产线上完成料箱取放与搬运任务。
同年10月，「慧思开物」SDK正式开放，面向高校与产业伙伴构建开源生态。
在世界人工智能大会（WAIC）上，「慧思开物」协调四个异构机器人完成多本体、多任务异步协作，展示了分布式具身智能体系统的协同能力。

北京人形机器人在国内具身智能版图中具有独特的身份。该机构于2023年成立，由京城机电、优必选、亦庄机器人、首程资本等共同发起；2024年10月，获授「国家地方共建具身智能机器人创新中心」称号，正式确立国家级创新平台定位；2026年2月，完成首轮超7亿元市场化融资，投资方涵盖北京市人工智能产业投资基金、百度、东土科技等机构与产业方。

在软硬件层面，北京人形已于今年2月发布了新一代通用机器人平台「具身天工 3.0」，这也是行业内首个实现触物交互式全身高动态运动控制的全尺寸人形机器人。而此番Pelican-Unify 1.0 同时登顶WorldArena两大核心赛道，拿下具身智能领域首个「双冠王」——运动能力与认知智能的双线突破，印证了北京人形软硬件协同迭代的系统性能力积累。

作为国家队，北京人形对「大一统」范式的坚持，是一条需要更高研发门槛、更长周期验证的路线。Pelican-Unify 1.0 登顶WorldArena的成绩，是这条路线第一次在全球权威评测体系上得到系统性验证。

同时，开源RoboMIND数据集、开放「慧思开物」SDK、联合高校建立联合实验室，都表明北京人形想做的不仅仅是一家在榜单上领先的机构，更是一个让中国具身智能整体研发效率因共同底座而加速的基础设施提供者。

统一，不是终点，而是全新的起点

2026年，具身智能行业正处于真正的技术分层时刻。

在量产端，头部企业已跨过千台乃至万台交付门槛，产业开始触及制造体系的真实极限；在资本端，国家大基金三期首次出手具身赛道，单轮融资纪录持续刷新；在竞争端，百余家相关企业并立，行业的核心问题已经从「能不能做出来」变成「做出来的东西，能不能在从未见过的场景里真正好用」。

这正是Pelican-Unify 1.0 所回应的问题。

在自然语言处理领域，大规模预训练范式的核心发现是：让理解、生成与推理在同一个表征空间中协同演进，能力的边界会因相互促进而持续扩大。这一发现已在文本世界得到充分验证，并彻底改变了整个 AI 行业的格局。

如今，类似的逻辑开始在物理世界中寻找其对应物。

不同的是，物理世界的“生成”并非输出文字，而是移动物体；物理世界的“推理”不能仅停留在语言层面，必须通过动作结果来验证；物理世界的“理解”必须真正实现 grounding——即遵循三维空间中物体之间的物理约束关系。

这使得具身智能的统一比语言模型更难，也更为关键。

Pelican-Unify 1.0 提供的，是这一方向上一个早期但具有说服力的答案。当推理能够塑造想象、想象能够约束行动、行动的结果能够反过来校正推理时，整个回路就不再是能力的简单叠加，而是能力的乘积。

从“功能拼凑”到“闭环智能”，这一步的跨越正在发生。

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34896

Like (0)

0 0

400,000 ผู้ใช้ประจำสัปดาห์บน Codex เข้าสู่มือถือ: โปรแกรมเมอร์ออกไปดื่มกาแฟ AI ตรวจสอบและวิจารณ์โค้ดได้ตลอดเวลา

Previous 8 hours ago

แผ่นดินไหวใน OpenAI: สามยักษ์ใหญ่รวมตัว, ประธาน Brockman กลับมา, ผู้ใช้ 900 ล้านคนเผชิญศึกชี้ชะตา

Next 8 hours ago

ข่าวสารอุตสาหกรรม AI

ผู้บุกเบิก AI คาร์ปาธีเตือน: ทักษะการเขียนโปรแกรมของคุณกำลังล้าสมัย LLM กำลังทำให้ซอฟต์แวร์ทั้งชั้นหายไป

ซิลิคอนแวลลีย์มักจะเก่งในการสร้างคำศัพท์ใหม่ และก็เก่งในการทิ้งมันอย่างรวดเร็วเช่นกัน ปีที่แล้ว ผู้คนยังคงพูดถึง “vibe coding” กันอย่างคึกคัก ซึ่งเป็นวิธีการเขียนโปรแกร…

2026年5月2日
76000
ข่าวสารอุตสาหกรรม AI

ทีม Claude Code เผยเทคนิคการทำงานจริง: 10 เคล็ดลับเพิ่มประสิทธิภาพการเขียนโค้ดด้วย AI อย่างทวีคูณ

บอริส เชอร์นีย์ ผู้ก่อตั้ง Claude Code ได้เปิดเผยประสบการณ์การใช้งานเครื่องมือเขียนโค้ด AI นี้ภายในทีมอย่างสมบูรณ์ คำแนะนำเหล่านี้มาจากสถานการณ์การพัฒนาจริง โดยบางวิธีปฏิบัติแม้แต่…

2026年2月3日
491000
ข่าวสารอุตสาหกรรม AI

AI ของจีนทำลายปัญหาคณิตศาสตร์ 300 ปี: ระบบการเรียนรู้เสริมแรง ‘PackingStar’ ทำลายสถิติโลกหลายรายการของ ‘จำนวนจุมพิต’ ในมิติสูง

闻乐发自凹非寺量子位 | 公众号 QbitAI ในทางคณิตศาสตร์มีปัญหาคลาสสิกที่ยากมากชื่อว่า ปัญหาจำนวนการสัมผัส (Kissing Number Problem) มันทำให้มนุษยชาติติดขัดมานานกว่า 300 ปี และล่าสุด งานวิจัยจาก …

2026年2月14日
282000
ข่าวสารอุตสาหกรรม AI

DeepSeek-V4 เวอร์ชันพรีวิวเปิดตัวแล้ว: รองรับบริบทนับล้าน ความสามารถ Agent โดดเด่น พร้อมเปิดซอร์สโค้ด

เมื่อสักครู่ DeepSeek ประกาศบนบัญชีสาธารณะ WeChat อย่างเป็นทางการว่า รุ่นตัวอย่างของชุดโมเดลใหม่ DeepSeek-V4 ได้เปิดตัวอย่างเป็นทางการแล้ว พร้อมเปิดซอร์สโค้ด! DeepSeek-V4 มีบริบทที…

2026年4月24日
152000
ข่าวสารอุตสาหกรรม AI

การแข่งขัน AI ระหว่างจีนและสหรัฐฯ ร้อนระอุ: อัปเดต 30 ครั้งใน 47 วัน หายเตี้ยนกลายเป็นศูนย์กลางความก้าวหน้าของกลุ่ม AI ของจีน

ปี 2026 เปิดฉากด้วย AI ไม่มีใครยืนดูเฉยๆ ซิลิคอนแวลลีย์กำลังแข่งขันกันอย่างดุเดือด จีนก็กำลังแข่งขันกันอย่างดุเดือด จังหวะเกือบจะพร้อมกัน ไม่แพ้ไม่ชนะ มองไปที่ซิลิคอนแวลลีย์ ตั้งแต…

2026年2月22日
295000

统一未来生成器：视频与动作在单一扩散过程中同步生成

实验结果：第三方评测验证单项能力

北京人形与「慧思开物」

统一，不是终点，而是全新的起点

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

ผู้บุกเบิก AI คาร์ปาธีเตือน: ทักษะการเขียนโปรแกรมของคุณกำลังล้าสมัย LLM กำลังทำให้ซอฟต์แวร์ทั้งชั้นหายไป

ทีม Claude Code เผยเทคนิคการทำงานจริง: 10 เคล็ดลับเพิ่มประสิทธิภาพการเขียนโค้ดด้วย AI อย่างทวีคูณ

DeepSeek-V4 เวอร์ชันพรีวิวเปิดตัวแล้ว: รองรับบริบทนับล้าน ความสามารถ Agent โดดเด่น พร้อมเปิดซอร์สโค้ด