เมื่อ AI ก้าวออกจากหน้าจอ: Looki PIE ทำให้ AI ฉลาดเชิงรุกในโลกแห่งความจริง “คอยดูแลแทนคุณ”

8 hours ago • คลังสินค้า AI • 20 views

หนึ่ง. เมื่อวิวัฒนาการของ AI หยุดอยู่แค่หน้าจอ

ความนิยมของ OpenClaw ไม่ได้อยู่แค่ที่ความสามารถในการแทนที่ผู้ใช้ในการทำงานเท่านั้น

หากเพียงเพื่อทำให้เกิดระบบอัตโนมัติ เครื่องมือ RPA ที่มีอยู่ก็สามารถทำได้ดีอยู่แล้ว สิ่งที่ทำให้ OpenClaw ได้รับความสนใจอย่างแท้จริงคือ ความสามารถเชิงรุกที่แสดงออกมา: จากการทำความเข้าใจอีเมล ปฏิทิน และประวัติการสนทนาอย่างต่อเนื่อง มันสามารถจัดการงานและผลักดันข้อมูลที่อาจจำเป็นได้อย่างรุกโจม การก้าวข้ามจาก “ตอบสนอง” ไปสู่ “เชิงรุก” นี้ ทำให้อุตสาหกรรมตระหนักเป็นครั้งแรกว่า: เอเจนต์ AI ไม่เพียงแต่สามารถ “ถูกบังคับ” ได้เท่านั้น แต่ยังสามารถ “คิดแทนคุณ” ได้อีกด้วย

อย่างไรก็ตาม ความสามารถเชิงรุกนี้มีขอบเขตที่ชัดเจน — มันถูกจำกัดอยู่ภายในหน้าจอ

การรับรู้ของ OpenClaw มาจากการจับภาพหน้าจอและระบบไฟล์ ความทรงจำมาจากประวัติการสนทนาและการเก็บถาวรอีเมล ทันทีที่ปิดคอมพิวเตอร์และก้าวเข้าสู่ชีวิตจริง สายโซ่บริบทของมันก็ขาดสะบั้น การประชุมที่ยาวนานหนึ่งชั่วโมงในห้องประชุม หนังสือที่เผลอเห็นระหว่างเดินทาง การสนทนาสบายๆ ระหว่างมื้อกลางวัน ล้วนเป็นจุดบอดของการรับรู้สำหรับเอเจนต์ดิจิทัลทั้งหมด

นี่ไม่ใช่ข้อบกพร่องเฉพาะของ OpenClaw แต่เป็นขอบเขตเชิงโครงสร้างที่เอเจนต์ดิจิทัลทั้งหมดต้องเผชิญร่วมกัน เมื่อสายตาหันจากหน้าจอไปสู่ความเป็นจริง พาหะของบริบทก็เปลี่ยนจากกระแสข้อความเป็นกระแสภาพและเสียง ซึ่งไม่ใช่แค่การเพิ่มปริมาณข้อมูล แต่เป็นการก้าวข้ามมิติของข้อมูล

ต่อเมื่อโลกแห่งความเป็นจริงกลายเป็นบริบทของ AI เอเจนต์จึงจะมีโอกาสวิวัฒนาการจาก “ช่วยคุณทำงานเชิงรุกในโลกดิจิทัล” ไปเป็น “ช่วยคุณสังเกตเชิงรุกในชีวิตจริง” นี่คือจุดเริ่มต้นของการที่ปัญญาเชิงรุกเดินทางจากออนไลน์ไปออฟไลน์

โดยมุ่งเป้าไปที่ประเด็นนี้ Looki ได้เปิดตัวเครื่องยนต์ปัญญาเชิงรุกล่าสุดของพวกเขา — Proactive Intelligence Engine (PIE)

บริษัทสตาร์ทอัพฮาร์ดแวร์ที่ก่อตั้งโดยศิษย์เก่ามหาวิทยาลัยคาร์เนกีเมลลอนแห่งนี้ กำลังย้ายกระบวนทัศน์ทางวิศวกรรม “จากการรับรู้สู่การตัดสินใจ” จากสาขายานยนต์ขับเคลื่อนอัตโนมัติ ไปยังอุปกรณ์สวมใส่ที่หนักเพียง 30 กรัม พยายามสร้างปัญญาเชิงรุกที่แท้จริงในโลกแห่งความเป็นจริง

สอง. จาก “บันทึกแบบรับ” สู่ “ตัดสินใจเชิงรุก”

วิธีที่ตรงที่สุดในการตัดสินว่าเอเจนต์เข้าใจชีวิตของคุณจริงหรือไม่ คือดูว่ามันกล้าที่จะเริ่มการโต้ตอบเชิงรุกหรือไม่

Looki L1 ได้รับความสนใจอย่างกว้างขวางตั้งแต่เปิดตัวในต่างประเทศเมื่อเดือนสิงหาคมปีที่แล้ว และเปิดตัวเวอร์ชันในประเทศจีนในเดือนธันวาคม ในชุมชนผู้ใช้ มันถูกเรียกว่า “เครื่องย้อนดูชีวิต” ผ่านการบันทึกภาพและเสียงตลอดเวลา เพื่อจัดเรียงเศษเสี้ยวชีวิตของผู้ใช้ ให้การย้อนดูและข้อมูลเชิงลึก

เมื่อ AI ก้าวออกจากหน้าจอ: Looki PIE ทำให้ AI ฉลาดเชิงรุกในโลกแห่งความจริง "คอยดูแลแทนคุณ"

แต่โหมดการโต้ตอบในยุคแรกยังคงเป็นแบบตอบสนอง: ผู้ใช้ถามว่า “วันนี้กินอะไร” มันดึงคำตอบจากข้อมูลภาพและเสียง ผู้ใช้ขอให้สรุปเนื้อหาการประชุม มันก็ปฏิบัติตามอย่างซื่อสัตย์ สิทธิ์ในการกระตุ้นการโต้ตอบยังคงอยู่ในมือของผู้ใช้เสมอ

ในขณะที่เวอร์ชันล่าสุดที่เปิดตัวอย่างเป็นทางการให้กับผู้ใช้ในประเทศจีนเมื่อไม่นานมานี้ เป็นเครื่องหมายว่าผลิตภัณฑ์นี้ได้ก้าวข้ามขั้นตอนสำคัญไปแล้ว

Looki ได้พัฒนาจากการเก็บข้อมูลตามช่วงเวลาคงที่ ไปสู่โหมดการตัดสินใจแบบไดนามิกที่ AI ตัดสินใจเองว่า “ขณะนี้จำเป็นต้องบันทึกหรือไม่ จำเป็นต้องให้ข้อเสนอแนะหรือไม่” ทีมงานนิยามสิ่งนี้ว่า “ปัญญาปรับตัวตามสถานการณ์”

ความ “เชิงรุก” นี้รู้สึกอย่างไรในการใช้งานจริง? นี่คือประสบการณ์การเดินทางเพื่อธุรกิจครั้งหนึ่ง

สวม Looki ไปสนามบิน หลังจากผ่านการตรวจรักษาความปลอดภัย ข้อความดันแรกก็มาถึง มันไม่ใช่การแจ้งเตือนเที่ยวบิน แต่เป็นการแจ้งเตือนเชิงรุกหลังจากที่มันระบุว่าฉันเข้าสู่พื้นที่รอขึ้นเครื่อง: “คุณเคยสัญญาว่าจะซื้อของขวัญให้เด็กๆ ที่บ้าน สามารถเลือกซื้อโมเดลอวกาศหรือสินค้าแพนด้าในสนามบินได้” สิ่งที่มันจำได้ไม่ใช่รายการในปฏิทิน แต่เป็นประโยคที่ฉันพูดผ่านๆ ในการสนทนาครั้งหนึ่งเมื่อหลายวันก่อน

เดินเข้าไปในร้านอาหารยังไม่ทันได้นั่ง ข้อความดันที่สองก็มา: “มื้อแรกหลังจากกลับปักกิ่ง’ เลือกได้มีเอกลักษณ์แบบปักกิ่งเก่าจริงๆ! แนะนำให้ทานคู่กับโจ๊กข้าวฟ่างหรือตับผัด อย่าลืมไปที่โต๊ะเครื่องปรุงเพื่อเอาน้ำส้มสายชูและพริกน้ำมันมา จะได้อร่อยแบบต้นตำรับมากขึ้น”

มันระบุสถานการณ์ในร้านอาหารได้ และให้คำแนะนำการจัดจานตามความชอบอาหารของฉัน ความหนาแน่นของข้อมูลและระดับการปรับตัวส่วนบุคคลของข้อความดันนี้ เกินความคาดหวังปกติของฉันที่มีต่ออุปกรณ์สวมใส่

กลับไปที่พื้นที่รอขึ้นเครื่อง ข้อความดันคลื่นที่สามมาถึง: สรุปข่าวประจำวันที่สร้างขึ้นจากความชอบที่ฉันตั้งไว้ล่วงหน้า “ข่าวสารอุตสาหกรรม AI” เนื้อหาเกี่ยวข้องกับความผันผวนของราคากำลังประมวลผล เหตุการณ์ระดมทุนใหม่ ฯลฯ แต่ละข่าวมาพร้อมกับการวิเคราะห์เชื่อมโยงกับสาขาที่ฉันสนใจ ตามมาด้วยข้อเท็จจริงที่น่าสนใจสามข้อเกี่ยวกับอาคารผู้โดยสาร และข้อสุดท้ายเกี่ยวข้องกับการออกแบบแสงสว่างจากช่องแสงบนหลังคา — เพราะมันจำได้ว่าฉันชอบ “สภาพแวดล้อมการทำงานที่สว่าง”

หนึ่งชั่วโมง สามจุดเชื่อมต่อสถานการณ์ สี่ครั้งของการตัดสินใจเชิงรุก แต่ละครั้งผสมผสานการรับรู้ทันทีและความทรงจำในอดีต โดยไม่ต้องให้ฉันเริ่มต้นเสียเอง พูดตรงๆ บางข้อความดันนั้นแม่นยำจนน่าประหลาดใจ: มันกำลังเรียนรู้ “เมื่อไหร่ควรพูด” จริงๆ

เส้นทางเทคโนโลยีเบื้องหลังสายโซ่ประสบการณ์นี้ แตกต่างจาก OpenClaw อย่างสิ้นเชิง OpenClaw เริ่มจากคำสั่งข้อความ ผ่านการเรียกใช้เครื่องมือไปสู่ผลตอบรับ ก่อตัวเป็นวงจรปิดในโลกดิจิทัล

ในขณะที่จุดเริ่มต้นของ Looki PIE คือภาพและเสียงจากความเป็นจริงที่ยังไม่ได้ตัดต่อ ระบบแรกต้อง “เข้าใจ” สถานการณ์ จากนั้นค้นหาความทรงจำที่เกี่ยวข้องจากลำดับเวลาพฤติกรรมตลอดทั้งวัน ตัดสินว่า “ขณะนี้คุ้มค่าที่จะเข้าไปแทรกแซงหรือไม่” และสุดท้ายสร้างข้อความดันที่ผสมผสานการรับรู้ทันทีและบริบทในอดีต

จากการตอบสนองสู่เชิงรุก กุญแจสำคัญไม่ใช่โมเดลที่ใหญ่ขึ้น แต่คือการทำให้โลกแห่งความเป็นจริงกลายเป็นบริบทส่วนบุคคลที่ถูกป้อนอย่างต่อเนื่อง

สาม. สองมิติทางเทคนิคของการตัดสินใจเชิงรุก

นอกเหนือจาก “การแจ้งเตือนทันที” ในสถานการณ์การเดินทางเพื่อธุรกิจ อีกหน้าที่ใช้งานหนึ่งในแอปพลิเคชัน “สำรวจ” ให้ทางเข้าที่จินตนาการได้กว้างยิ่งขึ้น: ผู้ใช้สามารถกำหนดด้วยภาษาธรรมชาติเองว่า เอเจนต์ควรดำเนินการใดภายใต้เงื่อนไขใด

โดยพื้นฐานแล้ว นี่คือการเขียนกฎการกระตุ้น “ถ้า… แล้ว…” สำหรับโลกแห่งความเป็นจริง

ตัวอย่างเช่น สามารถตั้งค่าได้ว่า: “กาแฟวันละแก้ว ถ้ามากกว่านั้นให้เตือนให้ฉันระงับ”, “เมื่อถึงร้านอาหารช่วยแนะนำเมนู”, “ระหว่างประชุมถ้ามีข้อมูลเชิงลึกใดๆ ให้บอกฉันทันที”, “ทุกเช้าที่มาถึงบริษัท ส่งข้อมูลที่ฉันสนใจให้ฉัน” กระบวนการตั้งค่าสั้นมาก เพียงแค่ป้อนภาษาธรรมชาติ

ตรรกะการกระตุ้นของกฎเหล่านี้แตกต่างจากการเตือนตามเวลาบนโทรศัพท์อย่างสิ้นเชิง นาฬิกาปลุกบนโทรศัพท์สามารถกระตุ้นได้ตามเวลาหรือตำแหน่งทางภูมิศาสตร์เท่านั้น ในขณะที่เงื่อนไขการกระตุ้นของ Looki คือความหมายของสถานการณ์: จะกระตุ้นการเตือนสุขภาพก็ต่อเมื่อกล้องจับภาพได้ว่ามีกาแฟแก้วที่สองปรากฏต่อหน้าคุณเท่านั้น จะดันการแนะนำเมนูก็ต่อเมื่อระบุได้ว่าคุณเดินเข้าไปในร้านอาหารและกำลังดูเมนู

เบื้องหลังคือไปป์ไลน์การประมวลผลที่สมบูรณ์: จากการแยกวิเคราะห์ความตั้งใจจากภาษาธรรมชาติ การดึงคุณลักษณะภาพ ไปจนถึงการจับคู่สถานการณ์แบบเรียลไทม์และการตรวจสอบบริบทหลายมิติ ไปป์ไลน์ปัญญาเชิงรูปธรรมนี้มักมีอยู่ในห้องปฏิบัติการหุ่นยนต์ แต่ตอนนี้ถูกรวมเข้ากับอุปกรณ์ประจำวันที่หนักเพียง 30 กรัม

อย่างไรก็ตาม สิ่งที่ท้าทายยิ่งกว่า “เข้าใจสถานการณ์” คือ “ตัดสินใจว่าเมื่อไหร่ควรพูด”

ย้อนดูข้อความดันทั้งสี่ครั้งระหว่างการเดินทาง: เตือนซื้อของขวัญหลังตรวจรักษาความปลอดภัย — “เข้าสู่พื้นที่พาณิชย์”, “มีเวลาว่าง”, “ในความทรงจำมีคำสัญญา” ต้องมีเงื่อนไขทั้งสามพร้อมกัน; แนะนำเมนูหลังจากเข้าไปในร้านอาหาร — “กำลังตัดสินใจเรื่องอาหาร”, “เข้าใจรสนิยมของผู้ใช้”; ดันข่าวระหว่างรอขึ้นเครื่อง — “มีเวลาว่างเป็นช่วงๆ”, “เนื้อหาตรงกับความชอบ” แต่ละครั้งเป็นการตัดสินใจจังหวะเวลาจากหลายปัจจัย ไม่ใช่การจับคู่กฎง่ายๆ

ความรู้สึกที่ลึกที่สุดในการใช้งานจริงคือ: ความยากหลักของ AI เชิงรุก ไม่ได้อยู่ที่คุณภาพของเนื้อหาที่ดัน แต่อยู่ที่ความแม่นยำของจังหวะเวลา

ข้อมูลเดียวกัน หากปรากฏขึ้นตอนที่ยุ่งคือการรบกวน แต่หากส่งถึงในเวลาว่างคือความใส่ใจ ในทางตรงกันข้าม สถานการณ์ของ OpenClaw ค่อนข้างเรียบง่าย: มันจะดำเนินการก็ต่อเมื่อผู้ใช้ออกคำสั่งที่ชัดเจนเท่านั้น ไม่จำเป็นต้องตัดสินใจจังหวะการแทรกแซงในสภาพแวดล้อมทางกายภาพ ในขณะที่ความท้าทายของ Looki PIE ปรากฏให้เห็นมากขึ้นในโลกทางกายภาพที่วุ่นวายซับซ้อน การตัดสินใจและเลือกจังหวะเวลาทำได้ยากกว่าในโลกข้อมูล

การ把握分寸 (การควบคุมระดับความพอดี) นี้ คือความท้าทายทางเทคนิคที่สำคัญที่สุดของ AI เชิงรุก

สี่. การสร้างเฟรมเวิร์กเอเจนต์ใหม่สำหรับโลกแห่งความเป็นจริง

Looki PIE เป็นแนวคิดผลิตภัณฑ์ เมื่อนำไปปฏิบัติในระดับวิศวกรรมแล้ว มันเป็นปัญหาทางระบบ

เฟรมเวิร์กของ OpenClaw ออกแบบมาสำหรับโลกดิจิทัล: อินพุตทั้งหมดอยู่ในรูปแบบข้อความ การดำเนินการทั้งหมดเกิดขึ้นในสภาพแวดล้อมดิจิทัล เมื่อเอเจนต์ก้าวออกจากหน้าจอ เผชิญกับกระแสภาพและเสียงที่วุ่นวายและสถานการณ์จริงที่ไม่แน่นอน ทุกชั้นของเฟรมเวิร์กจำเป็นต้องสร้างใหม่

ในมุมมองของผู้ก่อตั้ง Looki สองคน การขับเคลื่อนอัตโนมัติโดยพื้นฐานแล้วคือการสร้างเฟรมเวิร์กทางวิศวกรรมสำหรับโลกแห่งความเป็นจริง: จากการเก็บข้อมูลหลายรูปแบบแบบเรียลไทม์ ทำความเข้าใจสถานการณ์ด้วยความล่าช้าต่ำมาก ไปจนถึงการตัดสินใจและรับผลที่ตามมา ตอนนี้ พวกเขาได้ย้ายกระบวนทัศน์ทางวิศวกรรมชุดเดียวกันจากสถานการณ์บนถนนไปสู่ชีวิตประจำวัน

ปัญหาหลักที่ต้องแก้ไขคือ “การรับรู้”

ภายใต้เงื่อนไขที่อุปกรณ์หนักเพียง 30 กรัมและต้องรับประกันการใช้งานได้ 12 ชั่วโมง โมดูลการรับรู้ไม่สามารถทำงานเต็มกำลังอย่างต่อเนื่องได้ ความก้าวหน้าของ Looki PIE คือ การติดตั้งโมเดลการตัดสินใจแบบเบาบนอุปกรณ์ ซึ่งสามารถตัดสินใจแบบเรียลไทม์ตามการไหลของแสงแวดล้อมและคลื่นเสียงว่า “ขณะนี้คุ้มค่าที่จะเปิดใช้งานหรือไม่” ระหว่างเดินทางทำงานจะทำงานความถี่ต่ำ ในสถานการณ์เช่นการประชุมหรือการทานอาหารร่วมกันจะเพิ่มความถี่การเก็บข้อมูลโดยอัตโนมัติ มันไม่ได้ “จ้องมอง” อย่างต่อเนื่องโดยไม่เลือก แต่เรียนรู้ว่าเมื่อไหร่ควร “ลืมตา”

หลังจาก “เห็น” แล้ว ต้อง “จำ”

Looki ต้องประมวลผลสตรีมวิดีโอและสตรีมเสียงตลอดทั้งวัน ทรัพยากรการคำนวณที่ใช้ไปกับเฟรมภาพหนึ่งเฟรม อาจเทียบเท่ากับอีเมลฉบับเต็ม การป้อนข้อมูลทั้งหมดลงในโมเดลขนาดใหญ่ไม่คุ้มค่า และจะเพิ่มความเสี่ยงในการเกิดภาพหลอน ตามที่หัวหน้าฝ่ายเทคโนโลยีของพวกเขาระบุ Looki สร้างระบบดัชนีบริบทหลายระดับบนคลาวด์ ซึ่งสามารถดึงส่วนที่เกี่ยวข้องที่สุดอย่างแม่นยำตามความต้องการทางความหมาย ข้อความดันในสถานการณ์การเดินทางที่ว่า “คุณสัญญาจะซื้อของขวัญให้เด็กๆ” นั้น อาศัยระบบดัชนีนี้ในการค้นหาคำสัญญาจากการสนทนาหนึ่งเมื่อหลายวันก่อน และเปิดใช้งานมันในสถานการณ์เรียลไทม์ที่ “ผู้ใช้กำลังรอขึ้นเครื่องที่สนามบิน”

ความท้าทายระดับสูงสุดคือ “ตัดสินใจว่าจะพูดหรือไม่”

การรับรู้และความทรงจำให้พื้นฐาน แต่ความสำเร็จของ Looki PIE ขึ้นอยู่กับว่าชั้นการตัดสินใจของมันสามารถตัดสินใจได้ด้วยตัวเองเมื่อไรควรดำเนินการ โดยไม่มีคำสั่งที่ชัดเจนหรือไม่ เอเจนต์ในสภาพแวดล้อมดิจิทัลไม่ต้องกังวลกับเรื่องนี้ — การดำเนินการมักถูกกระตุ้นโดยคำสั่งที่ชัดเจนของผู้ใช้ ในขณะที่เอเจนต์ในสภาพแวดล้อมจริงต้องมีความสามารถในการตัดสินใจเชิงรุกนี้ และมีพื้นที่สำหรับข้อผิดพลาดน้อยมาก

นอกจากนี้ ปัญหาหลักที่หลีกเลี่ยงไม่ได้คือความเป็นส่วนตัว

Looki ใช้กลไกควบคุมสองชั้นที่รวมการกรองบนอุปกรณ์และการอัปโหลดด้วยตนเองผ่านแอป ข้อมูลภาพและเสียงดิบจะไม่ถูกอัปโหลดขึ้นคลาวด์โดยไม่เลือก เจ้าของกลไกการรับรู้แบบไดนามิกนี้ได้ออกแบบอย่างชาญฉลาดในระดับโครงสร้าง: อุปกรณ์ไม่ได้บันทึกอย่างต่อเนื่อง แต่ AI จะตัดสินใจแบบเรียล

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง