Mano-P 1.0 ตัวแทน GUI อัจฉริยะอันดับหนึ่งของโลกเปิดตัว: นำลิ่ว 13.2% ด้วยการทำงานผ่านภาพล้วนและไม่เก็บข้อมูลบนคลาวด์

ตั้งแต่ AI Agent แสดงความสามารถในการดำเนินการบนคอมพิวเตอร์ จินตนาการของผู้คนเกี่ยวกับสถานการณ์การใช้งานก็ขยายออกไปอย่างต่อเนื่อง ตัวอย่างเช่น เป็นไปได้หรือไม่ที่จะให้ AI Agent แทนที่ผู้ใช้ในการทำงานที่ซับซ้อนบนซอฟต์แวร์เดสก์ท็อป?

อย่างไรก็ตาม โซลูชัน Agent บางส่วนที่มีอยู่ในปัจจุบันยังคงดูเชื่องช้าเมื่อต้องทำงานกับอินเทอร์เฟซผู้ใช้แบบกราฟิก (GUI) โดยมักต้องพึ่งพาปลั๊กอินหรือไลบรารีทักษะเฉพาะทาง และไม่ราบรื่นพอเมื่อทำงานที่ซับซ้อน ซึ่งจำกัดการนำไปใช้ในเวิร์กโฟลว์การทำงานที่จริงจัง

เมื่อเร็วๆ นี้ บริษัท Minglue Technology ได้เปิดตัวโมเดล GUI-VLA Agent รุ่นใหม่สำหรับอุปกรณ์ปลายทางที่พัฒนาขึ้นอย่างเต็มรูปแบบ คือ Mano-P 1.0 โมเดลนี้ประกาศว่าสามารถเข้าใจและควบคุมอินเทอร์เฟซซอฟต์แวร์เดสก์ท็อปและเว็บไซต์หลากหลายประเภทได้โดยตรงผ่านวิธีทางสายตาเพียงอย่างเดียว โดยไม่ต้องพึ่งพาอินเทอร์เฟซ API แบบดั้งเดิม และไม่จำกัดอยู่แค่ในสภาพแวดล้อมเบราว์เซอร์ โดยมีเป้าหมายเพื่อทำงานเวิร์กโฟลว์แบบกราฟิกที่ซับซ้อนยิ่งขึ้น

กล่าวโดยสรุป Mano-P 1.0 ถูกอธิบายว่าเป็นโมเดลการควบคุม GUI แบบสายตาล้วนที่ไม่พึ่งพาปลั๊กอินใดๆ หนึ่งในคุณสมบัติหลักคือการสนับสนุนการทำงานแบบโลคัลเต็มรูปแบบ โดยไม่จำเป็นต้องอัปโหลดข้อมูลขึ้นคลาวด์ โมเดลมีหลายรูปแบบ อ้างว่าสามารถตอบสนองความต้องการที่แตกต่างกันของนักพัฒนาได้

Mano-P 1.0 ตัวแทน GUI อัจฉริยะอันดับหนึ่งของโลกเปิดตัว: นำลิ่ว 13.2% ด้วยการทำงานผ่านภาพล้วนและไม่เก็บข้อมูลบนคลาวด์

  • ที่อยู่โอเพนซอร์สโปรเจกต์: https://github.com/Mininglamp-AI/Mano-P/tree/main

รายงานระบุว่า เมื่อเทียบกับโมเดลรุ่นก่อนหน้า Mano-P มีความสามารถที่เพิ่มขึ้นอย่างมีนัยสำคัญ

ประสิทธิภาพ: นำหน้าในการทดสอบมาตรฐานหลายชุด

จากข้อมูลที่เผยแพร่ โมเดล Mano-P 1.0 บรรลุระดับแนวหน้าในการทดสอบมาตรฐานมัลติโมดัลหลายชุด ครอบคลุมหลายมิติ เช่น การระบุตำแหน่ง GUI การประเมินการใช้คอมพิวเตอร์ การรับรู้และความเข้าใจ

Mano-P 1.0 ตัวแทน GUI อัจฉริยะอันดับหนึ่งของโลกเปิดตัว: นำลิ่ว 13.2% ด้วยการทำงานผ่านภาพล้วนและไม่เก็บข้อมูลบนคลาวด์

ในการทดสอบมาตรฐาน OSWorld ซึ่งเป็นมาตรฐานอ้างอิงชั้นนำในด้าน GUI Agent รุ่น Mano-P 1.0-72B บรรลุอัตราความสำเร็จ 58.2% ซึ่งอ้างว่าอยู่ในอันดับหนึ่งในบรรดาโมเดล GUI Agent เฉพาะทางทั้งหมด ข้อมูลแสดงให้เห็นว่ามันนำหน้าอันดับสอง 13.2 เปอร์เซ็นต์

รายงานยังชี้ให้เห็นว่าในการทดสอบ WebRetriever Protocol I คะแนนของ Mano-P เอาชนะเวอร์ชันการใช้คอมพิวเตอร์ของโมเดลขนาดใหญ่ทั่วไปบางรุ่น

ในการสาธิตอย่างเป็นทางการ Mano-P ดำเนินการเวิร์กโฟลว์อัตโนมัติแบบเต็มวงจรที่เกี่ยวข้องกับการสร้างวิดีโอ อัปโหลด วิเคราะห์ ตัดต่อ ไปจนถึงการประเมินผลซ้ำ โดยในกระบวนการผสมผสานการใช้เว็บไซต์และซอฟต์แวร์ตัดต่อมืออาชีพ

คุณสมบัติหลัก: เน้นการทำงานแบบโลคัลและความปลอดภัยของความเป็นส่วนตัว

ขั้นตอนพื้นฐานของโซลูชันการใช้คอมพิวเตอร์หลายตัวในปัจจุบันคือ: จับภาพข้อมูลหน้าจอ อัปโหลดไปยังเซิร์ฟเวอร์คลาวด์เพื่อทำการอนุมาน แล้วส่งคำสั่งการดำเนินการกลับไปยังอุปกรณ์ท้องถิ่นเพื่อดำเนินการ ซึ่งหมายความว่าข้อมูลหน้าจอของผู้ใช้ต้องออกจากอุปกรณ์ท้องถิ่น

Mano-P ใช้เส้นทางที่แตกต่าง โดยเน้นการสนับสนุนการทำงานแบบโลคัล ข้อมูลไม่ถูกอัปโหลดขึ้นคลาวด์เลย อ้างว่าสนับสนุนการอนุมานแบบโลคัลบนอุปกรณ์ Mac ที่มีชิป Apple M4 และหน่วยความจำ 32GB โดยข้อมูลงานทั้งหมดถูกประมวลผลภายในอุปกรณ์

ในด้านประสิทธิภาพ โมเดลควอนไทซ์ขนาด 4B ของมันบนชิป Apple M4 Pro อ้างว่าสามารถบรรลุความเร็วในการอนุมานที่ค่อนข้างสูง โดยใช้หน่วยความจำสูงสุดประมาณ 4.3GB

Mano-P 1.0 ตัวแทน GUI อัจฉริยะอันดับหนึ่งของโลกเปิดตัว: นำลิ่ว 13.2% ด้วยการทำงานผ่านภาพล้วนและไม่เก็บข้อมูลบนคลาวด์

การออกแบบนี้มีเป้าหมายเพื่อตอบสนองสถานการณ์การใช้งานที่ต้องการความปลอดภัยของข้อมูลและการปกป้องความเป็นส่วนตัวในระดับสูง หรือต้องการควบคุมความสามารถของ AI อย่างสมบูรณ์ โดยผ่านกลยุทธ์การทำงานแบบโลคัล ทำให้วงจรการเข้าใจและการดำเนินการทางสายตาอยู่ภายในอุปกรณ์เดียว

กลยุทธ์โอเพนซอร์ส: ปล่อยความสามารถเป็นขั้นตอน

Mano-P ใช้โหมดโอเพนซอร์สเต็มรูปแบบ และวางแผนที่จะปล่อยความสามารถออกมาเป็นขั้นตอนสามขั้นตอน

Mano-P 1.0 ตัวแทน GUI อัจฉริยะอันดับหนึ่งของโลกเปิดตัว: นำลิ่ว 13.2% ด้วยการทำงานผ่านภาพล้วนและไม่เก็บข้อมูลบนคลาวด์

ที่อยู่โอเพนซอร์สโปรเจกต์: https://github.com/Mininglamp-AI/Mano-P/tree/main

หัวใจของขั้นตอนแรกคือ “พร้อมใช้ทันที” ปัจจุบันได้เปิดตัว Mano-CUA Skill เป็นโอเพนซอร์สแล้ว ขั้นตอนนี้มุ่งเป้าไปที่ผู้ที่ชื่นชอบ Agent หรือนักพัฒนาเป็นหลัก โดยมีเป้าหมายเพื่อให้พวกเขาสามารถใช้สกิลนี้สร้างเวิร์กโฟลว์งานการใช้คอมพิวเตอร์ที่ชาญฉลาดยิ่งขึ้น

ทีมงานได้เตรียมรูปแบบการเชื่อมต่อสามรูปแบบเพื่อรองรับผู้ใช้ที่แตกต่างกัน:
* mano-cua (เครื่องมือบรรทัดคำสั่ง CLI): สำหรับนักพัฒนาและผู้ใช้ระดับสูง สนับสนุนการใช้ภาษาธรรมชาติผ่านบรรทัดคำสั่งเพื่อควบคุมการทำงานของ GUI สะดวกสำหรับการรวมเข้ากับสคริปต์และระบบอัตโนมัติ

  • mano-skill (ปลั๊กอิน Agent Skill) —— สำหรับผู้ใช้ Claude Code และ OpenClaw หลังการติดตั้ง เมื่อผู้ใช้ขอให้ AI Agent ดำเนินการที่ต้องใช้การควบคุมอินเทอร์เฟซกราฟิก Agent สามารถเรียกใช้สกิลนี้เพื่อทำงานได้โดยอัตโนมัติ โดยไม่ต้องมีการแทรกแซงจากมนุษย์ ซึ่งแก้ไขจุดสำคัญในเวิร์กโฟลว์ Agent ปัจจุบัน: ขั้นตอนที่เกี่ยวข้องกับการควบคุมอินเทอร์เฟซกราฟิกมักต้องการการแทรกแซงจากมนุษย์ ในขณะที่ Mano-Skill ทำให้ขั้นตอนนั้นสามารถบรรลุวงจรปิดอัตโนมัติโดย AI ได้
  • mano-client (Python SDK) —— จะเปิดตัวเร็วๆ นี้ สำหรับนักพัฒนาที่ต้องการรวมความสามารถอัตโนมัติของอินเทอร์เฟซกราฟิกเข้ากับโปรเจกต์ Python อย่างลึกซึ้ง สนับสนุนการเรียกแบบอะซิงโครนัส ฟังก์ชันคอลแบ็ก และการควบคุมโฟลว์งานที่สามารถโปรแกรมได้

ทั้งสามรูปแบบใช้ชุดความสามารถหลักเดียวกัน มอบทางเข้าที่แตกต่างกันให้กับผู้ใช้ ตั้งแต่การทดลองใช้อย่างรวดเร็ว ไปจนถึงการรวมเข้ากับระบบอย่างลึกซึ้ง และการจัดการโดย Agent แบบอัตโนมัติ

เปิดโมเดล ความสามารถลงสู่ปลายทาง

ในขั้นตอนที่สอง โปรเจกต์วางแผนที่จะเปิดตัวโมเดลโลคัลและคอมโพเนนต์ SDK ของ Mano-CUA เป็นโอเพนซอร์ส

ขั้นตอนนี้มุ่งเป้าไปที่นักพัฒนาที่ต้องการความปลอดภัยในระดับสูงเป็นหลัก เพื่อให้พวกเขาสามารถใช้โมเดล GUI-VLA ที่สามารถทำงานอนุมานแบบโลคัลบน Mac ได้โดยตรง เพื่อสร้างสกิลหรือเครื่องมือที่กำหนดเองเอง ประเด็นสำคัญคือ การดำเนินการ CUA ทั้งหมดดำเนินการบน Mac โลคัล โดยข้อมูลจะไม่ถูกอัปโหลดไปยังเซิร์ฟเวอร์ภายนอก

นี่เป็นขั้นตอนสำคัญในแผนการเปิดเป็นโอเพนซอร์สทั้งหมด

  • โมเดลเต็มรูปแบบ 72B: มีเป้าหมายเพื่อพิสูจน์ขีดจำกัดความสามารถทางเทคนิค นั่นคือโมเดลที่ได้คะแนน 58.2% ในการทดสอบมาตรฐาน OSWorld
  • โมเดลควอนไทซ์ 4B (w4a16): มุ่งเน้นที่การส่งมอบประสบการณ์ปลายทาง บน Mac M4 สามารถบรรลุความเร็วการเติมล่วงหน้า 476 tokens/s และความเร็วการถอดรหัส 76 tokens/s โดยใช้หน่วยความจำสูงสุดเพียง 4.3GB

โมเดลขนาดใหญ่พิสูจน์ขีดจำกัดความสามารถของโมเดล Mano-P ในขณะที่โมเดลขนาดเล็กมุ่งเน้นที่ประสบการณ์ปลายทางของผู้ใช้ ทั้งสองเสริมซึ่งกันและกัน ครอบคลุมวงจรสมบูรณ์ตั้งแต่การวิจัยและยืนยันไปจนถึงการนำไปใช้จริง

เปิดเผยวิธีการ สร้างระบบนิเวศร่วมกัน

ในขั้นตอนสุดท้าย ทีมวางแผนที่จะเปิดเผยวิธีการฝึกอบรมเองเป็นโอเพนซอร์ส รวมถึงวิธีการฝึกอบรม เทคนิคการตัดแต่ง และการควอนไทซ์ที่ใช้ในโมเดล Mano-P

เฟรมเวิร์กการเรียนรู้แบบเสริมกำลังตนเองสองทาง Mano-Action เป็นพื้นฐานเทคโนโลยีหลักของโปรเจกต์ทั้งหมด แตกต่างจากวิธีการทำนายแบบทางเดียวแบบดั้งเดิม โดยใช้การเรียนรู้ความสอดคล้องแบบวนซ้ำ Text ↔ Action ทำให้โมเดลเชี่ยวชาญความสามารถทั้งสองทิศทางพร้อมกัน:

  • Text → Action: ระบุตำแหน่งและควบคุมองค์ประกอบอินเทอร์เฟซตามคำอธิบายภาษาธรรมชาติ
  • Action → Text: เมื่อกำหนดองค์ประกอบอินเทอร์เฟซ ให้อธิบายตำแหน่งและหน้าที่ของมันได้อย่างแม่นยำ

การเสริมกำลังซึ่งกันและกันสองทางทำให้โมเดลมีความเข้าใจอินเทอร์เฟซกราฟิกที่แข็งแกร่งยิ่งขึ้น

กระบวนการฝึกอบรมแบ่งออกเป็นสามขั้นตอนต่อเนื่อง:

  1. SFT (การปรับแต่งอย่างละเอียดภายใต้การดูแล): สร้างความสามารถพื้นฐานในการเข้าใจและควบคุมอินเทอร์เฟซกราฟิก
  2. การเรียนรู้แบบเสริมกำลังแบบออฟไลน์: ปรับปรุงกลยุทธ์บนข้อมูลประวัติศาสตร์ สำรวจลำดับการดำเนินการที่ดีกว่า
  3. การเรียนรู้แบบเสริมกำลังแบบออนไลน์: ปรับปรุงอย่างต่อเนื่องผ่านการโต้ตอบแบบเรียลไทม์กับสภาพแวดล้อมจริง บรรลุการวิวัฒนาการด้วยตนเอง

ร่วมกับกลไกการให้เหตุผลแบบวนซ้ำ “คิด – ดำเนินการ – ตรวจสอบ” หลังจากดำเนินการแต่ละขั้นตอน โมเดลจะตรวจสอบผลลัพธ์ และเมื่อพบความคลาดเคลื่อนจะปรับแก้ไขข้อผิดพลาดโดยอัตโนมัติ

ในด้านการปรับปรุงปลายทาง GSPruning visual Token pruning เป็นนวัตกรรมทางเทคโนโลยีที่น่าสนใจ วิธีการนี้รักษาโครงสร้างโครงกระดูกของหน้าเว็บโดยการรักษาจุดยึดพื้นที่ส่วนกลาง ในขณะเดียวกันก็ระบุค่าผิดปกติเชิงความหมายเพื่อจับองค์ประกอบ UI ที่สำคัญ โดยยังคงรักษาอัตราความสำเร็จของงานที่ค่อนข้างสูงในขณะที่อัตราการเก็บรักษา visual token ถูกบีบอัดเหลือ 12.57% ทำให้ปริมาณงานเพิ่มขึ้น 2-3 เท่า

โอเพนซอร์สแบบสมบูรณ์

จากปลั๊กอินสกิล ไปจนถึงโมเดล และไปจนถึงระเบียบวิธี หลังจากเปิดเป็นโอเพนซอร์สครบสามขั้นตอน นักพัฒนาจะได้รับสแต็กเทคโนโลยีที่สมบูรณ์ซึ่งสามารถใช้งาน ปรับแต่ง และวิจัยพัฒนาได้

โปรเจกต์ Mano-P ทั้งหมดใช้สัญญาอนุญาต Apache 2.0 เปิดเป็นโอเพนซอร์ส รหัสไคลเอนต์เต็มรูปแบบเปิดให้ตรวจสอบได้ สนับสนุนการใช้เชิงพาณิชย์และการพัฒนาต่อยอด

ปัจจุบัน โซลูชันอัตโนมัติสำหรับอินเทอร์เฟซกราฟิกในตลาดสามารถแบ่งออกเป็นสามประเภทหลัก:

  • RPA แบบดั้งเดิม: อาศัยการระบุตำแหน่งด้วยพิกัดหรือตัวเลือกองค์ประกอบ ล้มเหลวเมื่ออินเทอร์เฟซเปลี่ยนแปลง มีต้นทุนการบำรุงรักษาสูง
  • CUA ประเภทเบราว์เซอร์: อาศัย CDP มีความสามารถสูง แต่ถูกจำกัดอยู่ในระบบนิเวศเบราว์เซอร์
  • Computer Use แบบคลาวด์: มีความสามารถสูงสุด แต่ต้องพึ่งพา API คลาวด์ และมุ่งเน้นไปที่สถานการณ์เว็บเป็นหลัก

Mano-P 1.0 ตัวแทน GUI อัจฉริยะอันดับหนึ่งของโลกเปิดตัว: นำลิ่ว 13.2% ด้วยการทำงานผ่านภาพล้วนและไม่เก็บข้อมูลบนคลาวด์
เปรียบเทียบ Mano-P กับโซลูชัน CUA แบบดั้งเดิม

Mano-P อยู่ในประเภทที่สี่ นั่นคือ GUI Agent แบบสายตาล้วน วิธีการทำงานของมันคล้ายกับมนุษย์: สังเกตหน้าจอ เข้าใจอินเทอร์เฟซ แล้วตัดสินใจป้อนข้อมูล จึงบรรลุความสามารถใช้งานข้ามแพลตฟอร์มแบบไม่จำกัด โดยรวมแล้ว Mano-P ที่เปิดเป็นโอเพนซอร์สเต็มรูปแบบมีขีดความสามารถหลักสี่ประการ:

  • ประสิทธิภาพปลายทางขั้นสุด: ด้วยการปรับปรุงสำหรับชิป M4 และการสนับสนุนการขยายกำลังประมวลผล Mano-P รองรับโมเดลที่ใช้งานได้ทันทีบนอุปกรณ์ปลายทาง ปลดปล่อยจากการผูกมัดกับ API คลาวด์โดยสิ้นเชิง
  • ความเข้าใจทางสายตาทุกสถานการณ์: ใช้โซลูชันการโต้ตอบอินเทอร์เฟซกราฟิกแบบสายตาล้วน ทำลายข้อจำกัดของเบราว์เซอร์ บรรลุการปรับใช้การรับรู้ทุกสถานการณ์ข้ามซอฟต์แวร์เดสก์ท็อปและเครื่องมือที่ซับซ้อน
  • ความสามารถในการวางแผนแบบออฟไลน์: พึ่งพาวงจรปิดการวางแผนและแก้ไขข้อผิดพลาดแบบออฟไลน์สมบูรณ์ รับประกันการดำเนินการตรรกะธุรกิจที่มีประสิทธิภาพและปลอดภัยแม้ในสภาพแวดล้อมที่ไม่มีเครือข่าย
  • โซลูชันฮาร์ดแวร์-ซอฟต์แวร์แบบบูรณ


    ⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29887

Like (0)
Previous 2 hours ago
Next 2026年2月5日 am12:00

相关推荐