TuriX-CUA: ทำให้ AI ใช้งานคอมพิวเตอร์ได้เหมือนมนุษย์ ความก้าวหน้าใหม่ด้านระบบอัตโนมัติข้ามแอปพลิเคชัน
ขณะท่อง GitHub โครงการโอเพ่นซอร์สชื่อ TuriX-CUA ดึงดูดความสนใจของฉัน นี่คือเฟรมเวิร์ก Computer-Use Agent (เอเจนต์ใช้งานคอมพิวเตอร์)
เป้าหมายหลักของมันคือทำให้โมเดล AI ขนาดใหญ่สามารถสังเกตหน้าจอคอมพิวเตอร์และดำเนินการต่างๆ เช่น การคลิกเมาส์ การพิมพ์คีย์บอร์ด ได้โดยตรงเหมือนผู้ใช้มนุษย์ เพื่อทำงานที่ซับซ้อนข้ามหลายแอปพลิเคชันบนเดสก์ท็อป ไม่ใช่แค่การส่งออกข้อความในกล่องแชท

หลักการพื้นฐาน: จำลองการโต้ตอบของมนุษย์
เส้นทางการทำงานของ TuriX-CUA แตกต่างจากวิธีดั้งเดิมโดยสิ้นเชิง:
* แตกต่างจาก RPA แบบดั้งเดิมหรือการผสาน API: มันไม่พึ่งพาอินเทอร์เฟซ API เฉพาะที่ซอฟต์แวร์จัดให้
* จำลองการทำงานของมนุษย์: แนวคิดหลักคือ “หากผู้ใช้มนุษย์สามารถทำงานได้ผ่านการคลิกและการพิมพ์ TuriX-CUA ก็สามารถทำได้ด้วยการจำลองวิธีเดียวกัน” ทำให้มันสามารถควบคุมแอปพลิเคชันที่ไม่ได้เปิดเผย API ได้
ผู้ใช้เพียงแค่บรรยายงานด้วยภาษาธรรมชาติ AI จะวางแผนขั้นตอนและดำเนินการโดยอัตโนมัติ ขณะนี้ มี Skill (ทักษะ) เฉพาะที่ทำให้ OpenClaw หรือ Claude Code สามารถเรียกใช้ความสามารถของ TuriX-CUA ได้ ในแพลตฟอร์มทักษะที่เกี่ยวข้อง ทักษะ “Computer Use Agent” ของมันอยู่ในอันดับต้นๆ

ภาพรวมโครงการ
โครงการนี้มุ่งเน้นการทำงานอัตโนมัติบนสภาพแวดล้อมเดสก์ท็อปทั้งหมด
* บน macOS: สามารถควบคุมเบราว์เซอร์ แอปพลิเคชันเอกสาร (เช่น Pages, Numbers) ซอฟต์แวร์อีเมล/แชท และตั้งค่าระบบ เป็นต้น
* บน Windows (มีสาขาเฉพาะที่รองรับ): รองรับระบบอัตโนมัติ GUI และการควบคุมเบราว์เซอร์ เช่น การค้นหาวิดีโอ YouTube และกดไลค์โดยอัตโนมัติ

วิธีการที่อาศัยการมองเห็นและการจำลองการโต้ตอบนี้ ทำให้มันมีความสามารถทั่วไปที่กว้างขวางกว่าเอเจนต์ (Agent) ที่จำกัดอยู่เพียงในเบราว์เซอร์หรือควบคุมเฉพาะ DOM ของเว็บเพจ
ที่อยู่โครงการโอเพ่นซอร์ส: https://github.com/TurixAI/TuriX-CUA
การสาธิตฟังก์ชัน
การสาธิตฝั่ง macOS
- จองตั๋วเครื่องบิน โรงแรม และรถเรียก:
- ค้นหาราคา iPhone สร้างเอกสาร Pages และส่งให้ผู้ติดต่อ:
- จัดการไฟล์ Numbers ที่เจ้านายส่งผ่าน Discord สร้างกราฟแท่งแทรกใน PowerPoint และตอบกลับเจ้านาย:
การสาธิตฝั่ง Windows
- ค้นหาวิดีโอเนื้อหาที่กำหนดใน YouTube และกดไลค์:
การสาธิตการผสานกับ Claude
- Claude ค้นหาข่าว AI ผ่าน MCP เรียกใช้ TuriX เขียนผลการวิจัยลงในเอกสาร Pages และส่งให้ผู้ติดต่อ:
การออกแบบสถาปัตยกรรม: การทำงานร่วมกันของโมเดลหลายบทบาท
TuriX-CUA ในด้านสถาปัตยกรรม ได้แบ่งหน้าที่ของโมเดล AI ขนาดใหญ่ออกเป็นสี่บทบาท แต่ละบทบาทสามารถกำหนดค่าโมเดลที่แตกต่างกันได้ และสามารถเปลี่ยนได้แบบร้อนผ่านไฟล์กำหนดค่า:
* brain_llm (สมอง): รับผิดชอบการตัดสินใจระดับสูงและกลยุทธ์งานโดยรวม
* actor_llm (ผู้ดำเนินการ): รับผิดชอบการสร้างการดำเนินการเฉพาะตามอินเทอร์เฟซหน้าจอปัจจุบันและคำสั่ง (เช่น ตำแหน่งที่คลิก เนื้อหาที่ป้อน)
* planner_llm (ผู้วางแผน): รับผิดชอบการแบ่งงานที่บรรยายด้วยภาษาธรรมชาติออกเป็นลำดับขั้นตอนที่ปฏิบัติได้
* memory_llm (การจัดการความจำ): รับผิดชอบการอ่าน จัดระเบียบความจำระยะยาว และช่วยระบบกู้คืนสถานะงาน

การออกแบบนี้ให้ความยืดหยุ่นสูง ตัวอย่างเช่น ผู้ใช้สามารถเปลี่ยน planner_llm แยกต่างหากเพื่อทำการทดลองเปรียบเทียบตัววางแผน หรือใช้โมเดลต้นทุนต่ำกว่าเป็น memory_llm พร้อมกับใช้โมเดลขนาดใหญ่ที่มีความสามารถสูงกว่าเป็น brain_llm เพื่อรับประกันความฉลาด ทำให้เหมาะอย่างยิ่งสำหรับการเป็นเฟรมเวิร์กพื้นฐานในการวิจัยการทำงานร่วมกันของเอเจนต์หลายตัว
การใช้งานผ่าน OpenClaw
สามารถใช้ TuriX-CUA ผ่าน ClawHub Skills ของ OpenClaw:
* ที่อยู่ Skill: https://clawhub.ai/Tongyu-Yan/turix-cua
หลังจากติดตั้ง Skill นี้แล้ว OpenClaw จะสามารถเรียกใช้ TuriX-CUA เป็นเอเจนต์ควบคุมเดสก์ท็อปของคุณได้

วิธีเริ่มต้นใช้งาน
วิธีที่ 1: ใช้แอปพลิเคชันทางการ (ง่ายที่สุด)
ไปที่เว็บไซต์ทางการเพื่อดาวน์โหลดและติดตั้งแอปพลิเคชันโดยตรง
* ที่อยู่เว็บไซต์ทางการ: https://turix.ai/
วิธีที่ 2: ดำเนินการโครงการโอเพ่นซอร์สด้วยตนเอง (ตัวอย่างบน macOS)
① ติดตั้งสภาพแวดล้อม
bash
git clone https://github.com/TurixAI/TuriX-CUA.git
conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt
② กำหนดค่าสิทธิ์ระบบ (ขั้นตอนสำคัญ)
เพื่อให้การทำงานอัตโนมัติดำเนินไปอย่างราบรื่น จำเป็นต้องกำหนดค่าสิทธิ์ต่อไปนี้:
1. ความสามารถในการเข้าถึง (Accessibility): ใน “การตั้งค่าระบบ > ความเป็นส่วนตัวและความปลอดภัย > ความสามารถในการเข้าถึง” ให้ติ๊กเลือกแอปพลิเคชันที่คุณจะใช้ เช่น Terminal, VS Code หากจำเป็น ให้เพิ่ม /usr/bin/python3 เข้าไปด้วย
2. ระบบอัตโนมัติเบราว์เซอร์ Safari:
* ใน “การตั้งค่า > ขั้นสูง” ของ Safari ให้เปิด “แสดงเมนูนักพัฒนา”
* ในเมนู “นักพัฒนา” ที่ปรากฏขึ้น ให้เปิดใช้งาน “Allow Remote Automation” และ “Allow JavaScript from Apple Events”
3. เรียกหน้าต่างขอสิทธิ์: รันคำสั่งต่อไปนี้ในเทอร์มินัลที่แตกต่างกัน เพื่อเรียกการขอสิทธิ์จากระบบ:
bash
osascript -e 'tell application "Safari" to do JavaScript "alert("Triggering accessibility request")" in document 1'
③ กำหนดค่างานและโมเดล
ในไฟล์กำหนดค่า config.json ให้กรอกคำบรรยาย agent.task และกำหนดค่าโมเดลสำหรับบทบาทต่างๆ เช่น brain_llm, actor_llm รวมถึงผู้ให้บริการ (provider) ชื่อโมเดล (model_name) และคีย์ API (api_key)
④ เริ่มต้นตัวอย่าง
รันคำสั่งต่อไปนี้เพื่อเริ่มต้นโปรแกรมตัวอย่าง:bash
python examples/main.py

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24728
