TuriX-CUA: ทำให้ AI ใช้งานคอมพิวเตอร์ได้เหมือนมนุษย์ นวัตกรรมใหม่ด้านระบบอัตโนมัติข้ามแอปพลิเคชัน

2026年3月8日 am8:46 • โครงการโอเพนซอร์ส • 210 views

TuriX-CUA: ทำให้ AI ใช้งานคอมพิวเตอร์ได้เหมือนมนุษย์ ความก้าวหน้าใหม่ด้านระบบอัตโนมัติข้ามแอปพลิเคชัน

ขณะท่อง GitHub โครงการโอเพ่นซอร์สชื่อ TuriX-CUA ดึงดูดความสนใจของฉัน นี่คือเฟรมเวิร์ก Computer-Use Agent (เอเจนต์ใช้งานคอมพิวเตอร์)

เป้าหมายหลักของมันคือทำให้โมเดล AI ขนาดใหญ่สามารถสังเกตหน้าจอคอมพิวเตอร์และดำเนินการต่างๆ เช่น การคลิกเมาส์ การพิมพ์คีย์บอร์ด ได้โดยตรงเหมือนผู้ใช้มนุษย์ เพื่อทำงานที่ซับซ้อนข้ามหลายแอปพลิเคชันบนเดสก์ท็อป ไม่ใช่แค่การส่งออกข้อความในกล่องแชท

TuriX-CUA: ทำให้ AI ใช้งานคอมพิวเตอร์ได้เหมือนมนุษย์ นวัตกรรมใหม่ด้านระบบอัตโนมัติข้ามแอปพลิเคชัน

หลักการพื้นฐาน: จำลองการโต้ตอบของมนุษย์

เส้นทางการทำงานของ TuriX-CUA แตกต่างจากวิธีดั้งเดิมโดยสิ้นเชิง:
* แตกต่างจาก RPA แบบดั้งเดิมหรือการผสาน API: มันไม่พึ่งพาอินเทอร์เฟซ API เฉพาะที่ซอฟต์แวร์จัดให้
* จำลองการทำงานของมนุษย์: แนวคิดหลักคือ “หากผู้ใช้มนุษย์สามารถทำงานได้ผ่านการคลิกและการพิมพ์ TuriX-CUA ก็สามารถทำได้ด้วยการจำลองวิธีเดียวกัน” ทำให้มันสามารถควบคุมแอปพลิเคชันที่ไม่ได้เปิดเผย API ได้

ผู้ใช้เพียงแค่บรรยายงานด้วยภาษาธรรมชาติ AI จะวางแผนขั้นตอนและดำเนินการโดยอัตโนมัติ ขณะนี้ มี Skill (ทักษะ) เฉพาะที่ทำให้ OpenClaw หรือ Claude Code สามารถเรียกใช้ความสามารถของ TuriX-CUA ได้ ในแพลตฟอร์มทักษะที่เกี่ยวข้อง ทักษะ “Computer Use Agent” ของมันอยู่ในอันดับต้นๆ

ภาพรวมโครงการ

โครงการนี้มุ่งเน้นการทำงานอัตโนมัติบนสภาพแวดล้อมเดสก์ท็อปทั้งหมด
* บน macOS: สามารถควบคุมเบราว์เซอร์ แอปพลิเคชันเอกสาร (เช่น Pages, Numbers) ซอฟต์แวร์อีเมล/แชท และตั้งค่าระบบ เป็นต้น
* บน Windows (มีสาขาเฉพาะที่รองรับ): รองรับระบบอัตโนมัติ GUI และการควบคุมเบราว์เซอร์ เช่น การค้นหาวิดีโอ YouTube และกดไลค์โดยอัตโนมัติ

วิธีการที่อาศัยการมองเห็นและการจำลองการโต้ตอบนี้ ทำให้มันมีความสามารถทั่วไปที่กว้างขวางกว่าเอเจนต์ (Agent) ที่จำกัดอยู่เพียงในเบราว์เซอร์หรือควบคุมเฉพาะ DOM ของเว็บเพจ

ที่อยู่โครงการโอเพ่นซอร์ส: https://github.com/TurixAI/TuriX-CUA

การสาธิตฟังก์ชัน

การสาธิตฝั่ง macOS

จองตั๋วเครื่องบิน โรงแรม และรถเรียก:
ค้นหาราคา iPhone สร้างเอกสาร Pages และส่งให้ผู้ติดต่อ:
จัดการไฟล์ Numbers ที่เจ้านายส่งผ่าน Discord สร้างกราฟแท่งแทรกใน PowerPoint และตอบกลับเจ้านาย:

การสาธิตฝั่ง Windows

ค้นหาวิดีโอเนื้อหาที่กำหนดใน YouTube และกดไลค์:

การสาธิตการผสานกับ Claude

Claude ค้นหาข่าว AI ผ่าน MCP เรียกใช้ TuriX เขียนผลการวิจัยลงในเอกสาร Pages และส่งให้ผู้ติดต่อ:

การออกแบบสถาปัตยกรรม: การทำงานร่วมกันของโมเดลหลายบทบาท

TuriX-CUA ในด้านสถาปัตยกรรม ได้แบ่งหน้าที่ของโมเดล AI ขนาดใหญ่ออกเป็นสี่บทบาท แต่ละบทบาทสามารถกำหนดค่าโมเดลที่แตกต่างกันได้ และสามารถเปลี่ยนได้แบบร้อนผ่านไฟล์กำหนดค่า:
* brain_llm (สมอง): รับผิดชอบการตัดสินใจระดับสูงและกลยุทธ์งานโดยรวม
* actor_llm (ผู้ดำเนินการ): รับผิดชอบการสร้างการดำเนินการเฉพาะตามอินเทอร์เฟซหน้าจอปัจจุบันและคำสั่ง (เช่น ตำแหน่งที่คลิก เนื้อหาที่ป้อน)
* planner_llm (ผู้วางแผน): รับผิดชอบการแบ่งงานที่บรรยายด้วยภาษาธรรมชาติออกเป็นลำดับขั้นตอนที่ปฏิบัติได้
* memory_llm (การจัดการความจำ): รับผิดชอบการอ่าน จัดระเบียบความจำระยะยาว และช่วยระบบกู้คืนสถานะงาน

การออกแบบนี้ให้ความยืดหยุ่นสูง ตัวอย่างเช่น ผู้ใช้สามารถเปลี่ยน planner_llm แยกต่างหากเพื่อทำการทดลองเปรียบเทียบตัววางแผน หรือใช้โมเดลต้นทุนต่ำกว่าเป็น memory_llm พร้อมกับใช้โมเดลขนาดใหญ่ที่มีความสามารถสูงกว่าเป็น brain_llm เพื่อรับประกันความฉลาด ทำให้เหมาะอย่างยิ่งสำหรับการเป็นเฟรมเวิร์กพื้นฐานในการวิจัยการทำงานร่วมกันของเอเจนต์หลายตัว

การใช้งานผ่าน OpenClaw

สามารถใช้ TuriX-CUA ผ่าน ClawHub Skills ของ OpenClaw:
* ที่อยู่ Skill: https://clawhub.ai/Tongyu-Yan/turix-cua
หลังจากติดตั้ง Skill นี้แล้ว OpenClaw จะสามารถเรียกใช้ TuriX-CUA เป็นเอเจนต์ควบคุมเดสก์ท็อปของคุณได้

วิธีเริ่มต้นใช้งาน

วิธีที่ 1: ใช้แอปพลิเคชันทางการ (ง่ายที่สุด)

ไปที่เว็บไซต์ทางการเพื่อดาวน์โหลดและติดตั้งแอปพลิเคชันโดยตรง
* ที่อยู่เว็บไซต์ทางการ: https://turix.ai/
TuriX-CUA: ทำให้ AI ใช้งานคอมพิวเตอร์ได้เหมือนมนุษย์ นวัตกรรมใหม่ด้านระบบอัตโนมัติข้ามแอปพลิเคชัน

วิธีที่ 2: ดำเนินการโครงการโอเพ่นซอร์สด้วยตนเอง (ตัวอย่างบน macOS)

① ติดตั้งสภาพแวดล้อม

bash git clone https://github.com/TurixAI/TuriX-CUA.git conda create -n turix_env python=3.12 conda activate turix_env pip install -r requirements.txt

② กำหนดค่าสิทธิ์ระบบ (ขั้นตอนสำคัญ)

เพื่อให้การทำงานอัตโนมัติดำเนินไปอย่างราบรื่น จำเป็นต้องกำหนดค่าสิทธิ์ต่อไปนี้:
1. ความสามารถในการเข้าถึง (Accessibility): ใน “การตั้งค่าระบบ > ความเป็นส่วนตัวและความปลอดภัย > ความสามารถในการเข้าถึง” ให้ติ๊กเลือกแอปพลิเคชันที่คุณจะใช้ เช่น Terminal, VS Code หากจำเป็น ให้เพิ่ม /usr/bin/python3 เข้าไปด้วย
2. ระบบอัตโนมัติเบราว์เซอร์ Safari:
* ใน “การตั้งค่า > ขั้นสูง” ของ Safari ให้เปิด “แสดงเมนูนักพัฒนา”
* ในเมนู “นักพัฒนา” ที่ปรากฏขึ้น ให้เปิดใช้งาน “Allow Remote Automation” และ “Allow JavaScript from Apple Events”
3. เรียกหน้าต่างขอสิทธิ์: รันคำสั่งต่อไปนี้ในเทอร์มินัลที่แตกต่างกัน เพื่อเรียกการขอสิทธิ์จากระบบ:
bash osascript -e 'tell application "Safari" to do JavaScript "alert("Triggering accessibility request")" in document 1'

③ กำหนดค่างานและโมเดล

ในไฟล์กำหนดค่า config.json ให้กรอกคำบรรยาย agent.task และกำหนดค่าโมเดลสำหรับบทบาทต่างๆ เช่น brain_llm, actor_llm รวมถึงผู้ให้บริการ (provider) ชื่อโมเดล (model_name) และคีย์ API (api_key)