Open Cowork: เพื่อนร่วมงานเสมือนบนเดสก์ท็อปโอเพ่นซอร์ส – ให้ AI ทำงานบนคอมพิวเตอร์เหมือนมนุษย์ เพื่อบรรลุการทำงานแบบครบวงจร

เมื่อ AI Agent ค่อยๆ ก้าวออกจากกล่องข้อความ ความท้าทายที่แท้จริงไม่ใช่ “การตอบกลับที่ฉลาดแค่ไหน” อีกต่อไป แต่คือความสามารถในการทำงานให้เสร็จสมบูรณ์แบบมนุษย์: เข้าใจหน้าจอ คลิกปุ่ม กรอกแบบฟอร์ม จัดระเบียบไฟล์ สร้างงานส่งมอบ และซิงค์ผลลัพธ์กลับสู่ระบบการทำงานร่วมกันของทีม

Open Cowork ที่เราเปิดตัวเป็นโอเพ่นซอร์ส คือการทดลองปฏิบัติสู่ “เพื่อนร่วมงานเสมือนบนเดสก์ท็อป” โดยรองรับการติดตั้งแบบคลิกเดียว ไม่ต้องเขียนโค้ด ให้โมเดลทำงานในแซนด์บ็อกซ์ที่ปลอดภัยบนพื้นที่ทำงานของคุณ ทั้งสามารถสร้างผลงานระดับมืออาชีพอย่าง PPT, Word, Excel, PDF และยังสามารถควบคุมคอมพิวเตอร์ผ่านอินเทอร์เฟซผู้ใช้แบบกราฟิกโดยตรง เพื่อทำงานข้ามแอปพลิเคชันที่ซับซ้อนและเป็นสากลมากขึ้น

Open Cowork: เพื่อนร่วมงานเสมือนบนเดสก์ท็อปโอเพ่นซอร์ส - ให้ AI ทำงานบนคอมพิวเตอร์เหมือนมนุษย์ เพื่อบรรลุการทำงานแบบครบวงจร

  • ที่อยู่โปรเจกต์: https://github.com/OpenCoworkAI/open-cowork

การทำงานผ่าน GUI

การสร้าง PPT

การควบคุมผ่าน Feishu

1. ทำไมเราถึงต้องการ AI ที่ “สามารถควบคุมคอมพิวเตอร์ได้”?

ในช่วงสองปีที่ผ่านมา ความสามารถในการให้เหตุผลและการสร้างสรรค์ของโมเดลขนาดใหญ่ก้าวหน้าไปอย่างรวดเร็ว แต่ในสถานการณ์การทำงานจริง งานที่ทำบ่อยมักติดขัดที่ระดับการปฏิบัติ:

  • เกาะโดดของแอปพลิเคชัน: ขาดอินเทอร์เฟซ API ที่เป็นมาตรฐานระหว่างเว็บไซต์ แอปพลิเคชันเดสก์ท็อป และระบบองค์กร
  • กระบวนการที่ขาดตอน: ข้อมูลกระจัดกระจายอยู่ในเบราว์เซอร์ เอกสาร เครื่องมือแชท และไฟล์ท้องถิ่น
  • คอขวดจากมนุษย์: ผู้ใช้ยังต้องทำหน้าที่ “คนขนย้าย” คัดลอกและวางข้อมูลด้วยตนเองระหว่างหน้าต่างต่างๆ

เราเชื่อว่า Agent ไม่ควรหยุดอยู่แค่ “การสนทนาและให้คำแนะนำ” เป้าหมายของ Open Cowork คือการทำให้การกระทำที่กระจัดกระจายเหล่านี้เป็นอัตโนมัติ: ควบคุมคอมพิวเตอร์เหมือนมนุษย์ ทำงานให้เสร็จสมบูรณ์ และนำเสนอในรูปแบบที่พร้อมส่งมอบได้ (เอกสาร ตาราง PPT) ในที่สุดก็ผสานเข้ากับกระแสการทำงานร่วมกันของทีมผ่านเครื่องมืออย่าง Feishu

2. Open Cowork คืออะไร?

Open Cowork คือการนำแนวคิด Claude Cowork มาพัฒนาเพิ่มเติมและเปิดเป็นโอเพ่นซอร์ส โดยให้แพ็คเกจติดตั้งแบบคลิกเดียวสำหรับ Windows และ macOS ใจกลางคือ “พื้นที่ทำงานแบบแซนด์บ็อกซ์”: โมเดลได้รับอนุญาตให้อ่านเขียนไฟล์ เรียกใช้เครื่องมือภายใน Workspace ที่กำหนด และประมวลผลข้อมูลเป็นงานส่งมอบระดับมืออาชีพผ่านระบบ Skills ที่มีอยู่ภายใน

นอกจากนี้ Open Cowork ไม่ใช่แค่การทำซ้ำ Claude Cowork แบบโอเพ่นซอร์สเท่านั้น เรายังได้นำฟังก์ชันการควบคุมระยะไกลหลักของ OpenClaw ที่เป็นที่นิยมล่าสุดมาใช้ (เช่น ส่งคำสั่งทางไกลผ่าน Feishu และรับการตอบกลับ) และรองรับการทำงาน GUI ทั่วไปสำหรับแอปพลิเคชันบนคอมพิวเตอร์ (เช่น รองรับให้โมเดลควบคุมแอปพลิเคชัน Cursor เพื่อปรับปรุงโค้ดแบบวนซ้ำและทดสอบแบบโต้ตอบ) ซึ่งสำคัญมากสำหรับแอปพลิเคชันเดสก์ท็อปที่ไม่มีอินเทอร์เฟซ MCP

ตารางเปรียบเทียบความสามารถ:

| คุณลักษณะ | MCP & Skills | Remote Control (การทำงานร่วมกันระยะไกล) | GUI Operation (การควบคุมหน้าจอ) |
| :— | :— | :— | :— |
| Claude Cowork | ✅ | ❌ | ❌ |
| OpenClaw | ✅ | ✅ | ❌ |
| Open Cowork | ✅ | ✅ | ✅ |

3. ชุดความสามารถหลักสามประการ: Skills × GUI × Remote

1. Skills: “คลังทักษะเวิร์กโฟลว์” มุ่งสู่การส่งมอบ

คุณค่าของ Agent ไม่ควรหยุดอยู่ที่หน้าต่างแชท Open Cowork มีระบบ Skills มาตรฐานในตัว (รองรับการกำหนดเองและขยายได้) โดยมีเป้าหมายหลักคือการสร้างไฟล์ที่ใช้งานได้ทันที

  • ครอบคลุมรูปแบบหลัก: รองรับการสร้างและแก้ไข PPTX, DOCX, XLSX, PDF แบบเนทีฟ
  • เอาต์พุตที่มีโครงสร้าง: ไม่ว่าจะเป็นการแปลงข้อความที่ไม่มีโครงสร้างเป็นรายงาน Excel หรือการสร้างสไลด์นำเสนออัตโนมัติจากโครงร่าง โมเดลสามารถส่งมอบ “งานกึ่งสำเร็จ” หรือแม้แต่ “งานสำเร็จ” ได้โดยตรง แทนที่จะเป็นข้อความสถานะกลาง

(ตัวอย่างวิดีโอ: การทำ PPT – สร้างไฟล์ PPTX ที่แก้ไขได้อัตโนมัติจากไฟล์ท้องถิ่น/โครงร่าง)

2. GUI: ให้โมเดลควบคุมคอมพิวเตอร์เหมือนมนุษย์ ขยายขอบเขตความสามารถ

API ไม่สามารถครอบคลุมทุกที่เสมอไป แต่อินเทอร์เฟซ UI เป็นสากล โมดูล GUI ทำให้โมเดลมีความสามารถ “การควบคุมแบบมนุษย์” ขยายความสามารถในการใช้งานของ Agent ไปถึงระดับระบบปฏิบัติการ

  • Screen-to-Action: เข้าใจสถานะ UI ปัจจุบันผ่านภาพหน้าจอ วางแผนและดำเนินการคลิกเมาส์ ลาก ใส่ข้อความ ฯลฯ
  • ระบบอัตโนมัติข้ามแอปพลิเคชัน: สามารถจัดการโซ่การทำงานข้ามซอฟต์แวร์ที่ซับซ้อนได้ (เช่น: ดึงข้อมูลจาก ERP -> กรอกลงใน Excel -> ส่งออกเป็น PDF)

ในแง่ประสบการณ์ผู้ใช้ เราเน้นที่ “สามารถทำได้มากขึ้น ลงมือทำเหมือนมนุษย์” สำหรับงานที่ต้องเข้าใจและควบคุม GUI แนะนำให้เลือกโมเดลมัลติโมดัลที่แข็งแกร่งกว่าเพื่อให้การดำเนินการขั้นตอนมีเสถียรภาพมากขึ้น

(ตัวอย่างวิดีโอ: การทำงาน GUI – ใช้อินเทอร์เฟซ GUI ควบคุม Cursor เขียนโปรแกรมเล็กๆ และปรับปรุงแบบวนซ้ำ)

3. Remote: เชื่อมต่อ Feishu ทำให้กลายเป็น “เพื่อนร่วมงานเสมือน” ที่แท้จริง

หากพูดว่า GUI ทำให้มัน “ทำงานเป็น” Remote ก็ทำให้มัน “เข้าใจการทำงานร่วมกัน” Open Cowork ปฏิเสธที่จะเป็นแค่โปรแกรมเดสก์ท็อปที่โดดเดี่ยว ด้วยการเชื่อมต่อกับแพลตฟอร์มการทำงานร่วมกันอย่าง Feishu มันได้ทำลายกำแพงระหว่างการดำเนินการท้องถิ่นและการทำงานร่วมกันของทีม

  • เวิร์กโฟลว์แบบวงจรปิด: AI ประมวลผลข้อมูลบนคอมพิวเตอร์ของคุณ (GUI/Skills) เสร็จแล้วก็สามารถส่งรายงานที่ทำเสร็จแล้วไปยังกลุ่มแชทของแผนก (Remote) หรือซิงค์ไปยังเอกสารออนไลน์ได้ทันที
  • เพื่อนร่วมงานเสมือนที่แท้จริง: มันมีทั้งสิทธิ์การดำเนินการในสภาพแวดล้อมท้องถิ่น และสิทธิ์การสื่อสารในระบบทีม ผลงานไม่หยุดอยู่แค่ในฮาร์ดไดรฟ์ของคุณอีกต่อไป แต่ไหลเวียนโดยตรงสู่กระแสธุรกิจของทีม

(ตัวอย่างวิดีโอ: การควบคุมระยะไกล – ใช้ Feishu ควบคุม Open Cowork ระยะไกล)

4. ความปลอดภัย: ทำให้ “ความสามารถในการลงมือทำ” ควบคุมได้มากที่สุด

ยิ่ง Agent บนเดสก์ท็อปมีความสามารถมากเท่าไหร่ ขอบเขตความปลอดภัยก็ยิ่งสำคัญมากขึ้นเท่านั้น Open Cowork ยึดมั่นในหลักการออกแบบ “ปลอดภัยโดยค่าเริ่มต้น” โดยจำกัดการดำเนินการทั้งหมดไว้ภายใน Workspace ที่คุณเลือกไว้โดยค่าเริ่มต้น พร้อมกันนี้ เรายังมีตัวเลือกการแยกระดับเครื่องเสมือนที่แข็งแกร่งกว่า เพื่อลดผลกระทบต่อโฮสต์

  • ข้อจำกัดของ Workspace: สิทธิ์การอ่านเขียนไฟล์ถูกกำหนดไว้อย่างเคร่งครัดภายในไดเรกทอรีที่ผู้ใช้อนุญาต ป้องกันการสแกนทั้งดิสก์
  • การแยกสภาพแวดล้อม (Sandbox): มีโซลูชันการแยกที่แข็งแกร่งโดยอิงตาม virtualization
    • Windows: แนะนำให้ใช้ระบบย่อย WSL2 ในการรันลอจิกหลัก
    • macOS: ปรับให้เข้ากับสภาพแวดล้อมเครื่องเสมือน Lima โดยการใส่การดำเนินการคำสั่งลงในแซนด์บ็อกซ์ที่แยกออกมา เพื่อลดความเสี่ยงจากการดำเนินการผิดพลาดให้มากที่สุด

5. เริ่มต้นใช้งานอย่างรวดเร็วได้อย่างไร (3 นาที)

  1. ดาวน์โหลดและติดตั้ง: Windows ใช้แพ็คเกจติดตั้ง .exe, macOS (Apple Silicon) ใช้แพ็คเกจติดตั้ง .dmg
  2. กำหนดค่าโมเดล: กรอก API Key, Base URL และชื่อโมเดลในหน้าตั้งค่า (รองรับผู้ให้บริการหลายรายที่เข้ากันได้กับ OpenAI/Anthropic)
  3. เลือกพื้นที่ทำงาน: อนุญาตโฟลเดอร์ที่คุณต้องการให้ AI ควบคุมเป็น Workspace
  4. เริ่มทำงานร่วมกัน: ตัวอย่างเช่น ออกคำสั่ง: “อ่านไฟล์ financial_report.csv ในโฟลเดอร์นี้ สรุปเป็น PPT 5 หน้า และส่งผลลัพธ์ไปที่กลุ่มแชท Feishu”

6. โอเพ่นซอร์สและการสร้างร่วมกัน

Open Cowork เปิดเป็นโอเพ่นซอร์สภายใต้สัญญา MIT License ยินดีต้อนรับนักพัฒนามาร่วมสร้าง Skills ใหม่, MCP Connector, การบูรณาการ Remote และการปรับปรุงการทำงาน GUI เราหวังว่าจะร่วมมือกับพันธมิตรในชุมชนมากขึ้น เพื่อพัฒนา “เพื่อนร่วมงานเสมือนบนเดสก์ท็อป” จากแนวคิดสาธิตไปสู่โครงสร้างพื้นฐานที่สามารถพัฒนาต่อได้อย่างยั่งยืน


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23563

Like (0)
Previous 20 hours ago
Next 20 hours ago

相关推荐