01 แปลงรูปภาพและ PDF เป็นรูปแบบที่แก้ไขได้
Edit Banana เป็นโครงการโอเพนซอร์สที่พัฒนาโดยมหาวิทยาลัยเทคโนโลยีปักกิ่ง มันสามารถแปลงแผนภูมิสถิติ แผนผังลำดับงานในรูปแบบรูปภาพหรือ PDF ที่ไม่สามารถแก้ไขได้ ให้เป็นรูปแบบที่สามารถแก้ไขได้อย่างสมบูรณ์ เช่น XML ของ DrawIO หรือ PPTX

โครงการนี้ไม่ใช่แค่เครื่องมือ OCR ธรรมดา แต่ใช้โมเดลคอมพิวเตอร์วิทัศน์เพื่อสร้างโครงสร้างความสัมพันธ์เชิงตรรกะ องค์ประกอบรูปทรง และข้อความในแผนภูมิขึ้นใหม่ลึกซึ้ง ทำให้ได้ผลลัพธ์ที่เหมือนต้นฉบับสูง องค์ประกอบกราฟิกที่สร้างขึ้นสามารถเลือกและแก้ไขได้อย่างอิสระ ไม่ใช่แค่ภาพพื้นหลังธรรมดา
มันรองรับการแปลงรูปภาพหรือ PDF ที่อัปโหลดเป็นรูปแบบ DrawIO (XML) และ PPTX ต่อไปนี้คือตัวอย่างเปรียบเทียบระหว่างรูปภาพต้นฉบับกับเวอร์ชันที่สร้างใหม่และแก้ไขได้:
รูปภาพต้นฉบับ:

เวอร์ชันที่แปลงแล้วและแก้ไขได้:

รูปภาพต้นฉบับ:

เวอร์ชันที่แปลงแล้วและแก้ไขได้:

รูปภาพต้นฉบับ:

เวอร์ชันที่แปลงแล้วและแก้ไขได้:

รูปภาพต้นฉบับ:

เวอร์ชันที่แปลงแล้วและแก้ไขได้:

โครงการนี้มีอินเทอร์เฟซเว็บ ผู้ใช้สามารถอัปโหลดไฟล์และแก้ไขแบบเรียลไทม์ได้ในตัวแก้ไขที่ฝังไว้
ที่อยู่โอเพนซอร์ส: https://github.com/bit-datalab/edit-banana
02 โมเดลใหญ่ปัญญาประดิษฐ์เชิงกายภาพโอเพนซอร์สของ Xiaomi
ทีมหุ่นยนต์ Xiaomi Robotics ได้เปิดเผยผลการวิจัยระยะหนึ่งในเดือนกุมภาพันธ์ปีนี้: Xiaomi-Robotics-0 นี่คือโมเดลวิสัยทัศน์-ภาษา-การกระทำ (Vision-Language-Action, VLA) ขั้นสูง มีเป้าหมายเพื่อเพิ่มความสามารถในการรับรู้ทั่วไปและการดำเนินการแบบเรียลไทม์ของหุ่นยนต์

Xiaomi-Robotics-0 เป็นโมเดลใหญ่ปัญญาประดิษฐ์เชิงกายภาพที่มีพารามิเตอร์ 4.7 พันล้านตัว มันไม่เพียงแต่เข้าใจสภาพแวดล้อมทางภาพที่ซับซ้อนและคำสั่งภาษาเท่านั้น แต่ยังสามารถสร้างการควบคุมการเคลื่อนไหวของหุ่นยนต์ได้โดยตรง คุณลักษณะที่ใหญ่ที่สุดของโมเดลนี้คือการรักษาความสามารถในการปรับใช้ทั่วไปที่แข็งแกร่ง ในขณะเดียวกันก็แก้ไขปัญหาความล่าช้าในการอนุมานที่พบบ่อยของโมเดลใหญ่ในสาขาหุ่นยนต์ ทำให้สามารถดำเนินการแบบเรียลไทม์ที่มีประสิทธิภาพสูงได้
ที่อยู่โอเพนซอร์ส: https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
03 MyCodeAgent
MyCodeAgent เป็นโครงการโอเพนซอร์สที่มีเป้าหมายเพื่อพัฒนาเอเจนต์โค้ดอัจฉริยะคล้าย Claude Code ตั้งแต่เริ่มต้น





โครงการนี้เริ่มต้นจากบทเรียนโอเพนซอร์ส Hello-Agent ของ Datawhale และสร้างเวอร์ชันเริ่มต้นอย่างรวดเร็วโดยใช้โครงร่างของมัน

เวอร์ชันเริ่มต้นแม้จะหยาบ แต่ก็สามารถตรวจสอบเวิร์กโฟลว์หลักได้สำเร็จ และเผยให้เห็นปัญหาด้านวิศวกรรมหลายประการ เช่น เครื่องมือควบคุมไม่ได้ โปรโตคอลเปราะบาง บริบทขยายตัว เป็นต้น เพื่อแก้ไขปัญหาเหล่านี้ โครงการได้ดำเนินการปรับปรุงทางวิศวกรรมอย่างเป็นระบบหลายประการ แนวคิดหลักคือผ่านการออกแบบทางวิศวกรรม เช่น การทำให้เครื่องมือเป็นอะตอมมิก การทำให้โปรโตคอลมีโครงสร้าง การจัดการบริบท การสังเกตสถานะได้ เพื่อจำกัดพฤติกรรมอิสระที่ไม่แน่นอนของโมเดลให้อยู่ในขอบเขตที่ควบคุมได้
แนวคิดการพัฒนาของมันเชื่อว่า ค่าหลักของ Agent ไม่ใช่การแสวงหาอิสรภาพที่ไร้ขีดจำกัดของโมเดล แต่เป็นการควบคุมความสามารถของโมเดลผ่านการออกแบบทางวิศวกรรมที่มั่นคง แปลงความฉลาดที่ไม่น่าเชื่อถือให้เป็นพลังการผลิตที่มั่นคงและควบคุมได้ โดยพื้นฐานแล้วเป็นกระบวนการแก้ไขและเติมเต็มความไม่แน่นอนของโมเดลภาษาขนาดใหญ่อย่างเป็นระบบ
ที่อยู่โอเพนซอร์ส: https://github.com/YYHDBL/MyCodeAgent
04 ผู้ช่วย AI บนเดสก์ท็อปโอเพนซอร์ส
Accomplish เป็นผู้ช่วย AI บนเดสก์ท็อปโอเพนซอร์ส มันผสานความสามารถของ AI เข้ากับสภาพแวดล้อมเดสก์ท็อปท้องถิ่นโดยตรง เพื่อช่วยให้ผู้ใช้ประมวลผลไฟล์ เอกสาร และงานเบราว์เซอร์โดยอัตโนมัติ ในขณะเดียวกันก็ให้ความสำคัญกับความเป็นส่วนตัวและการควบคุมท้องถิ่นเป็นอย่างสูง

มันสามารถจัดประเภทไฟล์ เปลี่ยนชื่อไฟล์ ย้ายไฟล์ หรือทำความสะอาดไฟล์โดยอัตโนมัติตามเนื้อหาไฟล์หรือกฎที่ผู้ใช้กำหนด ในขณะเดียวกันก็สนับสนุนการเขียนร่าง สรุปเอกสารยาว เขียนรายงานหรือบันทึกการประชุมใหม่ และสามารถทำงานร่วมกับเครื่องมือต่างๆ เช่น Notion, Google Drive, Dropbox ได้

นอกจากนี้ มันยังสามารถดำเนินการวิจัยเว็บ กรอกแบบฟอร์ม เป็นต้น ในเบราว์เซอร์โดยอัตโนมัติ ผู้ใช้สามารถกำหนดเวิร์กโฟลว์ที่ทำซ้ำได้เป็น Skill และบันทึกไว้ เพื่อความสะดวกในการเรียกใช้เมื่อใดก็ได้

ผู้ช่วยนี้สามารถดึงข้อมูลจากไฟล์และบันทึกที่กระจัดกระจาย สร้างรายงานประจำสัปดาห์หรือข้อมูลเตรียมการประชุมโดยอัตโนมัติ สำหรับผู้ใช้ที่ต้องการใช้ AI จัดการไฟล์คอมพิวเตอร์ ดำเนินงานซ้ำๆ โดยอัตโนมัติ และไม่ต้องการอัปโหลดข้อมูลส่วนตัวขึ้นคลาวด์ Accomplish เป็นเครื่องมือที่ควรลองใช้ มันรวมความสามารถในการเข้าใจของ AI เข้ากับความสามารถในการดำเนินการของระบบท้องถิ่น เป็นตัวแทนที่โดดเด่นของการนำ AI Agent ไปใช้บนเดสก์ท็อป
ที่อยู่โอเพนซอร์ส: https://github.com/accomplish-ai/accomplish
ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22876
