Mac AI ท้องถิ่นก้าวหน้าใหม่: โมเดล 4B ทำความเร็ว 476 tokens/s ควบคุมเดสก์ท็อปได้โดยไม่ต้องอัปโหลดข้อมูลขึ้นคลาวด์

ความก้าวหน้าครั้งใหม่ของ AI บน Mac: โมเดล 4B ทำความเร็ว 476 tokens/s ควบคุมเดสก์ท็อปได้โดยไม่ต้องอัปโหลดข้อมูล

เมื่อไม่นานมานี้ โปรเจกต์โอเพนซอร์สที่ชื่อ Skill ได้รับความสนใจ เพราะมันช่วยให้ Agent ควบคุม Mac ของคุณได้ เครื่องมือนี้เข้าใจอินเทอร์เฟซซอฟต์แวร์ใดๆ บนเดสก์ท็อปด้วยวิธีทางภาพล้วนๆ ทำงานเหมือนมนุษย์ และการประมวลผลทั้งหมดเกิดขึ้นบนเครื่องของคุณเอง โดยข้อมูลจะไม่ถูกอัปโหลดไปยังคลาวด์

หลังจากที่ Skill เปิดซอร์ส ทีมงานก็ได้เปิดซอร์สโมเดลฝั่งอุปกรณ์ (end-side model) ในที่สุด นอกจากนี้ พวกเขายังเปิดซอร์สเฟรมเวิร์กเร่งความเร็วการอนุมานที่ชื่อ Cider ซึ่งออกแบบมาเพื่อเร่งความเร็วโมเดล MLX บน Apple Silicon โดยเฉพาะ การรวมสองโปรเจกต์นี้เข้าด้วยกันช่วยยกระดับ AI ฝั่งอุปกรณ์จาก “แค่ทำงานได้” เป็น “ทำงานเร็วและมีประสิทธิภาพ” ในอนาคต ทีมงานจะเปิดซอร์สวิธีการฝึกโมเดล mano-p เพื่อช่วยให้นักพัฒนาสามารถฝึกโมเดล GUI Agent ที่ปรับแต่งได้ด้วยข้อมูลของตนเอง

Mac AI ท้องถิ่นก้าวหน้าใหม่: โมเดล 4B ทำความเร็ว 476 tokens/s ควบคุมเดสก์ท็อปได้โดยไม่ต้องอัปโหลดข้อมูลขึ้นคลาวด์

01 GUI Agent ที่ทำงานบน Mac ในเครื่องได้

Mano-P เป็นโมเดล GUI-VLA ที่เข้าใจและจัดการอินเทอร์เฟซกราฟิกด้วยวิธีทางภาพล้วนๆ โดยไม่ต้องพึ่งพาโปรโตคอล CDP หรือการแยกวิเคราะห์ HTML เพียงแค่ดูภาพหน้าจอก็สามารถระบุองค์ประกอบของอินเทอร์เฟซ คลิก ป้อนข้อมูล และดำเนินการที่ซับซ้อนได้

มันไม่ได้จำกัดอยู่แค่ในเบราว์เซอร์ แต่สามารถควบคุมซอฟต์แวร์เดสก์ท็อป เครื่องมือมืออาชีพ และแอปพลิเคชัน 3D ได้ ในด้านข้อมูลการฝึก มันใช้ข้อมูลเส้นทาง GUI จำนวน 60,000 รายการ ครอบคลุมการกระทำมากกว่า 3 ล้านครั้ง เกี่ยวข้องกับสถานการณ์การทำงานบนเดสก์ท็อปและเว็บทั่วไป ข้อมูลประสิทธิภาพก็โดดเด่นเช่นกัน: โมเดลควอนไทซ์ 4B บน Apple M4 Pro มีความเร็วในการเติมข้อมูลล่วงหน้า (prefill) 476 tokens/s และความเร็วในการถอดรหัส (decode) 76 tokens/s โดยใช้หน่วยความจำสูงสุดเพียง 4.3GB โมเดลขนาดเล็ก 4B นี้มีความแม่นยำเทียบเท่ากับโมเดลคลาวด์ขนาดใหญ่ในงาน CUA และทำงานในเครื่องทั้งหมด โดยภาพหน้าจอและข้อมูลงานทั้งหมดไม่ต้องออกจากอุปกรณ์ นอกจากนี้ยังรองรับการวางแผนอัตโนมัติสำหรับงานระยะยาวแบบออฟไลน์ ทำให้กระบวนการทางธุรกิจที่ซับซ้อนสามารถตัดสินใจและแก้ไขข้อผิดพลาดได้เองโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต

การติดตั้งง่ายมาก เพียงใช้คำสั่งเดียว:

brew tap HanningWang/tap
brew install mano-cua

หลังจากติดตั้งเสร็จก็สามารถใช้งานได้:

mano-cua run "เปิด WeChat บอก XXX ว่าประชุมเลื่อน"

แน่นอนว่ามันยังรองรับการเชื่อมต่อผ่านวิธี Skill อีกด้วย

02 Cider: เฟรมเวิร์กเร่งความเร็วที่ทำให้โมเดลฝั่งอุปกรณ์ทำงานเร็วขึ้น

สาเหตุที่ Mano-P ทำงานบน Mac ได้เร็วขนาดนี้ ต้องขอบคุณการสนับสนุนจาก Cider Cider เป็นเฟรมเวิร์กเร่งความเร็วการอนุมานที่ทีมพัฒนาขึ้นเอง โดยอาศัยระบบนิเวศ Apple MLX มันเติมเต็มความสามารถในการคำนวณควอนไทซ์ W8A8 และ W4A8 ที่เฟรมเวิร์ก MLX ดั้งเดิมขาดหายไป ปัจจุบัน MLX รองรับโหมดควอนไทซ์น้ำหนัก เช่น W4A16 และ W8A16 แต่ขาดการควอนไทซ์แอคติเวชัน Cider ใช้ Apple Metal 4 API ระดับล่าง เพื่อให้การคำนวณ INT8 TensorOps ที่เร่งด้วยฮาร์ดแวร์บน Apple GPU เป็นครั้งแรก

ข้อมูลการทดสอบจริงแสดงให้เห็นว่า: ในโหมด W8A8 ความเร็วของโอเปอเรเตอร์เพิ่มขึ้น 1.4x ถึง 1.9x เมื่อเทียบกับ MLX ดั้งเดิม ขึ้นอยู่กับ batch size ยกตัวอย่าง Qwen3-8B ความเร็วในการเติมข้อมูลล่วงหน้าแบบ FP16 ดั้งเดิมคือ 1695 tokens/s หลังจากเร่งด้วย Cider W8A8 ก็สามารถทำได้ถึง 2531 tokens/s เพิ่มขึ้นเกือบ 1.5 เท่า Llama3-8B ก็คล้ายกัน จาก 1727 tokens/s เพิ่มเป็น 2520 tokens/s สำหรับโมเดลภาษาภาพอย่าง Qwen3-VL-2B ในสถานการณ์ chunked prefill การเติมข้อมูลล่วงหน้าแบบ end-to-end เร่งขึ้น 57% ถึง 61%

การเชื่อมต่อง่ายมาก เพียงโค้ดบรรทัดเดียวก็สามารถแทนที่เลเยอร์ Linear ของโมเดล MLX ใดๆ ด้วยเวอร์ชันเร่งความเร็วของ Cider:

from cider import convert_model, is_available

model, proc = load("path/to/model")
if is_available():
convert_model(model)  # CiderLinear auto-detects:
# seq_len > 1 - W8A8 INT8 TensorOps (faster prefill)
# seq_len == 1 - INT8 MV kernel (near-native decode speed)
else:
pass  # Falls back to standard MLX inference on M4

มันจะตัดสินใจโดยอัตโนมัติ: เมื่อ seq_len > 1 จะใช้ W8A8 INT8 TensorOps เพื่อเร่งการเติมข้อมูลล่วงหน้า เมื่อ seq_len == 1 จะกลับไปใช้น้ำหนักเดิมเพื่อให้ประสิทธิภาพการถอดรหัสดีที่สุด กระบวนการทั้งหมดไม่ต้องสลับด้วยตนเอง

Cider ไม่เพียงแต่ใช้ได้กับ Mano-P เท่านั้น โมเดลใดๆ ที่ทำงานบน MLX (เช่น Qwen, Llama, Mistral) ก็สามารถใช้ Cider เพื่อเร่งความเร็วได้

03 สิ่งที่ทำได้ด้วย Mano-P

ประการแรก มันสามารถทำให้กระบวนการสร้างแอปพลิเคชันเป็นอัตโนมัติเต็มรูปแบบ คุณเพียงแค่บรรยายความต้องการด้วยภาษาธรรมชาติ ระบบจะดำเนินการชี้แจงความต้องการ ออกแบบสถาปัตยกรรม สร้างโค้ด และปรับใช้ในเครื่องตามลำดับ จากนั้นจะเข้าสู่ขั้นตอนการทดสอบหลายระดับ รวมถึงการทดสอบอินเทอร์เฟซ API การตรวจสอบภาพหน้าเว็บด้วย LLM และสุดท้ายคือการทดสอบ GUI อัตโนมัติแบบ end-to-end ผ่านโมเดล VLA หากการทดสอบไม่ผ่าน ระบบจะระบุปัญหา แก้ไขโค้ด และปรับใช้ใหม่โดยอัตโนมัติ ทำซ้ำจนกว่าทุกอย่างจะผ่าน กระบวนการทั้งหมดไม่ต้องมีการแทรกแซงจากมนุษย์

นอกจากนี้ ยังสามารถใช้สำหรับระบบวิดีโออัจฉริยะเชิงพาณิชย์ได้ ตั้งแต่การออกคำสั่ง ระบบจะดำเนินการสร้างวิดีโอ อัปโหลด วิเคราะห์ ตัดต่อ และประเมินผลซ้ำโดยอัตโนมัติ ระบบสามารถทำงานบนเว็บเพจและซอฟต์แวร์ตัดต่อ จัดการไฟล์ แก้ไขคำบรรยาย และสุดท้ายสร้างรายงานวิเคราะห์ที่มีทั้งการประเมินเชิงอัตนัยและตัวชี้วัดเชิงวัตถุ

ลักษณะสำคัญของสถานการณ์เหล่านี้เหมือนกัน: ข้อมูลภาพหน้าจอและการทำงานของอินเทอร์เฟซจำนวนมากทั้งหมดถูกประมวลผลในเครื่อง ไม่มีการอัปโหลดไปยังคลาวด์ใดๆ จากมุมมองด้านต้นทุน สิ่งนี้มีความหมายมากกว่า ในสายการเขียนโปรแกรมอัตโนมัติเต็มรูปแบบ การทดสอบ GUI ใช้โทเค็นคลาวด์มากกว่า 59% การทดสอบ API สามารถตรวจสอบได้เพียงว่าอินเทอร์เฟซทำงานปกติหรือไม่ แต่ซอฟต์แวร์ใช้งานได้จริงหรือไม่ ยังคงต้องมีคนเปิดอินเทอร์เฟซและทดลองใช้งานเพื่อยืนยัน กระบวนการนี้ต้องพึ่งพาความเข้าใจหลายรูปแบบโดยธรรมชาติ โมเดลต้องประมวลผลภาพหน้าจอ ระบุองค์ประกอบ ดำเนินการ และตัดสินผลลัพธ์อย่างต่อเนื่อง การอนุมาน消耗มาก Mano-P ทำให้ค่าใช้จ่ายส่วนนี้เป็นศูนย์ทันที ไม่ต้องเรียก API ไม่ต้องส่งภาพหน้าจอ ไม่เสียเงินแม้แต่บาทเดียว

เปรียบเทียบกับ Claude Computer Use: Claude มีคะแนนรวมใน OSWorld สูงกว่า (72.1% เทียบกับ 58.2% ของ Mano-P) แต่ Claude ต้องเรียก API บนคลาวด์ ภาพหน้าจอและข้อมูลงานของคุณต้องถูกอัปโหลด ในขณะที่ Mano-P ทำงานในเครื่องทั้งหมด ข้อมูลไม่ต้องออกจากอุปกรณ์ หากสถานการณ์ของคุณต้องการความเป็นส่วนตัวและความปลอดภัย เช่น การทดสอบระบบภายในองค์กร หรือกระบวนการอัตโนมัติที่จัดการข้อมูลที่ละเอียดอ่อน โซลูชันฝั่งอุปกรณ์เป็นตัวเลือกที่สมจริงกว่าในปัจจุบัน

ที่อยู่โอเพนซอร์ส:
Mano-P: https://github.com/Mininglamp-AI/Mano-P
Cider: https://github.com/Mininglamp-AI/cider

Mano-P พิสูจน์ให้เห็นถึงคุณค่าของการประยุกต์ใช้ GUI Agent ฝั่งอุปกรณ์ ในขณะที่ Cider แก้ปัญหาพื้นฐานที่สุดของการนำ AI ฝั่งอุปกรณ์ไปใช้: วิธีทำให้โมเดลทำงานบน Mac เร็วขึ้น ใช้หน่วยความจำน้อยลง และใกล้เคียงกับการใช้งานจริงมากขึ้น จาก Mano-P ถึง Cider บริษัท Minglue Technology กำลังสร้างโครงสร้างพื้นฐานของ AI ฝั่งอุปกรณ์และ AI ส่วนตัว


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33518

Like (0)
Previous 6 days ago
Next 6 days ago

相关推荐