AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

“กล่องดำ” ของวิดีโอผ่าตัดถูกทลายจนหมดสิ้นแล้ว!

เมื่อไม่นานมานี้ บน GitHub และชุมชน Hugging Face ได้มีการเปิดตัวอาวุธสำคัญในวงการโมเดลการแพทย์ขนาดใหญ่พร้อมกัน นั่นคือ โมเดลขนาดใหญ่เพื่อความเข้าใจวิดีโอทางการแพทย์ที่ใหญ่ที่สุดและมีประสิทธิภาพสูงที่สุดในโลก uAI Nexus MedVLM (ชื่อไทย: โมเดลความเข้าใจวิดีโอทางการแพทย์อัจฉริยะหยวนจื้อ) ซึ่งเปิดเป็นโอเพนซอร์สอย่างสมบูรณ์แล้ว!

สิ่งที่น่าทึ่งที่สุดคือ มันสามารถเข้าใจขั้นตอนการผ่าตัดได้จริง

บทความวิจัยของโมเดลนี้ได้รับการตีพิมพ์ใน CVPR 2026 และทีมวิจัยยังได้เผยแพร่ชุดทดสอบมาตรฐานที่ประกอบด้วยคู่วิดีโอ-คำสั่งจำนวน 6,245 คู่พร้อมกัน นี่หมายความว่าอย่างไร? ในที่สุดวงการความเข้าใจวิดีโอทางการแพทย์ก็มี “มาตรวัดสาธารณะ” ที่เป็นหนึ่งเดียว

การเปิดเผยข้อมูลวิดีโอทางการแพทย์ขนาดใหญ่และมีความแม่นยำสูงเช่นนี้ เป็นครั้งแรกในวงการ

ผู้เขียนได้รีบไปที่ Hugging Face ทันที ดาวน์โหลดโมเดลและทดสอบจริง

มีความสามารถแค่ไหน?

มาดูตัวชี้วัดหลักของ uAI Nexus MedVLM กันก่อน:

  • รวบรวมข้อมูลคู่วิดีโอ-คำสั่งมากกว่า 530,000 รายการ;
  • รองรับขนาดพารามิเตอร์ 4B/7B สามารถติดตั้งได้ด้วยการ์ดจอเพียงใบเดียว (ใช่แล้ว ใช้แค่ใบเดียวก็รันได้);
  • บูรณาการชุดข้อมูลทางการแพทย์เฉพาะทาง 8 ชุด ครอบคลุมการส่องกล้อง การผ่าตัดผ่านกล้อง การผ่าตัดแบบเปิด การผ่าตัดด้วยหุ่นยนต์ การปฏิบัติการพยาบาล… เกือบทุกสถานการณ์การผ่าตัดที่คุณนึกถึง มันรวมไว้หมด

ผลการทดสอบจริงเป็นอย่างไร?

การออกแบบประสบการณ์ของ Demo นั้นใช้งานง่ายมาก: โมดูลหลักของอินเทอร์เฟซชัดเจน; รองรับการอัปโหลดไฟล์วิดีโอผ่าตัด

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

คุณสามารถอัปโหลดวิดีโอทางการแพทย์ของคุณเอง หรือใช้ตัวอย่างที่ตั้งไว้ล่วงหน้าเพื่อทดสอบ

ฉันเลือกใช้วิดีโอการผ่าตัดถุงน้ำดีผ่านกล้องจากตัวอย่าง ทดสอบจากสามมิติหลักทางคลินิก และเปรียบเทียบความแตกต่างของผลลัพธ์ระหว่างโมเดลทั่วไป (GPT-5.4, Gemini-3.1, โมเดลจีนบางรุ่น) กับ uAI Nexus MedVLM

การทดสอบเชิงปริมาณ ข้อมูลนั้นโหดร้ายมาก! ความแม่นยำในการประเมินความปลอดภัยในการผ่าตัดสูงถึง 89.7%

นี่คืออะไร? GPT-5.4 มีเพียง 16.4%, Gemini-3.1 อยู่ที่ 24.2%, และโมเดลจีนบางรุ่นก็มีเพียง 30.9% กล่าวอีกนัยหนึ่ง ความแม่นยำของ uAI Nexus MedVLM สูงกว่า GPT-5.4 เกือบ 5.5 เท่า สูงกว่า Gemini-3.1 3.7 เท่า และสูงกว่าโมเดลจีนเกือบ 3 เท่า

ด้านการระบุตำแหน่งการกระทำเชิงเวลา-พื้นที่: mIoU ของ uAI Nexus MedVLM สูงกว่า Gemini-3.1 3.2 เท่า สูงกว่าโมเดลจีน 3.7 เท่า และสูงกว่า GPT-5.4 ถึง 47 เท่า

การสร้างรายงานวิดีโอ (คะแนนเต็ม 5): uAI Nexus MedVLM ได้ 4.24 คะแนน, GPT-5.4 ได้เพียง 3.98 คะแนน, โมเดลจีนบางรุ่นได้แค่ 3.5 คะแนน, และ Gemini-3.1 ก็ได้เพียง 3.7 คะแนน

และหลังจากปรับปรุงด้วย การเรียนรู้แบบเสริมแรง MedGRPO เมื่อเทียบกับโมเดลฐาน ความสามารถในการ ระบุตำแหน่งเครื่องมือ ของ uAI Nexus MedVLM เพิ่มขึ้น 14%; ความสามารถในการ ระบุขั้นตอนการผ่าตัด เพิ่มขึ้นถึง 52%; คุณภาพคำอธิบายการผ่าตัด เพิ่มขึ้น 16% ถึง 25%

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

uAI Nexus MedVLM ครอบคลุมสถานการณ์ทางคลินิกที่หลากหลาย เช่น การผ่าตัดส่องกล้อง การผ่าตัดแบบเปิด การผ่าตัดด้วยหุ่นยนต์ การปฏิบัติการพยาบาล ครอบคลุม 8 ภารกิจในชุดข้อมูลการผ่าตัด 8 ชุด:

การสรุปวิดีโอ (VS), การประเมินขอบเขตความปลอดภัยที่สำคัญ (CVS), การทำนายขั้นตอนถัดไป (NAP), การประเมินทักษะ (SA), การระบุตำแหน่งการกระทำเชิงเวลา (TAG), คำอธิบายวิดีโอแบบหนาแน่น (DVC), คำอธิบายระดับภูมิภาค (RC) และการวางรากฐานเชิงเวลา-พื้นที่ (STG) ผลลัพธ์ของแต่ละภารกิจเหนือกว่า GPT และ Gemini อย่างสมบูรณ์

มาดูผลลัพธ์ของ การทดสอบเชิงคุณภาพ กัน: ส่งวิดีโอผ่าตัดที่มีกรอบสีเขียวกำกับไปให้โมเดล และให้มันอธิบาย

คำถามที่ป้อน: คุณเป็นผู้เชี่ยวชาญด้านการวิเคราะห์การผ่าตัดที่เชี่ยวชาญด้านการผ่าตัดผ่านกล้องน้อยที่สุด วิดีโอนี้แสดงภาพจากการส่องกล้องของการผ่าตัดถุงน้ำดีผ่านกล้อง โปรดอธิบายสถานะของวัตถุภายในกรอบขอบเขตที่เวลา 0.0 วินาที และการดำเนินการในช่วงเวลา 0.0 ถึง 29.0 วินาที

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

คำตอบมาตรฐานคือ: คีมหนีบจับและดึงถุงน้ำดีไปทางซ้ายบนของขอบเขตการผ่าตัดอย่างต่อเนื่อง เพื่อให้แรงดึงกลับและเปิดเผยพื้นที่

ทางด้าน GPT-5.4 ให้คำอธิบายที่กว้างมากเท่านั้น ไม่สามารถระบุเครื่องมือเฉพาะได้เลย

Gemini-3.1 ระบุเครื่องมือผิดเป็น “ตะขอจี้ไฟฟ้า” และอธิบายการดำเนินการที่ไม่ถูกต้อง

โมเดลจีนบางรุ่น: ไม่สามารถระบุขั้นตอนการผ่าตัดที่ถูกต้องได้เลย

มีเพียง uAI Nexus MedVLM เท่านั้นที่ให้คำอธิบายใกล้เคียงกับคำตอบมาตรฐาน:

คีมจับที่อยู่ด้านซ้ายบนดึงถุงน้ำดีขึ้นและเข้าหากึ่งกลางอย่างต่อเนื่อง รักษาความตึงและเปิดเผยระนาบการแยกสำหรับตะขอ

จากนั้น ฉันดูผลลัพธ์ของ 8 ภารกิจที่ให้ไว้ในตัวอย่าง แต่ละภารกิจน่าทึ่งยิ่งกว่ากัน

เพื่อหลีกเลี่ยงความรู้สึกไม่สบายจากภาพสถานการณ์การผ่าตัดจริง เราเลือกวิดีโอตัวอย่างที่ค่อนข้างอ่อนโยน ซึ่งเป็นเนื้อหาพยาบาลตรวจวัดสัญญาณชีพผู้ป่วย

วิดีโอครอบคลุมการทำงานต่างๆ เช่น พยาบาลดูเครื่องวัดความดัน ดูเทอร์โมมิเตอร์ บันทึกการพยาบาล ล้างมือ วัดความดัน วัดอุณหภูมิ วัดชีพจร วัดการหายใจ เป็นต้น

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

ตอนนี้ เราสุ่มตรวจสอบหนึ่งใน 8 ภารกิจ เช่น “การระบุตำแหน่งการกระทำเชิงเวลา”

คำถามที่ป้อน: การวัดชีพจรเกิดขึ้นในช่วงเวลาใด?

คำตอบมาตรฐานคือ: 46.0-61.8 วินาที

การคาดการณ์ของโมเดลคือ: 43.0-65.0 วินาที คลาดเคลื่อนไม่เกิน 4 วินาที และคำตอบที่ถูกต้องอยู่ในช่วงที่คาดการณ์

ทำไมวิดีโอผ่าตัดถึงเป็นกระดูกที่ยากที่สุดสำหรับ AI?

ในวงการ AI ทางการแพทย์ การใช้ AI สำหรับการช่วยวินิจฉัยจากภาพ การเขียนเวชระเบียน การจัดการควบคุมคุณภาพ ฯลฯ เป็นเรื่องปกติมานานแล้ว และได้ถูกนำไปใช้ในโรงพยาบาลหลายแห่ง

แต่มีทิศทางหนึ่งที่ยังคงเป็น “พื้นที่ไร้คน” ที่ได้รับการยอมรับ นั่นคือ ความเข้าใจวิดีโอผ่าตัด

ก่อนหน้านี้ไม่มีใครกล้าแตะต้อง ทำไม? เพราะมีความยากระดับนรกสามชั้น ซึ่งแตกต่างจากภาพนิ่งอย่างสิ้นเชิง:

ด่านแรก: ข้อมูลยากมากที่จะได้มา วิดีโอผ่าตัดทางคลินิกเกี่ยวข้องกับความเป็นส่วนตัวของผู้ป่วยและจริยธรรมทางการแพทย์ การได้มาจึงยากลำบาก แม้จะได้วิดีโอต้นฉบับมา ให้แพทย์ผู้เชี่ยวชาญติดป้ายกำกับทีละเฟรม? ค่าใช้จ่ายสูงพอที่จะทำให้ 99% ของทีมถอย

ด่านที่สอง: ไม่มีมาตรฐานการประเมินที่เป็นหนึ่งเดียว นี่คือความจริงที่น่าอึดอัดในวงการ: แต่ละฝ่ายใช้ชุดข้อมูลของตัวเอง ตัวชี้วัดของตัวเอง ไม่สามารถเปรียบเทียบผลลัพธ์ของโมเดลในแนวนอนได้ คุณบอกว่าคุณเก่ง เขาบอกว่าเขาเก่ง ใครก็พูดไม่ได้ สิ่งนี้ขัดขวางการพัฒนาของทั้ง赛道อย่างรุนแรง

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

ด่านที่สาม: ภารกิจเองซับซ้อนอย่างยิ่ง จุดยากของวิดีโอผ่าตัดคือความเข้าใจในมิติพื้นที่ เวลา และความหมายต้องอาศัยความเชี่ยวชาญสูง ตัวอย่างเช่น ต้องระบุตำแหน่งเครื่องมือและโครงสร้างทางกายวิภาคในระดับมิลลิเมตรได้อย่างแม่นยำ เบี่ยงเบนเล็กน้อยก็อาจจำผิดได้ และต้องแยกถุงน้ำดีก่อนแล้วค่อยตัด ไม่สามารถทำกลับกันได้ ถ้า AI ไม่เข้าใจลำดับเวลา ก็ไม่สามารถเข้าใจกระบวนการผ่าตัดได้ ข้อจำกัดต่างๆ ซ้อนทับกัน แม้แต่โมเดลที่ยอดเยี่ยมที่สุดก็ต้องถอย

แต่ตอนนี้ พื้นที่ไร้คนนี้ถูก uAI Nexus MedVLM เหยียบทะลุ ไปแล้ว

มันไม่ใช่แค่ “โชว์ของ” แต่มันช่วยชีวิตได้จริง

เอาล่ะ พูดถึงเรื่องจริง โมเดลนี้ทำอะไรได้บ้าง?

ก่อนผ่าตัด: วิเคราะห์วิดีโอผ่าตัดหลายหมื่นรายการของศัลยแพทย์หลัก ค้นหากฎทางคลินิก ช่วยปรับแผน ลองนึกภาพว่าคุณเป็นแพทย์คลินิกที่เพิ่งขึ้นโต๊ะผ่าตัด กำลังจะทำการผ่าตัดนิ่วในถุงน้ำดีแบบแผลเล็ก ก่อนหน้านี้คุณพึ่งพาแต่ความจำและประสบการณ์ ตอนนี้ AI ได้รวบรวม ประสบการณ์การผ่าตัด ของผู้เชี่ยวชาญระดับสูงหลายพันรายการไว้ เท่ากับคุณมีสมองที่แข็งแกร่งที่สุดมาช่วยคุณทำการผ่าตัดนี้

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

ระหว่างผ่าตัด: ในขั้นตอนสำคัญ เช่น การแยกท่อถุงน้ำดี การเปิดเผยขอบเขตความปลอดภัย ให้คำแนะนำแบบเรียลไทม์; เตือนการกระทำที่ผิดกฎหรือความเบี่ยงเบนในระดับมิลลิวินาที กลายเป็น “ตาที่สาม” ของคุณ

หลังผ่าตัด: สรุปและบันทึกโครงสร้างโดยอัตโนมัติ ซึ่งปกติใช้เวลาแพทย์มาก แต่ตอนนี้ คลิกเดียวก็สร้างรายงานมาตรฐานได้ ประสบการณ์จากการผ่าตัดนี้ก็สามารถเป็น “พื้นฐานการตัดสินใจ” สำหรับแพทย์คนต่อไปได้

การควบคุมคุณภาพการผ่าตัด ความปลอดภัยระหว่างผ่าตัด การทำรายงานอัตโนมัติ การสอนทางการแพทย์… คุณค่าของ uAI Nexus MedVLM อยู่เหนือความก้าวหน้าทางเทคนิค

ในจีน ทรัพยากรทางการแพทย์ที่มีคุณภาพกระจุกตัวอยู่ในโรงพยาบาลระดับตติยภูมิ แพทย์ในโรงพยาบาลระดับรากหญ้ามีวงจรการเติบโตยาวนาน สะสมประสบการณ์การผ่าตัดช้า แต่ uAI Nexus MedVLM สามารถ “รวบรวม” ประสบการณ์การผ่าตัดของผู้เชี่ยวชาญระดับสูง ทำให้แพทย์ในโรงพยาบาลระดับรากหญ้าได้รับการช่วยเหลือระหว่างผ่าตัด “ระดับผู้เชี่ยวชาญ” นี่อาจเป็นความหมายที่แท้จริงที่ AI เข้าใจวิดีโอผ่าตัด

นักพัฒนาทั่วโลก โอกาสใหม่มาถึงแล้ว

การเปิดตัวครั้งนี้ สิ่งที่ควรให้ความสนใจมากที่สุดไม่ใช่แค่ uAI Nexus MedVLM เอง

ผู้เล่นเบื้องหลังที่พัฒนาโมเดลนี้คือ ยูไนเต็ดอิมเมจอินเทลลิเจนซ์ (บริษัทนวัตกรรมที่มุ่งเน้น AI ทางการแพทย์ในเครือยูไนเต็ดอิมเมจกรุ๊ป) ซึ่งเป็นครั้งแรกที่เปิดเผยข้อมูลวิดีโอทางการแพทย์คุณภาพสูงขนาดใหญ่และโมเดลเป็นโอเพนซอร์สทั่วโลก และให้เกณฑ์มาตรฐานการประเมินที่เปรียบเทียบได้มากขึ้น

นี่หมายความว่าอย่างไร? ในที่สุดก็มี “ระบบประเมินสาธารณะระดับโลก” สำหรับแนวตั้งของความเข้าใจวิดีโอผ่าตัดแล้ว

ก่อนหน้านี้ แต่ละโมเดลพูดกันคนละภาษา ผลลัพธ์เปรียบเทียบไม่ได้ ตอนนี้ ดึงมาวิ่งบนชุดข้อมูลเดียวกัน ใครเก่งใครอ่อน เห็นชัดทันที

และนี่เป็นเพียงจุดเริ่มต้น

ทีมวิจัยนี้ไม่ต้องการแสดงเดี่ยว จึงได้เปิดตัว อันดับโมเดลขนาดใหญ่เพื่อความเข้าใจวิดีโอทางการแพทย์ ท้าทายนักพัฒนาทั่วโลก

AI กล่องดำวิดีโอทางการแพทย์ถูกเปิดโปง! โมเดลโอเพนซอร์สที่ใหญ่และทรงพลังที่สุดในโลก uAI Nexus MedVLM เข้าใจการผ่าตัด เอาชนะ GPT-5.4 อย่างราบคาบ

นี่คือการทดสอบมาตรฐานแบบบูรณาการสำหรับประเมินประสิทธิภาพของโมเดลภาษาวิดีโอในความเข้าใจวิดีโอทางการแพทย์และการผ่าตัด นักพัฒนาสามารถส่งผลลัพธ์ของโมเดลของตนเอง ระบบจะให้คะแนนอัตโนมัติตามมาตรฐาน สร้างอันดับรวมที่อัปเดตแบบไดนามิก

เมื่อนักพัฒนาทั่วโลกสามารถดาวน์โหลดโมเดล ใช้ชุดข้อมูล อัปโหลดผลงานของตนเอง ก็ขึ้นอยู่กับว่าใครจะสามารถผลักดันขอบเขตความสามารถของความเข้าใจวิดีโอทางการแพทย์ไปข้างหน้าได้อีกขั้น

ในกระบวนการนี้ กรณีผู้ป่วยหายาก วิดีโอผ่าตัดซับซ้อนที่แพทย์อัปโหลด โดยเฉพาะกรณีที่โมเดลปัจจุบันทำงานได้ไม่ดี จะกลายเป็นข้อมูลจริงที่มีค่าอย่างยิ่ง ขับเคลื่อนการพัฒนาเทคโนโลยีอย่างต่อเนื่อง

AI วิดีโอทางการแพทย์กำลังเข้าสู่ยุคทองที่เปิดรับนักพัฒนาทั่วโลก

มองไปข้างหน้า uAI Nexus MedVLM จะผสานรวมอย่างลึกซึ้งกับปัญญาประดิษฐ์เชิงกายภาพ สร้างวงจรความสามารถที่สมบูรณ์ตั้งแต่การรับรู้ การให้เหตุผล ไปจนถึงการดำเนินการ สถานการณ์การใช้งานจะขยายจากห้องผ่าตัดไปยังสาขาคลินิกอื่นๆ ผลักดันกระบวนการทางการแพทย์ทั้งหมดสู่ความชาญฉลาด

การเปิดเผยข้อมูล การสร้างโมเดลร่วมกัน ความร่วมมือระดับโลก — เส้นทางนี้เพิ่งเริ่มต้น

นักพัฒนาทั้งหลาย ถึงเวลาลงมือแล้ว~

ลิงก์ทรัพยากรเพิ่มเติม:

  1. Demo ออนไลน์: https://huggingface.co/spaces/UII-AI/MedGRPO-Demo
  2. โค้ดการอนุมาน: https://github.com/UII-AI/MedGRPO-Code
  3. ชุดข้อมูล MedVidBench: https://huggingface.co/datasets/UII-AI/MedVidBench
  4. อันดับสาธารณะ: https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard
  5. บทความวิจัย: https://arxiv.org/abs/2512.06581
  6. แนะนำโครงการ: https://uii-ai.github.io/MedGRPO/

ยินดีต้อนรับการแบ่งปันความคิดเห็นของคุณในช่องแสดงความคิดเห็น!

— จบบริบูรณ์ —


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32220

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐