โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

การนำ AI เข้าสู่วงการแพทย์ จำเป็นต้องดำเนินการด้วยความระมัดระวังอย่างยิ่ง

ในกระบวนการนี้ มักมีผู้ที่ดำเนินการอย่างก้าวร้าวเป็นพิเศษเสมอ ในเดือนกุมภาพันธ์ 2026 สำนักข่าวรอยเตอร์ได้เผยแพร่รายงานสืบสวนที่น่าตกใจ โดยมีหัวข้อว่า “As AI enters the operating room, reports arise of botched surgeries and misidentified body parts” ซึ่งแปลว่า “เมื่อ AI เข้าสู่ห้องผ่าตัด: รายงานความผิดพลาดในการผ่าตัดและการระบุส่วนต่างๆ ของร่างกายผิดพลาดเพิ่มขึ้นอย่างต่อเนื่อง” ในสหรัฐอเมริกา ผู้ผลิตอุปกรณ์ทางการแพทย์ได้นำ AI ที่ยังไม่สมบูรณ์เข้ามาใช้ในสถานการณ์การผ่าตัด ส่งผลให้กรณีการตัดสินผิดพลาดเพิ่มขึ้นเรื่อยๆ ระบบระบุส่วนต่างๆ ของร่างกายผิดพลาด และเกิดข้อผิดพลาดในการปฏิบัติงานที่สามารถหลีกเลี่ยงได้ในการผ่าตัดโดยใช้หุ่นยนต์ช่วย

ผู้ผลิตอุปกรณ์การแพทย์ต่างเร่งนำ AI มาบูรณาการเข้ากับผลิตภัณฑ์ของตน แม้ว่าผู้สนับสนุนจะเชื่อมั่นว่าเทคโนโลยีใหม่นี้จะปฏิวัติวงการแพทย์ แต่ข้อกล่าวหาเกี่ยวกับการบาดเจ็บของผู้ป่วยที่ส่งถึงหน่วยงานกำกับดูแลกลับเพิ่มสูงขึ้นอย่างต่อเนื่อง

ในบรรดา AI ทางการแพทย์ที่นำมาใช้โดยตรงในการปฏิบัติงานทางคลินิกเหล่านี้ ส่วนใหญ่มีเทคโนโลยีการรู้จำด้วยภาพและวิดีโอเป็นแกนหลัก

ในแวดวงวิชาการ โมเดลวิดีโอขนาดใหญ่ได้กลายเป็นหนึ่งในเส้นทางการแข่งขันที่ดุเดือดที่สุดในสาขาวิสัยทัศน์คอมพิวเตอร์ แม้จะมีโมเดลการรู้จำด้วยภาพขนาดใหญ่ที่สมบูรณ์จำนวนมาก แต่เกือบทั้งหมดมุ่งเน้นไปที่โดเมนวิดีโอทั่วไป เมื่อเลนส์หันไปยังห้องผ่าตัด สถานการณ์ก็ซับซ้อนขึ้นอย่างกะทันหัน เรายังคงเผชิญกับปัญหาสำคัญหลายประการ:

โมเดลทั่วไปไม่สามารถเชี่ยวชาญเฉพาะด้านงานในทางการแพทย์ได้ ในขณะที่วงการแพทย์ไม่ได้มีเพียงงานประเภทเดียว ข้อมูลที่เกี่ยวข้องในวงการแพทย์ขาดแคลนอย่างรุนแรง และแทบไม่สามารถประเมินประสิทธิภาพของโมเดลขนาดใหญ่ในงานทางการแพทย์จริงได้อย่างเป็นเอกภาพ

อย่างไรก็ตาม การให้ AI เข้ามามีส่วนร่วมในวงการแพทย์ เพิ่มประสิทธิภาพ และลดภาระของโรงพยาบาลและบุคลากรทางการแพทย์นั้นมีความสำคัญอย่างยิ่ง

รายงานตลาดโลกด้านการวิเคราะห์ภาพผ่าตัดเสริมด้วยปัญญาประดิษฐ์ (AI) ปี 2026 จาก Global Information ยังคาดการณ์ถึงศักยภาพการเติบโตของ AI ในการวิเคราะห์วิดีโอผ่าตัดทางการแพทย์อีกด้วย

ตลาดการวิเคราะห์วิดีโอผ่าตัดที่ใช้ปัญญาประดิษฐ์ (AI) เป็นฐานมีการพัฒนาอย่างรวดเร็ว คาดว่าจะเติบโตจาก 730 ล้านดอลลาร์สหรัฐในปี 2025 เป็น 910 ล้านดอลลาร์สหรัฐในปี 2026 โดยมีอัตราการเติบโตต่อปีแบบทบต้น (CAGR) ที่ 24.1% คาดว่าในอีกไม่กี่ปีข้างหน้า ตลาดการวิเคราะห์วิดีโอผ่าตัดที่เสริมด้วยปัญญาประดิษฐ์ (AI) จะเติบโตแบบก้าวกระโดด โดยมีขนาดตลาดถึง 2,140 ล้านดอลลาร์สหรัฐภายในปี 2030 โดยมีอัตราการเติบโตต่อปีแบบทบต้น (CAGR) ที่ 23.8%

น่าประหลาดใจที่โมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ที่ใหญ่และทรงพลังที่สุดในโลกอย่าง uAI-NEXUS-MedVLM ได้เปิดตัวอย่างเป็นทางการและเผยแพร่เป็นโอเพนซอร์สแล้ว!

โมเดลนี้แก้ไขปัญหาสำคัญสามประการในด้านวิดีโอทางการแพทย์โดยตรง ได้แก่ การเพิ่มประสิทธิภาพงาน การขาดข้อมูล และการไม่สามารถประเมินผลได้ ซึ่งเป็นการเปิดประตูสู่การประยุกต์ใช้โมเดลขนาดใหญ่ในวงการแพทย์ในวงกว้าง

ผลการวิจัยที่เกี่ยวข้องได้รับการตีพิมพ์ในการประชุม IEEE International Conference on Computer Vision and Pattern Recognition (CVPR 2026)

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

  • ชื่อบทความ: MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
  • ลิงก์บทความ: https://arxiv.org/pdf/2512.06581
  • หน้าโครงการ: https://uii-ai.github.io/MedGRPO/
  • ลิงก์โอเพนซอร์ส: https://github.com/UII-AI/MedGRPO-Code

เปลี่ยน “สิ่งที่แก้ไม่ได้” ให้เป็น “สิ่งที่แก้ได้”

ในอดีต การให้โมเดลขนาดใหญ่เข้าใจวิดีโอทางการแพทย์ทางคลินิกจริงนั้นแทบจะเป็น “ปัญหาที่แก้ไม่ได้”

วิดีโอทางการแพทย์ไม่เพียงเกี่ยวข้องกับการรู้จำภาพเท่านั้น แต่ยังต้องแก้ไขความซับซ้อนของมิติพื้นที่ เวลา และความหมายอีกด้วย ทุกรายละเอียดในระหว่างการผ่าตัดมีความสำคัญอย่างยิ่ง และความประมาทเลินเล่อใดๆ อาจนำไปสู่ผลลัพธ์ที่ร้ายแรง

  • มิติพื้นที่กำหนดให้โมเดลต้องระบุตำแหน่งเชิงพื้นที่และความสัมพันธ์ระหว่างเครื่องมือ อวัยวะ และเนื้อเยื่อต่างๆ ในวิดีโอผ่าตัดได้อย่างแม่นยำ
  • มิติเวลานำมาซึ่งความไม่หยุดนิ่ง วิดีโอผ่าตัดไม่เพียงเป็นชุดของภาพนิ่ง แต่ยังเกี่ยวข้องกับการเปลี่ยนแปลงตามลำดับเวลาของการกระทำและขั้นตอนต่างๆ
  • มิติความหมายกำหนดให้โมเดลมีความรู้พื้นฐานทางการแพทย์ที่ลึกซึ้ง สามารถเข้าใจความหมายทางการแพทย์ของอุปกรณ์และการกระทำแต่ละอย่างในการผ่าตัด

ดินแดนไร้มนุษย์แห่งความเข้าใจด้วยภาพ

ด้วยความซับซ้อนสามประการที่ทับซ้อนกันของ “พื้นที่-เวลา-ความหมาย” แม้แต่ยักษ์ใหญ่ทั่วไปอย่าง GPT-5.4 และ Gemini-3.1 ก็แทบจะพ่ายแพ้อย่างสิ้นเชิงเมื่อเผชิญกับวิดีโอผ่าตัดจริง

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

รูปที่ 1: ผลลัพธ์หลักใน 8 งานของ MedVidBench

ในการทดลอง ทีมวิจัยได้เปรียบเทียบโมเดลพื้นฐานแบบใช้ทันที (ประเมินโดยใช้ one-shot prompting) ของปี 2025 และ 2026, พื้นฐาน SFT และวิธีการ MedGRPO แบบสมบูรณ์บน Qwen2.5VL-7B, Qwen3-VL-4B และ Qwen3.5-4B

ข้อมูลเฉพาะเจาะจงสามารถอธิบายปัญหาได้ดี ในงานประเมิน Critical View of Safety (CVS) ความแม่นยำของ GPT-5.4 อยู่ที่เพียง 16.4% และ Gemini-3.1 อยู่ที่ 24.2% ซึ่งโดยพื้นฐานแล้วเป็นการเดาสุ่ม ในงาน Spatio-Temporal Grounding (STG) ค่า mean Intersection over Union (mIoU) ระหว่างพื้นที่ที่ทำนายกับพื้นที่จริงนั้นต่ำจนแทบไม่ต้องนับ แม้แต่งานสร้างสรุปวิดีโอที่ดูเหมือน “ง่ายที่สุด” ภายใต้คะแนนเต็ม 5 คะแนน GPT-5.4 ก็ได้เพียง 3.976 คะแนน และ Gemini-3.1 ได้ 3.737 คะแนน

ทีมวิจัยของ United Imaging Intelligence เลือกเส้นทางใหม่ในการบุกเบิกดินแดนไร้มนุษย์ โซลูชันสามารถสรุปได้เป็นสามสิ่ง: สร้างไม้บรรทัด สร้างชุดข้อมูล และคิดค้นวิธีการฝึกอบรม

MedVidBench: ไม้บรรทัดสาธารณะระดับโลก

การจะก้าวเข้าสู่ดินแดนไร้มนุษย์อันกว้างใหญ่ จำเป็นต้องมีผู้บุกเบิกที่กล้าหาญในการสร้างไม้บรรทัดแรกเริ่ม

กล่าวอีกนัยหนึ่ง ความก้าวหน้าในทุกสาขาล้วนต้องอาศัยเกณฑ์มาตรฐานการประเมินที่เป็นหนึ่งเดียวกัน ในสาขาการวิจัยอื่นๆ ImageNet กำหนดมาตรฐานสำหรับการจำแนกภาพ GLUE วางรากฐานสำหรับความเข้าใจภาษาธรรมชาติ แต่ในสาขาความเข้าใจวิดีโอทางการแพทย์ เป็นเวลานานแล้วที่ไม่มีแม้แต่ “ไม้บรรทัด”

เพื่อสำรวจและอำนวยความสะดวกในการวิจัยของผู้ที่มาทีหลัง ทีมวิจัยได้สร้าง MedVidBench ซึ่งเป็นชุดข้อมูลเกณฑ์มาตรฐานขนาดใหญ่ที่มีคู่คำสั่ง-วิดีโอมากกว่า 530,000 คู่ ครอบคลุมแหล่งข้อมูลทางการแพทย์เฉพาะทาง 8 แหล่ง (CholecT50, CholecTrack20, Cholec80-CVS, CoPESD, AVOS, EgoSurgery, JIGSAWS, NurViD) ครอบคลุมสถานการณ์ทางคลินิกหลัก เช่น การส่องกล้อง การผ่าตัดแบบเปิด การผ่าตัดด้วยหุ่นยนต์ และการปฏิบัติการพยาบาล

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

รูปที่ 2: ภาพรวมของ MedVidBench (a) กระบวนการจัดการข้อมูลคุณภาพสูงของ MedVidBench ทีมวิจัยใช้ความรู้จากผู้เชี่ยวชาญในการสร้าง prompt และใช้ VLM สองตัว (Gemini-2.5-Flash และ GPT-4.1) เพื่อสร้างข้อความคุณภาพสูง (b) MedVidBench ประกอบด้วยชุดข้อมูลที่แตกต่างกัน 8 ชุด โดยมีขนาดตัวอย่างรวม 532k ครอบคลุม 4 โดเมนที่แตกต่างกัน (c) ตัวอย่างงานที่หลากหลายในโดเมนต่างๆ

ที่สำคัญยิ่งกว่านั้น MedVidBench ไม่ได้มีแค่ “ปริมาณมาก” เท่านั้น แต่ยังประกอบด้วยชุดข้อมูลที่แตกต่างกัน 8 ชุด ครอบคลุมสามระดับความละเอียด:

  • ระดับวิดีโอ: เข้าใจข้อมูลโดยรวมของวิดีโอทั้งเรื่อง รวมถึงงาน VS (Video Summarization) และ NAP (Next Action Prediction)
  • ระดับคลิป: ระบุตำแหน่งและเข้าใจเนื้อหาในช่วงเวลาที่กำหนด รวมถึงงาน TAG (Temporal Action Grounding), STG (Spatio-Temporal Grounding) และ DVC (Dense Video Captioning)
  • ระดับเฟรม: วิเคราะห์รายละเอียดของภาพแต่ละเฟรม รวมถึงงาน RC (Region Captioning), CVS (Critical View of Safety Assessment) และ SA (Skill Assessment)

โครงสร้างสามชั้น “วิดีโอ-คลิป-เฟรม” นี้จำลองกระบวนการรับรู้ของแพทย์มนุษย์ตั้งแต่ภาพรวมไปจนถึงรายละเอียดเมื่อดูวิดีโอผ่าตัด: เริ่มจากกระบวนการโดยรวม จากนั้นโฟกัสไปที่ขั้นตอนสำคัญ และสุดท้ายตรวจสอบรายละเอียด

ในด้านคุณภาพข้อมูล ทีมงานได้ออกแบบกระบวนการรับประกันคุณภาพที่เข้มงวด: วิศวกรรม prompt แบบนำโดยผู้เชี่ยวชาญ + การตรวจสอบข้ามโมเดลแบบคู่ (GPT + Gemini) เพื่อให้แน่ใจว่าคู่คำสั่ง-ตอบสนองทุกคู่ผ่านการตรวจสอบสองชั้น ชุดข้อมูลแบ่งออกเป็นสองเวอร์ชัน: เวอร์ชันขนาดใหญ่ (ตัวอย่าง 530,000 ตัวอย่าง สำหรับการทดลองขยาย) และเวอร์ชันมาตรฐาน (ตัวอย่าง 51,500 ตัวอย่าง งานสมดุล สำหรับการเรียนรู้หลายงานที่มีประสิทธิภาพ)

GRPO: ทำให้ดีขึ้นกว่าเดิม

เมื่อมีข้อมูลแล้ว คำถามต่อไปคือ: วิธีการฝึกอบรมแบบไหนดีที่สุด?

เราทราบดีว่าการฝึกโมเดลขนาดใหญ่ในงานและชุดข้อมูลเฉพาะ วิธีการที่เข้าใจง่ายคือการปรับแต่งแบบมีผู้สอน (SFT)

โดยใช้ Qwen2.5-VL-7B เป็นโมเดลพื้นฐาน ทีมวิจัยได้ดำเนินการปรับแต่งแบบมีผู้สอน (SFT) บน MedVidBench ซึ่งให้ผลลัพธ์ที่น่าทึ่ง ในงานประเมินทั้งหมด 8 งาน ประสิทธิภาพของโมเดลนี้เหนือกว่าโมเดลหลักอย่าง GPT-4.1, Gemini-2.5-Flash, GPT-5.4 และ Gemini-3.1-flash-lite อย่างสิ้นเชิง โดยเฉพาะอย่างยิ่ง ด้วยขนาดพารามิเตอร์เพียง 7B ความแม่นยำของ CVS ของโมเดลสูงถึง 89.4% ซึ่งเกือบ 50 เท่าของ GPT-5.4 และในตัวชี้วัด mIoU ของ TAG@0.3 ประสิทธิภาพของโมเดลสูงกว่า Gemini-3.1 ถึง 3 เท่า

อย่างไรก็ตาม วิธีการ SFT นั้นมีเพดานประสิทธิภาพในตัว เพื่อก้าวข้ามอุปสรรคนี้ ทีมงานจึงตัดสินใจนำ Reinforcement Learning (RL) เข้ามาใช้ เพื่อปรับปรุงคุณภาพของผลลัพธ์ที่โมเดลสร้างขึ้นให้ดียิ่งขึ้น

แต่วิธี RL มาตรฐานต้องเผชิญกับปัญหาสำคัญในที่นี้: ความไม่สมดุลของสเกลรางวัลข้ามชุดข้อมูลอย่างรุนแรง

ความยากของงานวิดีโอทางการแพทย์ที่แตกต่างกันนั้นแตกต่างกันอย่างมาก ตัวอย่างเช่น ในชุดข้อมูล CoPESD ค่า mIoU มัธยฐานของงาน STG อยู่ที่ประมาณ 0.5 ในขณะที่ในชุดข้อมูล EgoSurgery ค่า mIoU มัธยฐานของงานเดียวกันอยู่ที่ประมาณ 0.12 เท่านั้น หากใช้สัญญาณรางวัลดั้งเดิมโดยตรงในการฝึก RL การไล่ระดับของงานง่ายจะกลบสัญญาณของงานยากจนหมด ส่งผลให้กระบวนการปรับแต่งไม่สมดุล และอาจนำไปสู่การล่มสลายของการฝึก

ข้อมูลการทดลองยังยืนยันประเด็นนี้: เมื่อไม่มีการทำ normalization ความแม่นยำของ CVS ลดลงจาก 0.894 เหลือ 0.020 อย่างรวดเร็ว ในขณะที่ mIoU ของ STG ก็ลดลงจาก 0.177 เหลือ 0.010

โซลูชันของทีมงานมีชื่อว่า MedGRPO โดยแกนหลักประกอบด้วยนวัตกรรมอัลกอริทึมสองประการ:

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

รูปที่ 3: ภาพรวมของ MedGRPO (a) แสดงกรอบงาน MedGRPO ที่รวมการทำ Normalization รางวัลข้ามชุดข้อมูลและการประเมินโดย Medical LLM Judge (b) เปรียบเทียบการเปลี่ยนแปลงของเอนโทรปีการฝึกระหว่างโมเดลที่ฝึกด้วยและไม่มีการทำ Normalization รางวัล

นวัตกรรมแรก: Cross-Dataset Reward Normalization

ข้อมูลเชิงลึกที่สำคัญคือ “ความเป็นธรรมของค่ามัธยฐาน”: ประสิทธิภาพมัธยฐานของคู่ชุดข้อมูล-งานทั้งหมดจะได้รับรางวัล Normalization ที่เท่ากัน ซึ่งจะช่วยขจัดความลำเอียงในการอัปเดตการไล่ระดับ ทีมงานได้แนะนำฟังก์ชัน Logistic Normalization เพื่อแมปประสิทธิภาพมัธยฐานของแต่ละชุดข้อมูลให้เป็นค่ารางวัลเดียวกันที่ 0.5:

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

โดยที่ p_50 แทนประสิทธิภาพมัธยฐานของชุดข้อมูลนั้น และ IQR คือพิสัยระหว่างควอไทล์ ความชาญฉลาดของการออกแบบนี้สะท้อนให้เห็นในการรับประกันสี่ประการ:

  • ความเป็นธรรมของค่ามัธยฐาน: ไม่ว่าความยากสัมบูรณ์จะเป็นเท่าใด ชุดข้อมูลทั้งหมดจะได้รับรางวัลเท่ากันที่ประสิทธิภาพมัธยฐาน
  • การไล่ระดับที่ราบรื่น: ฟังก์ชัน Logistic สามารถหาอนุพันธ์ได้ทุกจุด ซึ่งช่วยหลีกเลี่ยงปัญหาการหายไปหรือการระเบิดของการไล่ระดับได้อย่างมีประสิทธิภาพ
  • ความทนทานต่อค่าผิดปกติ: การปรับขนาดตาม IQR ทำให้ค่าผิดปกติที่รุนแรงไม่บิดเบือนการกระจายโดยรวม
  • เอาต์พุตที่มีขอบเขต: ค่ารางวัลถูกจำกัดอย่างเคร่งครัดในช่วง (0,1) ซึ่งเข้ากันได้ตามธรรมชาติกับกลไก Group Normalization ของ GRPO

นวัตกรรมที่สอง: Medical LLM Judge

นี่อาจเป็นส่วนที่ชาญฉลาดที่สุดในงานทั้งหมด ทีมงานค้นพบว่าตัวชี้วัดความคล้ายคลึงทางความหมายแบบดั้งเดิมไม่สามารถวัดความถูกต้องทางคลินิกของคำอธิบายทางการแพทย์ได้ ตัวอย่างที่กล่าวถึงก่อนหน้านี้เป็นหลักฐานที่ดีที่สุด: “เครื่องมือจับเนื้อเยื่อในพื้นที่ด้านบน” กับ “คีมจับแยกท่อน้ำดีในจตุภาคขวาบน” แม้จะมีความคล้ายคลึงทางความหมายสูงถึง 0.82 แต่ความแม่นยำทางการแพทย์กลับแตกต่างกันอย่างสิ้นเชิง

ด้วยเหตุนี้ ทีมงานจึงออกแบบระบบการให้คะแนนเปรียบเทียบตาม GPT-4.1 โดยประเมินจากห้ามิติทางคลินิก:

  • ความแม่นยำของคำศัพท์ทางการแพทย์: ใช้คำศัพท์ทางคลินิกหรือภาษาทั่วไป?
  • การระบุเครื่องมือและโครงสร้างทางกายวิภาค: สามารถระบุชื่อเครื่องมือและโครงสร้างร่างกายที่เฉพาะเจาะจงได้อย่างถูกต้องหรือไม่?
  • ความเฉพาะเจาะจงของคำอธิบาย: ให้รายละเอียดที่แม่นยำหรือภาพรวมกว้างๆ?
  • การรับรู้บริบททางคลินิก: เข้าใจขั้นตอนการผ่าตัดและมาตรฐานความปลอดภัยหรือไม่?
  • ความแม่นยำของการกระทำและสถานะ: การตัดสินเกี่ยวกับการกระทำผ่าตัดและสถานะของเนื้อเยื่อถูกต้องหรือไม่?

คะแนนสุดท้ายใช้กลยุทธ์แบบผสมผสาน: คะแนนจาก LLM Judge คิดเป็น 50% และความคล้ายคลึงทางความหมายแบบดั้งเดิมคิดเป็น 50% ซึ่งช่วยให้สามารถจับความถูกต้องทางคลินิกและรักษาความต่อเนื่องโดยรวมไว้ได้

ผลลัพธ์ที่เกิดขึ้นจริง

แล้วการใช้ชุดข้อมูลที่สมบูรณ์แบบเช่นนี้ ร่วมกับวิธีการ SFT + RL ที่เป็นนวัตกรรมของทีมงาน จะสามารถเปลี่ยนแปลงสถานการณ์ที่โมเดลขนาดใหญ่ในด้านความเข้าใจวิดีโอทางการแพทย์ทำได้แค่ “เดาสุ่ม” ได้หรือไม่?

คำตอบคือใช่แน่นอน จากรูปที่ 1 ก่อนหน้านี้ เราได้เห็นแล้วว่าโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ที่ผ่านการฝึกอบรมอย่างสมบูรณ์นั้น มีผลการเรียนในงานต่างๆ สูงกว่าโมเดลขนาดใหญ่ทั่วไปอย่างมาก

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

รูปที่ 4: ผลลัพธ์หลักของโมเดลสี่ตัวใน 8 งานบน MedVidBench

ภาพหลายมิตินี้แสดงให้เห็นถึงข้อได้เปรียบของโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ใน 8 งานหลักอย่างชัดเจน ซึ่งแทบจะเรียกได้ว่าเป็น “นักรบแปดเหลี่ยม”

โมเดลขนาดใหญ่ทั่วไปชั้นนำอย่าง GPT-5.4, Gemini-3.1 และ Qwen3.5-4B แสดงให้เห็นถึงปัญหา “ความไม่สมดุล” ที่สอดคล้องกันอย่างมาก อย่างไรก็ตาม แม้แต่งานสรุปวิดีโอที่พวกมันถนัดที่สุด ก็ยังไม่สามารถเอาชนะโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ได้

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

รูปที่ 5: การศึกษา Ablation เกี่ยวกับ Reward Normalization และ LLM Judge ของ uAI-NEXUS-MedVLM-1.0a-7B-RL

สิ่งที่ทำให้เห็นถึงความสามารถอันทรงพลังของโมเดลขนาดใหญ่ได้ชัดเจนกว่าข้อมูลก็คือการเปรียบเทียบเชิงคุณภาพ ในที่นี้ เราเลือกขั้นตอนการ “ทดสอบภูมิแพ้เพนิซิลลิน” ในการพยาบาลทางคลินิกซึ่งมีภาพที่ค่อนข้างอ่อนโยนเป็นตัวอย่าง:

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

รูปที่ 6: ผลการทดลองงาน Region Captioning ในการพยาบาลทางคลินิก

สังเกตให้ดี สำหรับโมเดลขนาดใหญ่ การระบุและทำความเข้าใจเนื้อหาของวิดีโอที่มีความยาวมากกว่าหนึ่งนาที โดยเฉพาะอย่างยิ่งงานที่เกี่ยวข้องกับคำศัพท์ทางการแพทย์เฉพาะทางและการระบุตำแหน่งที่แม่นยำ ถือเป็นความท้าทายอย่างยิ่ง แม้แต่กับมนุษย์ที่ไม่ได้รับการฝึกอบรมทางการแพทย์

  • คำอธิบายของ GPT-5.4 แม้จะละเอียด แต่มีภาพหลอน เช่น “การกำจัดอากาศที่เหลืออยู่”
  • ผลลัพธ์ของ Gemini-3.1-Flash-lite คล้ายกับ GPT-5.4 แต่มีข้อผิดพลาดในการระบุเวลาที่ชัดเจนกว่า
  • Qwen3.5-4B แสดงการเลื่อนตำแหน่งเวลาที่เป็นแบบฉบับ และอธิบาย “การฉีดเข้าในผิวหนัง” สองครั้งอย่างไม่ถูกต้อง

ประสิทธิภาพของ uAI-NEXUS-MedVLM-1.0b-4B-RL แสดงให้เห็นถึงวิวัฒนาการที่สำคัญ ไม่เพียงแต่ระบุตำแหน่งเวลาของ “การฆ่าเชื้อผิวหนัง” และ “การฉีดเข้าในผิวหนัง” ได้อย่างแม่นยำเท่านั้น แต่ยังอธิบายตำแหน่งปลายแขนของมนุษย์ได้อย่างแม่นยำ แสดงคำศัพท์ทางการแพทย์เฉพาะทางได้อย่างถูกต้อง และอธิบายกระบวนการปฏิบัติงานแบบละเอียดได้สำเร็จ

ผลลัพธ์ของโมเดลได้ก้าวจากการรู้จำการกระทำในระดับผิวเผิน ไปสู่ความเข้าใจเชิงลึกเกี่ยวกับตรรกะของขั้นตอนการพยาบาล การปรับปรุงนี้แสดงให้เห็นว่าโมเดลเริ่มสร้างความสามารถในการเข้าใจวิดีโอที่ใกล้เคียงกับมุมมองทางคลินิกมากขึ้น

ยิ่งไปกว่านั้น MedGRPO ยังมีความสามารถในการสรุปทั่วไปที่ดี แม้ในการกำหนดค่าโมเดลเล็ก 4B + RL ประสิทธิภาพในงานส่วนใหญ่ก็สูงกว่าพื้นฐาน SFT ขนาด 7B แล้ว ซึ่งหมายความว่าความเข้าใจวิดีโอทางการแพทย์ที่มีประสิทธิภาพไม่จำเป็นต้องเพิ่มพารามิเตอร์เสมอไป แต่วิธีการฝึกอบรมที่ถูกต้องก็มีความสำคัญเช่นกัน

ประกาศ “จดหมายเชิญวีรบุรุษ” สร้างโครงสร้างพื้นฐานร่วมกัน

ไม้บรรทัดที่นำไปสู่สาขาความเข้าใจวิดีโอทางการแพทย์ได้ถูกกำหนดขึ้นแล้ว การสำรวจในสาขานี้มีเกณฑ์การประเมิน ทำให้ทุกอย่างเป็นไปตามรอย

เพื่อให้ AI ในวงการแพทย์สามารถนำไปใช้ได้จริง จำเป็นต้องให้ทั้งอุตสาหกรรมใช้ไม้บรรทัดนี้ร่วมกัน เพื่อผลักดันความก้าวหน้าของโมเดล AI และการสร้างโครงสร้างพื้นฐานในวงการแพทย์

ทีมงานได้เปิดตัวกระดานผู้นำสาธารณะของ MedVidBench (Leaderboard) และออกคำเชิญอย่างเป็นทางการไปยังนักพัฒนาทั่วโลก: ทีมงานใดๆ สามารถส่งผลการทดสอบโมเดลของตนเองได้ ระบบจะให้คะแนนอัตโนมัติตามมาตรฐานเดียวกันและอัปเดตอันดับแบบไดนามิก

นี่คือทั้ง “จดหมายเชิญวีรบุรุษ” และแพลตฟอร์มการแข่งขันระดับโลกที่ดำเนินการอย่างต่อเนื่อง นักพัฒนาส่งผลงาน ระบบให้คะแนน กระดานอันดับรีเฟรช อันดับวนซ้ำ ก่อตัวเป็นวงจรปิดที่สมบูรณ์

โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

  • ลิงก์กระดานผู้นำ: https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

ในฐานะระบบการประเมินที่สมบูรณ์แบบเป็นรายแรกในสาขานี้ มันมีความสำคัญอย่างยิ่ง:

สร้างกรอบการประเมินที่เป็นหนึ่งเดียวและน่าเชื่อถือ ในอุตสาหกรรมที่พึ่งพาความไว้วางใจอย่างมากเช่นการแพทย์ benchmark แบบ “พูดกันเอง” ไม่มีน้ำหนัก โครงสร้างการประเมินจะได้รับความน่าเชื่อถือก็ต่อเมื่อโมเดลจากสถาบันต่างๆ และแนวทางเทคนิคที่แตกต่างกันทั่วโลกได้รับการทดสอบภายใต้มาตรฐานเดียวกัน MedVidBench Leaderboard สาธารณะถูกสร้างขึ้นเพื่อจุดประสงค์นี้ โดยมีเป้าหมายเพื่อสร้าง “มาตรฐานอุตสาหกรรม” ที่ทุกคนยอมรับร่วมกัน ทำให้ผู้เข้าร่วมทุกคนยืนอยู่บนเส้นเริ่มต้นเดียวกัน

ดึงดูดนักพัฒนาทั่วโลกให้เข้าร่วมการแข่งขัน กระดานผู้นำมีคุณสมบัติการแข่งขันโดยธรรมชาติ และการแข่งขันเป็นหนึ่งในกลไกที่มีประสิทธิภาพที่สุดในการขับเคลื่อนความก้าวหน้าในสาขา เมื่อกลุ่มวิจัยของโรงพยาบาล ห้องปฏิบัติการของมหาวิทยาลัย หรือวิศวกรของบริษัทสตาร์ทอัพสามารถเห็นอันดับของตนเองบนกระดานผู้นำเดียวกันได้ รูปแบบการแข่งขันแบบเปิดนี้ได้รับการพิสูจน์ซ้ำแล้วซ้ำเล่าใน benchmark และ Arena คลาสสิกของโมเดลขนาดใหญ่

เพิ่มอิทธิพลและความไว้วางใจระดับนานาชาติ จากมุมมองที่กว้างขึ้น การมีเกณฑ์มาตรฐานการประเมินและกระดานผู้นำที่นักพัฒนาทั่วโลกใช้กันอย่างแพร่หลาย หมายความว่า United Imaging Intelligence ซึ่งเป็นผู้สร้างโมเดลขนาดใหญ่และมาตรฐานการประเมินนี้ กำลังเปลี่ยนจาก “บริษัท AI ทางการแพทย์ของจีน” มาเป็น “ผู้ให้บริการโครงสร้างพื้นฐานในสาขาความเข้าใจวิดีโอทางการแพทย์ระดับโลก”

บทสรุป

ในสาขา AI ทางการแพทย์ จุดสนใจของการแข่งขันในปัจจุบันไม่ได้จำกัดอยู่ที่โมเดลเดียว ตัวชี้วัดใดตัวชี้วัดหนึ่ง หรืออันดับกระดานผู้นำครั้งใดครั้งหนึ่งอีกต่อไป แต่เป็นความสามารถที่ครอบคลุมว่าความก้าวหน้าทางเทคโนโลยีสามารถเชื่อมต่อกับสถานการณ์ทางคลินิกจริง ระบบข้อมูลทางการแพทย์ การวิจัยอัลกอริทึม และการนำไปใช้ในทางวิศวกรรมได้อย่างต่อเนื่องหรือไม่

ในสาขาโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ โมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ประสบความสำเร็จในการก้าวกระโดดทางเทคโนโลยีครั้งสำคัญเป็นครั้งแรก ทีมวิจัยเบื้องหลังคือ United Imaging Intelligence ซึ่งเป็นองค์กรนวัตกรรมที่深耕ในสาขา AI มาอย่างยาวนาน

ในฐานะบริษัทในเครือที่ดำเนินงานอย่างอิสระภายใต้ United Imaging Group United Imaging Intelligence มุ่งเน้นไปที่นวัตกรรมทางเทคโนโลยีและการนำไปใช้ในเชิงพาณิชย์ในด้านดิจิทัลและอัจฉริยะทางการแพทย์ โดยมุ่งมั่นที่จะเป็นผู้นำนวัตกรรมการแพทย์ดิจิทัลและอัจฉริยะระดับโลก

ปีที่แล้ว United Imaging Intelligence ได้เปิดตัวโมเดลขนาดใหญ่ทางการแพทย์ “Yuanzhi” (uAI NEXUS) อย่างเป็นทางการ ซึ่งเป็นแบบหลายรูปแบบและมุ่งเน้นแนวตั้งทางการแพทย์ โมเดลขนาดใหญ่นี้ประกอบด้วยโมเดลขนาดใหญ่ห้าส่วน ได้แก่ ข้อความ ภาพ วิสัยทัศน์ เสียง และแบบผสมผสาน ซึ่งทำหน้าที่เป็นฐานที่มั่นคงสำหรับระบบดิจิทัลและอัจฉริยะทางการแพทย์ โดยสามารถให้ความฉลาดระดับพื้นฐานสำหรับสถานการณ์ทางการแพทย์ที่แตกต่างกัน โมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอที่เปิดเผยเป็นโอเพนซอร์สในครั้งนี้ เป็นการขยายความสามารถที่สำคัญและเป็นองค์ประกอบสำคัญของโมเดลขนาดใหญ่ด้านวิสัยทัศน์ “Yuanzhi” ซึ่งช่วยขยายความสามารถในการทำความเข้าใจ การให้เหตุผล และการตัดสินใจในสถานการณ์ทางการแพทย์แบบไดนามิก

เหตุใด United Imaging Intelligence จึงสามารถเอาชนะปัญหาทางเทคนิคที่ได้รับการยอมรับอย่างกว้างขวางนี้ได้? เราเชื่อว่านี่เป็นผลมาจากการลงทุนอย่างเป็นระบบในระยะยาว การสะสมทางเทคนิคหลายปี และความแข็งแกร่งโดยรวมในอุตสาหกรรมที่สั่งสมมาจนถึงจุดที่น้ำไหลถึงที่

ชั้นแรก: การซึมซับในสถานการณ์ทางคลินิกจริงในระยะยาว

United Imaging Intelligence 深耕ในสาขาการบูรณาการภาพทางการแพทย์และปัญญาประดิษฐ์มาหลายปี สะสมข้อมูลหลายรูปแบบและประสบการณ์การใช้งานมากมายในสภาพแวดล้อมทางคลินิกจริง และมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับความต้องการทางคลินิกของโรงพยาบาล การสะสมที่เกิดจากการตกตะกอนในระยะยาวในระบบการแพทย์จริงนี้ ทำให้โมเดลมีพันธุกรรมของ “ความพร้อมใช้งานทางคลินิก” ตั้งแต่เริ่มต้น

ชั้นที่สอง: การส่งออกการวิจัยอัลกอริทึมระดับการประชุมชั้นนำอย่างต่อเนื่อง

ทีมวิจัยของ United Imaging Intelligence 深耕ในสาขาวิสัยทัศน์คอมพิวเตอร์และการวิเคราะห์ภาพทางการแพทย์มาอย่างยาวนาน โดยมีคลังเทคนิคที่ลึกซึ้งในด้านความเข้าใจวิดีโอผ่าตัดและโมเดลขนาดใหญ่หลายรูปแบบ ผลงานที่เกี่ยวข้องได้รับการตีพิมพ์ในการประชุม AI ระดับนานาชาติชั้นนำ เช่น CVPR, NeurIPS, ICLR, ICCV, ECCV, AAAI ซึ่งหมายความว่าทีมงานอยู่ในแนวหน้าของสาขาในระดับวิธีการอยู่เสมอ

ชั้นที่สาม: วงจรปิดที่สมบูรณ์ตั้งแต่แหล่งข้อมูลไปจนถึงการนำโมเดลไปใช้

นี่คือส่วนที่สำคัญที่สุดและยากที่สุดที่จะเลียนแบบ ทีมงานเริ่มต้นจากแหล่งข้อมูลโดยตรง: ทำการ标注อย่างละเอียดระดับเฟรมต่อเฟรมกับข้อมูลวิดีโอทางการแพทย์สาธารณะจำนวนมาก โดยระบุองค์ประกอบหลัก เช่น ประเภทเครื่องมือ ตำแหน่งเชิงพื้นที่ ขั้นตอนการผ่าตัด และระดับความเสี่ยงในทุกเฟรมอย่างแม่นยำ รูปแบบการ标注ที่มีความละเอียดสูงและหลายมิตินี้เกือบจะเข้มงวด ทำให้โมเดลสร้างพื้นฐานความเข้าใจด้วยภาพที่แข็งแกร่งตั้งแต่วันแรกของการฝึก และค่อยๆ สร้างระบบความสามารถ “การรับรู้-การให้เหตุผล-การตัดสินใจ” ที่ครอบคลุมหลายสถานการณ์

ในขณะที่โมเดลขนาดใหญ่ทั่วไปกำลังรุกคืบในข้อความและภาพบนอินเทอร์เน็ต กล้องวิดีโอในห้องผ่าตัดก็ยังคงบันทึกทุกอย่างอย่างเงียบๆ ที่นี่ ความสวยงามของภาษาไร้ความหมาย มีเพียงความแม่นยำระดับมิลลิเมตรและความจริงจังอย่างแท้จริงต่อชีวิตเท่านั้นที่เป็นมาตรฐานทองคำ

ในอนาคต โม


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/32436

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐