โมเดลใหญ่ด้านวิดีโอทางการแพทย์แบบโอเพนซอร์สตัวแรกของโลก: แก้ปัญหาสามมิติด้านพื้นที่ เวลา และความหมาย ได้รับการยอมรับใน CVPR 2026

2 hours ago • ข่าวสารอุตสาหกรรม AI • 7 views

การนำ AI เข้าสู่วงการแพทย์ จำเป็นต้องดำเนินการด้วยความระมัดระวังอย่างยิ่ง

ในกระบวนการนี้ มักมีผู้ที่ดำเนินการอย่างก้าวร้าวเป็นพิเศษเสมอ ในเดือนกุมภาพันธ์ 2026 สำนักข่าวรอยเตอร์ได้เผยแพร่รายงานสืบสวนที่น่าตกใจ โดยมีหัวข้อว่า “As AI enters the operating room, reports arise of botched surgeries and misidentified body parts” ซึ่งแปลว่า “เมื่อ AI เข้าสู่ห้องผ่าตัด: รายงานความผิดพลาดในการผ่าตัดและการระบุส่วนต่างๆ ของร่างกายผิดพลาดเพิ่มขึ้นอย่างต่อเนื่อง” ในสหรัฐอเมริกา ผู้ผลิตอุปกรณ์ทางการแพทย์ได้นำ AI ที่ยังไม่สมบูรณ์เข้ามาใช้ในสถานการณ์การผ่าตัด ส่งผลให้กรณีการตัดสินผิดพลาดเพิ่มขึ้นเรื่อยๆ ระบบระบุส่วนต่างๆ ของร่างกายผิดพลาด และเกิดข้อผิดพลาดในการปฏิบัติงานที่สามารถหลีกเลี่ยงได้ในการผ่าตัดโดยใช้หุ่นยนต์ช่วย

ผู้ผลิตอุปกรณ์การแพทย์ต่างเร่งนำ AI มาบูรณาการเข้ากับผลิตภัณฑ์ของตน แม้ว่าผู้สนับสนุนจะเชื่อมั่นว่าเทคโนโลยีใหม่นี้จะปฏิวัติวงการแพทย์ แต่ข้อกล่าวหาเกี่ยวกับการบาดเจ็บของผู้ป่วยที่ส่งถึงหน่วยงานกำกับดูแลกลับเพิ่มสูงขึ้นอย่างต่อเนื่อง

ในบรรดา AI ทางการแพทย์ที่นำมาใช้โดยตรงในการปฏิบัติงานทางคลินิกเหล่านี้ ส่วนใหญ่มีเทคโนโลยีการรู้จำด้วยภาพและวิดีโอเป็นแกนหลัก

ในแวดวงวิชาการ โมเดลวิดีโอขนาดใหญ่ได้กลายเป็นหนึ่งในเส้นทางการแข่งขันที่ดุเดือดที่สุดในสาขาวิสัยทัศน์คอมพิวเตอร์ แม้จะมีโมเดลการรู้จำด้วยภาพขนาดใหญ่ที่สมบูรณ์จำนวนมาก แต่เกือบทั้งหมดมุ่งเน้นไปที่โดเมนวิดีโอทั่วไป เมื่อเลนส์หันไปยังห้องผ่าตัด สถานการณ์ก็ซับซ้อนขึ้นอย่างกะทันหัน เรายังคงเผชิญกับปัญหาสำคัญหลายประการ:

โมเดลทั่วไปไม่สามารถเชี่ยวชาญเฉพาะด้านงานในทางการแพทย์ได้ ในขณะที่วงการแพทย์ไม่ได้มีเพียงงานประเภทเดียว ข้อมูลที่เกี่ยวข้องในวงการแพทย์ขาดแคลนอย่างรุนแรง และแทบไม่สามารถประเมินประสิทธิภาพของโมเดลขนาดใหญ่ในงานทางการแพทย์จริงได้อย่างเป็นเอกภาพ

อย่างไรก็ตาม การให้ AI เข้ามามีส่วนร่วมในวงการแพทย์ เพิ่มประสิทธิภาพ และลดภาระของโรงพยาบาลและบุคลากรทางการแพทย์นั้นมีความสำคัญอย่างยิ่ง

รายงานตลาดโลกด้านการวิเคราะห์ภาพผ่าตัดเสริมด้วยปัญญาประดิษฐ์ (AI) ปี 2026 จาก Global Information ยังคาดการณ์ถึงศักยภาพการเติบโตของ AI ในการวิเคราะห์วิดีโอผ่าตัดทางการแพทย์อีกด้วย

ตลาดการวิเคราะห์วิดีโอผ่าตัดที่ใช้ปัญญาประดิษฐ์ (AI) เป็นฐานมีการพัฒนาอย่างรวดเร็ว คาดว่าจะเติบโตจาก 730 ล้านดอลลาร์สหรัฐในปี 2025 เป็น 910 ล้านดอลลาร์สหรัฐในปี 2026 โดยมีอัตราการเติบโตต่อปีแบบทบต้น (CAGR) ที่ 24.1% คาดว่าในอีกไม่กี่ปีข้างหน้า ตลาดการวิเคราะห์วิดีโอผ่าตัดที่เสริมด้วยปัญญาประดิษฐ์ (AI) จะเติบโตแบบก้าวกระโดด โดยมีขนาดตลาดถึง 2,140 ล้านดอลลาร์สหรัฐภายในปี 2030 โดยมีอัตราการเติบโตต่อปีแบบทบต้น (CAGR) ที่ 23.8%

น่าประหลาดใจที่โมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ที่ใหญ่และทรงพลังที่สุดในโลกอย่าง uAI-NEXUS-MedVLM ได้เปิดตัวอย่างเป็นทางการและเผยแพร่เป็นโอเพนซอร์สแล้ว!

โมเดลนี้แก้ไขปัญหาสำคัญสามประการในด้านวิดีโอทางการแพทย์โดยตรง ได้แก่ การเพิ่มประสิทธิภาพงาน การขาดข้อมูล และการไม่สามารถประเมินผลได้ ซึ่งเป็นการเปิดประตูสู่การประยุกต์ใช้โมเดลขนาดใหญ่ในวงการแพทย์ในวงกว้าง

ผลการวิจัยที่เกี่ยวข้องได้รับการตีพิมพ์ในการประชุม IEEE International Conference on Computer Vision and Pattern Recognition (CVPR 2026)

ชื่อบทความ: MedGRPO: Multi-Task Reinforcement Learning for Heterogeneous Medical Video Understanding
ลิงก์บทความ: https://arxiv.org/pdf/2512.06581
หน้าโครงการ: https://uii-ai.github.io/MedGRPO/
ลิงก์โอเพนซอร์ส: https://github.com/UII-AI/MedGRPO-Code

เปลี่ยน “สิ่งที่แก้ไม่ได้” ให้เป็น “สิ่งที่แก้ได้”

ในอดีต การให้โมเดลขนาดใหญ่เข้าใจวิดีโอทางการแพทย์ทางคลินิกจริงนั้นแทบจะเป็น “ปัญหาที่แก้ไม่ได้”

วิดีโอทางการแพทย์ไม่เพียงเกี่ยวข้องกับการรู้จำภาพเท่านั้น แต่ยังต้องแก้ไขความซับซ้อนของมิติพื้นที่ เวลา และความหมายอีกด้วย ทุกรายละเอียดในระหว่างการผ่าตัดมีความสำคัญอย่างยิ่ง และความประมาทเลินเล่อใดๆ อาจนำไปสู่ผลลัพธ์ที่ร้ายแรง

มิติพื้นที่กำหนดให้โมเดลต้องระบุตำแหน่งเชิงพื้นที่และความสัมพันธ์ระหว่างเครื่องมือ อวัยวะ และเนื้อเยื่อต่างๆ ในวิดีโอผ่าตัดได้อย่างแม่นยำ
มิติเวลานำมาซึ่งความไม่หยุดนิ่ง วิดีโอผ่าตัดไม่เพียงเป็นชุดของภาพนิ่ง แต่ยังเกี่ยวข้องกับการเปลี่ยนแปลงตามลำดับเวลาของการกระทำและขั้นตอนต่างๆ
มิติความหมายกำหนดให้โมเดลมีความรู้พื้นฐานทางการแพทย์ที่ลึกซึ้ง สามารถเข้าใจความหมายทางการแพทย์ของอุปกรณ์และการกระทำแต่ละอย่างในการผ่าตัด

ดินแดนไร้มนุษย์แห่งความเข้าใจด้วยภาพ

ด้วยความซับซ้อนสามประการที่ทับซ้อนกันของ “พื้นที่-เวลา-ความหมาย” แม้แต่ยักษ์ใหญ่ทั่วไปอย่าง GPT-5.4 และ Gemini-3.1 ก็แทบจะพ่ายแพ้อย่างสิ้นเชิงเมื่อเผชิญกับวิดีโอผ่าตัดจริง

รูปที่ 1: ผลลัพธ์หลักใน 8 งานของ MedVidBench

ในการทดลอง ทีมวิจัยได้เปรียบเทียบโมเดลพื้นฐานแบบใช้ทันที (ประเมินโดยใช้ one-shot prompting) ของปี 2025 และ 2026, พื้นฐาน SFT และวิธีการ MedGRPO แบบสมบูรณ์บน Qwen2.5VL-7B, Qwen3-VL-4B และ Qwen3.5-4B

ข้อมูลเฉพาะเจาะจงสามารถอธิบายปัญหาได้ดี ในงานประเมิน Critical View of Safety (CVS) ความแม่นยำของ GPT-5.4 อยู่ที่เพียง 16.4% และ Gemini-3.1 อยู่ที่ 24.2% ซึ่งโดยพื้นฐานแล้วเป็นการเดาสุ่ม ในงาน Spatio-Temporal Grounding (STG) ค่า mean Intersection over Union (mIoU) ระหว่างพื้นที่ที่ทำนายกับพื้นที่จริงนั้นต่ำจนแทบไม่ต้องนับ แม้แต่งานสร้างสรุปวิดีโอที่ดูเหมือน “ง่ายที่สุด” ภายใต้คะแนนเต็ม 5 คะแนน GPT-5.4 ก็ได้เพียง 3.976 คะแนน และ Gemini-3.1 ได้ 3.737 คะแนน

ทีมวิจัยของ United Imaging Intelligence เลือกเส้นทางใหม่ในการบุกเบิกดินแดนไร้มนุษย์ โซลูชันสามารถสรุปได้เป็นสามสิ่ง: สร้างไม้บรรทัด สร้างชุดข้อมูล และคิดค้นวิธีการฝึกอบรม

MedVidBench: ไม้บรรทัดสาธารณะระดับโลก

การจะก้าวเข้าสู่ดินแดนไร้มนุษย์อันกว้างใหญ่ จำเป็นต้องมีผู้บุกเบิกที่กล้าหาญในการสร้างไม้บรรทัดแรกเริ่ม

กล่าวอีกนัยหนึ่ง ความก้าวหน้าในทุกสาขาล้วนต้องอาศัยเกณฑ์มาตรฐานการประเมินที่เป็นหนึ่งเดียวกัน ในสาขาการวิจัยอื่นๆ ImageNet กำหนดมาตรฐานสำหรับการจำแนกภาพ GLUE วางรากฐานสำหรับความเข้าใจภาษาธรรมชาติ แต่ในสาขาความเข้าใจวิดีโอทางการแพทย์ เป็นเวลานานแล้วที่ไม่มีแม้แต่ “ไม้บรรทัด”

เพื่อสำรวจและอำนวยความสะดวกในการวิจัยของผู้ที่มาทีหลัง ทีมวิจัยได้สร้าง MedVidBench ซึ่งเป็นชุดข้อมูลเกณฑ์มาตรฐานขนาดใหญ่ที่มีคู่คำสั่ง-วิดีโอมากกว่า 530,000 คู่ ครอบคลุมแหล่งข้อมูลทางการแพทย์เฉพาะทาง 8 แหล่ง (CholecT50, CholecTrack20, Cholec80-CVS, CoPESD, AVOS, EgoSurgery, JIGSAWS, NurViD) ครอบคลุมสถานการณ์ทางคลินิกหลัก เช่น การส่องกล้อง การผ่าตัดแบบเปิด การผ่าตัดด้วยหุ่นยนต์ และการปฏิบัติการพยาบาล

รูปที่ 2: ภาพรวมของ MedVidBench (a) กระบวนการจัดการข้อมูลคุณภาพสูงของ MedVidBench ทีมวิจัยใช้ความรู้จากผู้เชี่ยวชาญในการสร้าง prompt และใช้ VLM สองตัว (Gemini-2.5-Flash และ GPT-4.1) เพื่อสร้างข้อความคุณภาพสูง (b) MedVidBench ประกอบด้วยชุดข้อมูลที่แตกต่างกัน 8 ชุด โดยมีขนาดตัวอย่างรวม 532k ครอบคลุม 4 โดเมนที่แตกต่างกัน (c) ตัวอย่างงานที่หลากหลายในโดเมนต่างๆ

ที่สำคัญยิ่งกว่านั้น MedVidBench ไม่ได้มีแค่ “ปริมาณมาก” เท่านั้น แต่ยังประกอบด้วยชุดข้อมูลที่แตกต่างกัน 8 ชุด ครอบคลุมสามระดับความละเอียด:

ระดับวิดีโอ: เข้าใจข้อมูลโดยรวมของวิดีโอทั้งเรื่อง รวมถึงงาน VS (Video Summarization) และ NAP (Next Action Prediction)
ระดับคลิป: ระบุตำแหน่งและเข้าใจเนื้อหาในช่วงเวลาที่กำหนด รวมถึงงาน TAG (Temporal Action Grounding), STG (Spatio-Temporal Grounding) และ DVC (Dense Video Captioning)
ระดับเฟรม: วิเคราะห์รายละเอียดของภาพแต่ละเฟรม รวมถึงงาน RC (Region Captioning), CVS (Critical View of Safety Assessment) และ SA (Skill Assessment)

โครงสร้างสามชั้น “วิดีโอ-คลิป-เฟรม” นี้จำลองกระบวนการรับรู้ของแพทย์มนุษย์ตั้งแต่ภาพรวมไปจนถึงรายละเอียดเมื่อดูวิดีโอผ่าตัด: เริ่มจากกระบวนการโดยรวม จากนั้นโฟกัสไปที่ขั้นตอนสำคัญ และสุดท้ายตรวจสอบรายละเอียด

ในด้านคุณภาพข้อมูล ทีมงานได้ออกแบบกระบวนการรับประกันคุณภาพที่เข้มงวด: วิศวกรรม prompt แบบนำโดยผู้เชี่ยวชาญ + การตรวจสอบข้ามโมเดลแบบคู่ (GPT + Gemini) เพื่อให้แน่ใจว่าคู่คำสั่ง-ตอบสนองทุกคู่ผ่านการตรวจสอบสองชั้น ชุดข้อมูลแบ่งออกเป็นสองเวอร์ชัน: เวอร์ชันขนาดใหญ่ (ตัวอย่าง 530,000 ตัวอย่าง สำหรับการทดลองขยาย) และเวอร์ชันมาตรฐาน (ตัวอย่าง 51,500 ตัวอย่าง งานสมดุล สำหรับการเรียนรู้หลายงานที่มีประสิทธิภาพ)

GRPO: ทำให้ดีขึ้นกว่าเดิม

เมื่อมีข้อมูลแล้ว คำถามต่อไปคือ: วิธีการฝึกอบรมแบบไหนดีที่สุด?

เราทราบดีว่าการฝึกโมเดลขนาดใหญ่ในงานและชุดข้อมูลเฉพาะ วิธีการที่เข้าใจง่ายคือการปรับแต่งแบบมีผู้สอน (SFT)

โดยใช้ Qwen2.5-VL-7B เป็นโมเดลพื้นฐาน ทีมวิจัยได้ดำเนินการปรับแต่งแบบมีผู้สอน (SFT) บน MedVidBench ซึ่งให้ผลลัพธ์ที่น่าทึ่ง ในงานประเมินทั้งหมด 8 งาน ประสิทธิภาพของโมเดลนี้เหนือกว่าโมเดลหลักอย่าง GPT-4.1, Gemini-2.5-Flash, GPT-5.4 และ Gemini-3.1-flash-lite อย่างสิ้นเชิง โดยเฉพาะอย่างยิ่ง ด้วยขนาดพารามิเตอร์เพียง 7B ความแม่นยำของ CVS ของโมเดลสูงถึง 89.4% ซึ่งเกือบ 50 เท่าของ GPT-5.4 และในตัวชี้วัด mIoU ของ TAG@0.3 ประสิทธิภาพของโมเดลสูงกว่า Gemini-3.1 ถึง 3 เท่า

อย่างไรก็ตาม วิธีการ SFT นั้นมีเพดานประสิทธิภาพในตัว เพื่อก้าวข้ามอุปสรรคนี้ ทีมงานจึงตัดสินใจนำ Reinforcement Learning (RL) เข้ามาใช้ เพื่อปรับปรุงคุณภาพของผลลัพธ์ที่โมเดลสร้างขึ้นให้ดียิ่งขึ้น

แต่วิธี RL มาตรฐานต้องเผชิญกับปัญหาสำคัญในที่นี้: ความไม่สมดุลของสเกลรางวัลข้ามชุดข้อมูลอย่างรุนแรง

ความยากของงานวิดีโอทางการแพทย์ที่แตกต่างกันนั้นแตกต่างกันอย่างมาก ตัวอย่างเช่น ในชุดข้อมูล CoPESD ค่า mIoU มัธยฐานของงาน STG อยู่ที่ประมาณ 0.5 ในขณะที่ในชุดข้อมูล EgoSurgery ค่า mIoU มัธยฐานของงานเดียวกันอยู่ที่ประมาณ 0.12 เท่านั้น หากใช้สัญญาณรางวัลดั้งเดิมโดยตรงในการฝึก RL การไล่ระดับของงานง่ายจะกลบสัญญาณของงานยากจนหมด ส่งผลให้กระบวนการปรับแต่งไม่สมดุล และอาจนำไปสู่การล่มสลายของการฝึก

ข้อมูลการทดลองยังยืนยันประเด็นนี้: เมื่อไม่มีการทำ normalization ความแม่นยำของ CVS ลดลงจาก 0.894 เหลือ 0.020 อย่างรวดเร็ว ในขณะที่ mIoU ของ STG ก็ลดลงจาก 0.177 เหลือ 0.010

โซลูชันของทีมงานมีชื่อว่า MedGRPO โดยแกนหลักประกอบด้วยนวัตกรรมอัลกอริทึมสองประการ:

รูปที่ 3: ภาพรวมของ MedGRPO (a) แสดงกรอบงาน MedGRPO ที่รวมการทำ Normalization รางวัลข้ามชุดข้อมูลและการประเมินโดย Medical LLM Judge (b) เปรียบเทียบการเปลี่ยนแปลงของเอนโทรปีการฝึกระหว่างโมเดลที่ฝึกด้วยและไม่มีการทำ Normalization รางวัล

นวัตกรรมแรก: Cross-Dataset Reward Normalization

ข้อมูลเชิงลึกที่สำคัญคือ “ความเป็นธรรมของค่ามัธยฐาน”: ประสิทธิภาพมัธยฐานของคู่ชุดข้อมูล-งานทั้งหมดจะได้รับรางวัล Normalization ที่เท่ากัน ซึ่งจะช่วยขจัดความลำเอียงในการอัปเดตการไล่ระดับ ทีมงานได้แนะนำฟังก์ชัน Logistic Normalization เพื่อแมปประสิทธิภาพมัธยฐานของแต่ละชุดข้อมูลให้เป็นค่ารางวัลเดียวกันที่ 0.5:

โดยที่ p_50 แทนประสิทธิภาพมัธยฐานของชุดข้อมูลนั้น และ IQR คือพิสัยระหว่างควอไทล์ ความชาญฉลาดของการออกแบบนี้สะท้อนให้เห็นในการรับประกันสี่ประการ:

ความเป็นธรรมของค่ามัธยฐาน: ไม่ว่าความยากสัมบูรณ์จะเป็นเท่าใด ชุดข้อมูลทั้งหมดจะได้รับรางวัลเท่ากันที่ประสิทธิภาพมัธยฐาน
การไล่ระดับที่ราบรื่น: ฟังก์ชัน Logistic สามารถหาอนุพันธ์ได้ทุกจุด ซึ่งช่วยหลีกเลี่ยงปัญหาการหายไปหรือการระเบิดของการไล่ระดับได้อย่างมีประสิทธิภาพ
ความทนทานต่อค่าผิดปกติ: การปรับขนาดตาม IQR ทำให้ค่าผิดปกติที่รุนแรงไม่บิดเบือนการกระจายโดยรวม
เอาต์พุตที่มีขอบเขต: ค่ารางวัลถูกจำกัดอย่างเคร่งครัดในช่วง (0,1) ซึ่งเข้ากันได้ตามธรรมชาติกับกลไก Group Normalization ของ GRPO

นวัตกรรมที่สอง: Medical LLM Judge

นี่อาจเป็นส่วนที่ชาญฉลาดที่สุดในงานทั้งหมด ทีมงานค้นพบว่าตัวชี้วัดความคล้ายคลึงทางความหมายแบบดั้งเดิมไม่สามารถวัดความถูกต้องทางคลินิกของคำอธิบายทางการแพทย์ได้ ตัวอย่างที่กล่าวถึงก่อนหน้านี้เป็นหลักฐานที่ดีที่สุด: “เครื่องมือจับเนื้อเยื่อในพื้นที่ด้านบน” กับ “คีมจับแยกท่อน้ำดีในจตุภาคขวาบน” แม้จะมีความคล้ายคลึงทางความหมายสูงถึง 0.82 แต่ความแม่นยำทางการแพทย์กลับแตกต่างกันอย่างสิ้นเชิง

ด้วยเหตุนี้ ทีมงานจึงออกแบบระบบการให้คะแนนเปรียบเทียบตาม GPT-4.1 โดยประเมินจากห้ามิติทางคลินิก:

ความแม่นยำของคำศัพท์ทางการแพทย์: ใช้คำศัพท์ทางคลินิกหรือภาษาทั่วไป?
การระบุเครื่องมือและโครงสร้างทางกายวิภาค: สามารถระบุชื่อเครื่องมือและโครงสร้างร่างกายที่เฉพาะเจาะจงได้อย่างถูกต้องหรือไม่?
ความเฉพาะเจาะจงของคำอธิบาย: ให้รายละเอียดที่แม่นยำหรือภาพรวมกว้างๆ?
การรับรู้บริบททางคลินิก: เข้าใจขั้นตอนการผ่าตัดและมาตรฐานความปลอดภัยหรือไม่?
ความแม่นยำของการกระทำและสถานะ: การตัดสินเกี่ยวกับการกระทำผ่าตัดและสถานะของเนื้อเยื่อถูกต้องหรือไม่?

คะแนนสุดท้ายใช้กลยุทธ์แบบผสมผสาน: คะแนนจาก LLM Judge คิดเป็น 50% และความคล้ายคลึงทางความหมายแบบดั้งเดิมคิดเป็น 50% ซึ่งช่วยให้สามารถจับความถูกต้องทางคลินิกและรักษาความต่อเนื่องโดยรวมไว้ได้

ผลลัพธ์ที่เกิดขึ้นจริง

แล้วการใช้ชุดข้อมูลที่สมบูรณ์แบบเช่นนี้ ร่วมกับวิธีการ SFT + RL ที่เป็นนวัตกรรมของทีมงาน จะสามารถเปลี่ยนแปลงสถานการณ์ที่โมเดลขนาดใหญ่ในด้านความเข้าใจวิดีโอทางการแพทย์ทำได้แค่ “เดาสุ่ม” ได้หรือไม่?

คำตอบคือใช่แน่นอน จากรูปที่ 1 ก่อนหน้านี้ เราได้เห็นแล้วว่าโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ที่ผ่านการฝึกอบรมอย่างสมบูรณ์นั้น มีผลการเรียนในงานต่างๆ สูงกว่าโมเดลขนาดใหญ่ทั่วไปอย่างมาก

รูปที่ 4: ผลลัพธ์หลักของโมเดลสี่ตัวใน 8 งานบน MedVidBench

ภาพหลายมิตินี้แสดงให้เห็นถึงข้อได้เปรียบของโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ใน 8 งานหลักอย่างชัดเจน ซึ่งแทบจะเรียกได้ว่าเป็น “นักรบแปดเหลี่ยม”

โมเดลขนาดใหญ่ทั่วไปชั้นนำอย่าง GPT-5.4, Gemini-3.1 และ Qwen3.5-4B แสดงให้เห็นถึงปัญหา “ความไม่สมดุล” ที่สอดคล้องกันอย่างมาก อย่างไรก็ตาม แม้แต่งานสรุปวิดีโอที่พวกมันถนัดที่สุด ก็ยังไม่สามารถเอาชนะโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ได้

รูปที่ 5: การศึกษา Ablation เกี่ยวกับ Reward Normalization และ LLM Judge ของ uAI-NEXUS-MedVLM-1.0a-7B-RL

สิ่งที่ทำให้เห็นถึงความสามารถอันทรงพลังของโมเดลขนาดใหญ่ได้ชัดเจนกว่าข้อมูลก็คือการเปรียบเทียบเชิงคุณภาพ ในที่นี้ เราเลือกขั้นตอนการ “ทดสอบภูมิแพ้เพนิซิลลิน” ในการพยาบาลทางคลินิกซึ่งมีภาพที่ค่อนข้างอ่อนโยนเป็นตัวอย่าง:

รูปที่ 6: ผลการทดลองงาน Region Captioning ในการพยาบาลทางคลินิก

สังเกตให้ดี สำหรับโมเดลขนาดใหญ่ การระบุและทำความเข้าใจเนื้อหาของวิดีโอที่มีความยาวมากกว่าหนึ่งนาที โดยเฉพาะอย่างยิ่งงานที่เกี่ยวข้องกับคำศัพท์ทางการแพทย์เฉพาะทางและการระบุตำแหน่งที่แม่นยำ ถือเป็นความท้าทายอย่างยิ่ง แม้แต่กับมนุษย์ที่ไม่ได้รับการฝึกอบรมทางการแพทย์

คำอธิบายของ GPT-5.4 แม้จะละเอียด แต่มีภาพหลอน เช่น “การกำจัดอากาศที่เหลืออยู่”
ผลลัพธ์ของ Gemini-3.1-Flash-lite คล้ายกับ GPT-5.4 แต่มีข้อผิดพลาดในการระบุเวลาที่ชัดเจนกว่า
Qwen3.5-4B แสดงการเลื่อนตำแหน่งเวลาที่เป็นแบบฉบับ และอธิบาย “การฉีดเข้าในผิวหนัง” สองครั้งอย่างไม่ถูกต้อง

ประสิทธิภาพของ uAI-NEXUS-MedVLM-1.0b-4B-RL แสดงให้เห็นถึงวิวัฒนาการที่สำคัญ ไม่เพียงแต่ระบุตำแหน่งเวลาของ “การฆ่าเชื้อผิวหนัง” และ “การฉีดเข้าในผิวหนัง” ได้อย่างแม่นยำเท่านั้น แต่ยังอธิบายตำแหน่งปลายแขนของมนุษย์ได้อย่างแม่นยำ แสดงคำศัพท์ทางการแพทย์เฉพาะทางได้อย่างถูกต้อง และอธิบายกระบวนการปฏิบัติงานแบบละเอียดได้สำเร็จ

ผลลัพธ์ของโมเดลได้ก้าวจากการรู้จำการกระทำในระดับผิวเผิน ไปสู่ความเข้าใจเชิงลึกเกี่ยวกับตรรกะของขั้นตอนการพยาบาล การปรับปรุงนี้แสดงให้เห็นว่าโมเดลเริ่มสร้างความสามารถในการเข้าใจวิดีโอที่ใกล้เคียงกับมุมมองทางคลินิกมากขึ้น

ยิ่งไปกว่านั้น MedGRPO ยังมีความสามารถในการสรุปทั่วไปที่ดี แม้ในการกำหนดค่าโมเดลเล็ก 4B + RL ประสิทธิภาพในงานส่วนใหญ่ก็สูงกว่าพื้นฐาน SFT ขนาด 7B แล้ว ซึ่งหมายความว่าความเข้าใจวิดีโอทางการแพทย์ที่มีประสิทธิภาพไม่จำเป็นต้องเพิ่มพารามิเตอร์เสมอไป แต่วิธีการฝึกอบรมที่ถูกต้องก็มีความสำคัญเช่นกัน

ประกาศ “จดหมายเชิญวีรบุรุษ” สร้างโครงสร้างพื้นฐานร่วมกัน

ไม้บรรทัดที่นำไปสู่สาขาความเข้าใจวิดีโอทางการแพทย์ได้ถูกกำหนดขึ้นแล้ว การสำรวจในสาขานี้มีเกณฑ์การประเมิน ทำให้ทุกอย่างเป็นไปตามรอย

เพื่อให้ AI ในวงการแพทย์สามารถนำไปใช้ได้จริง จำเป็นต้องให้ทั้งอุตสาหกรรมใช้ไม้บรรทัดนี้ร่วมกัน เพื่อผลักดันความก้าวหน้าของโมเดล AI และการสร้างโครงสร้างพื้นฐานในวงการแพทย์

ทีมงานได้เปิดตัวกระดานผู้นำสาธารณะของ MedVidBench (Leaderboard) และออกคำเชิญอย่างเป็นทางการไปยังนักพัฒนาทั่วโลก: ทีมงานใดๆ สามารถส่งผลการทดสอบโมเดลของตนเองได้ ระบบจะให้คะแนนอัตโนมัติตามมาตรฐานเดียวกันและอัปเดตอันดับแบบไดนามิก

นี่คือทั้ง “จดหมายเชิญวีรบุรุษ” และแพลตฟอร์มการแข่งขันระดับโลกที่ดำเนินการอย่างต่อเนื่อง นักพัฒนาส่งผลงาน ระบบให้คะแนน กระดานอันดับรีเฟรช อันดับวนซ้ำ ก่อตัวเป็นวงจรปิดที่สมบูรณ์

ลิงก์กระดานผู้นำ: https://huggingface.co/spaces/UII-AI/MedVidBench-Leaderboard

ในฐานะระบบการประเมินที่สมบูรณ์แบบเป็นรายแรกในสาขานี้ มันมีความสำคัญอย่างยิ่ง:

สร้างกรอบการประเมินที่เป็นหนึ่งเดียวและน่าเชื่อถือ ในอุตสาหกรรมที่พึ่งพาความไว้วางใจอย่างมากเช่นการแพทย์ benchmark แบบ “พูดกันเอง” ไม่มีน้ำหนัก โครงสร้างการประเมินจะได้รับความน่าเชื่อถือก็ต่อเมื่อโมเดลจากสถาบันต่างๆ และแนวทางเทคนิคที่แตกต่างกันทั่วโลกได้รับการทดสอบภายใต้มาตรฐานเดียวกัน MedVidBench Leaderboard สาธารณะถูกสร้างขึ้นเพื่อจุดประสงค์นี้ โดยมีเป้าหมายเพื่อสร้าง “มาตรฐานอุตสาหกรรม” ที่ทุกคนยอมรับร่วมกัน ทำให้ผู้เข้าร่วมทุกคนยืนอยู่บนเส้นเริ่มต้นเดียวกัน

ดึงดูดนักพัฒนาทั่วโลกให้เข้าร่วมการแข่งขัน กระดานผู้นำมีคุณสมบัติการแข่งขันโดยธรรมชาติ และการแข่งขันเป็นหนึ่งในกลไกที่มีประสิทธิภาพที่สุดในการขับเคลื่อนความก้าวหน้าในสาขา เมื่อกลุ่มวิจัยของโรงพยาบาล ห้องปฏิบัติการของมหาวิทยาลัย หรือวิศวกรของบริษัทสตาร์ทอัพสามารถเห็นอันดับของตนเองบนกระดานผู้นำเดียวกันได้ รูปแบบการแข่งขันแบบเปิดนี้ได้รับการพิสูจน์ซ้ำแล้วซ้ำเล่าใน benchmark และ Arena คลาสสิกของโมเดลขนาดใหญ่

เพิ่มอิทธิพลและความไว้วางใจระดับนานาชาติ จากมุมมองที่กว้างขึ้น การมีเกณฑ์มาตรฐานการประเมินและกระดานผู้นำที่นักพัฒนาทั่วโลกใช้กันอย่างแพร่หลาย หมายความว่า United Imaging Intelligence ซึ่งเป็นผู้สร้างโมเดลขนาดใหญ่และมาตรฐานการประเมินนี้ กำลังเปลี่ยนจาก “บริษัท AI ทางการแพทย์ของจีน” มาเป็น “ผู้ให้บริการโครงสร้างพื้นฐานในสาขาความเข้าใจวิดีโอทางการแพทย์ระดับโลก”

บทสรุป

ในสาขา AI ทางการแพทย์ จุดสนใจของการแข่งขันในปัจจุบันไม่ได้จำกัดอยู่ที่โมเดลเดียว ตัวชี้วัดใดตัวชี้วัดหนึ่ง หรืออันดับกระดานผู้นำครั้งใดครั้งหนึ่งอีกต่อไป แต่เป็นความสามารถที่ครอบคลุมว่าความก้าวหน้าทางเทคโนโลยีสามารถเชื่อมต่อกับสถานการณ์ทางคลินิกจริง ระบบข้อมูลทางการแพทย์ การวิจัยอัลกอริทึม และการนำไปใช้ในทางวิศวกรรมได้อย่างต่อเนื่องหรือไม่

ในสาขาโมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ โมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอทางการแพทย์ Yuanzhi ประสบความสำเร็จในการก้าวกระโดดทางเทคโนโลยีครั้งสำคัญเป็นครั้งแรก ทีมวิจัยเบื้องหลังคือ United Imaging Intelligence ซึ่งเป็นองค์กรนวัตกรรมที่深耕ในสาขา AI มาอย่างยาวนาน

ในฐานะบริษัทในเครือที่ดำเนินงานอย่างอิสระภายใต้ United Imaging Group United Imaging Intelligence มุ่งเน้นไปที่นวัตกรรมทางเทคโนโลยีและการนำไปใช้ในเชิงพาณิชย์ในด้านดิจิทัลและอัจฉริยะทางการแพทย์ โดยมุ่งมั่นที่จะเป็นผู้นำนวัตกรรมการแพทย์ดิจิทัลและอัจฉริยะระดับโลก

ปีที่แล้ว United Imaging Intelligence ได้เปิดตัวโมเดลขนาดใหญ่ทางการแพทย์ “Yuanzhi” (uAI NEXUS) อย่างเป็นทางการ ซึ่งเป็นแบบหลายรูปแบบและมุ่งเน้นแนวตั้งทางการแพทย์ โมเดลขนาดใหญ่นี้ประกอบด้วยโมเดลขนาดใหญ่ห้าส่วน ได้แก่ ข้อความ ภาพ วิสัยทัศน์ เสียง และแบบผสมผสาน ซึ่งทำหน้าที่เป็นฐานที่มั่นคงสำหรับระบบดิจิทัลและอัจฉริยะทางการแพทย์ โดยสามารถให้ความฉลาดระดับพื้นฐานสำหรับสถานการณ์ทางการแพทย์ที่แตกต่างกัน โมเดลขนาดใหญ่ด้านความเข้าใจวิดีโอที่เปิดเผยเป็นโอเพนซอร์สในครั้งนี้ เป็นการขยายความสามารถที่สำคัญและเป็นองค์ประกอบสำคัญของโมเดลขนาดใหญ่ด้านวิสัยทัศน์ “Yuanzhi” ซึ่งช่วยขยายความสามารถในการทำความเข้าใจ การให้เหตุผล และการตัดสินใจในสถานการณ์ทางการแพทย์แบบไดนามิก

เหตุใด United Imaging Intelligence จึงสามารถเอาชนะปัญหาทางเทคนิคที่ได้รับการยอมรับอย่างกว้างขวางนี้ได้? เราเชื่อว่านี่เป็นผลมาจากการลงทุนอย่างเป็นระบบในระยะยาว การสะสมทางเทคนิคหลายปี และความแข็งแกร่งโดยรวมในอุตสาหกรรมที่สั่งสมมาจนถึงจุดที่น้ำไหลถึงที่

ชั้นแรก: การซึมซับในสถานการณ์ทางคลินิกจริงในระยะยาว

United Imaging Intelligence 深耕ในสาขาการบูรณาการภาพทางการแพทย์และปัญญาประดิษฐ์มาหลายปี สะสมข้อมูลหลายรูปแบบและประสบการณ์การใช้งานมากมายในสภาพแวดล้อมทางคลินิกจริง และมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับความต้องการทางคลินิกของโรงพยาบาล การสะสมที่เกิดจากการตกตะกอนในระยะยาวในระบบการแพทย์จริงนี้ ทำให้โมเดลมีพันธุกรรมของ “ความพร้อมใช้งานทางคลินิก” ตั้งแต่เริ่มต้น

ชั้นที่สอง: การส่งออกการวิจัยอัลกอริทึมระดับการประชุมชั้นนำอย่างต่อเนื่อง

ทีมวิจัยของ United Imaging Intelligence 深耕ในสาขาวิสัยทัศน์คอมพิวเตอร์และการวิเคราะห์ภาพทางการแพทย์มาอย่างยาวนาน โดยมีคลังเทคนิคที่ลึกซึ้งในด้านความเข้าใจวิดีโอผ่าตัดและโมเดลขนาดใหญ่หลายรูปแบบ ผลงานที่เกี่ยวข้องได้รับการตีพิมพ์ในการประชุม AI ระดับนานาชาติชั้นนำ เช่น CVPR, NeurIPS, ICLR, ICCV, ECCV, AAAI ซึ่งหมายความว่าทีมงานอยู่ในแนวหน้าของสาขาในระดับวิธีการอยู่เสมอ

ชั้นที่สาม: วงจรปิดที่สมบูรณ์ตั้งแต่แหล่งข้อมูลไปจนถึงการนำโมเดลไปใช้

นี่คือส่วนที่สำคัญที่สุดและยากที่สุดที่จะเลียนแบบ ทีมงานเริ่มต้นจากแหล่งข้อมูลโดยตรง: ทำการ标注อย่างละเอียดระดับเฟรมต่อเฟรมกับข้อมูลวิดีโอทางการแพทย์สาธารณะจำนวนมาก โดยระบุองค์ประกอบหลัก เช่น ประเภทเครื่องมือ ตำแหน่งเชิงพื้นที่ ขั้นตอนการผ่าตัด และระดับความเสี่ยงในทุกเฟรมอย่างแม่นยำ รูปแบบการ标注ที่มีความละเอียดสูงและหลายมิตินี้เกือบจะเข้มงวด ทำให้โมเดลสร้างพื้นฐานความเข้าใจด้วยภาพที่แข็งแกร่งตั้งแต่วันแรกของการฝึก และค่อยๆ สร้างระบบความสามารถ “การรับรู้-การให้เหตุผล-การตัดสินใจ” ที่ครอบคลุมหลายสถานการณ์

ในขณะที่โมเดลขนาดใหญ่ทั่วไปกำลังรุกคืบในข้อความและภาพบนอินเทอร์เน็ต กล้องวิดีโอในห้องผ่าตัดก็ยังคงบันทึกทุกอย่างอย่างเงียบๆ ที่นี่ ความสวยงามของภาษาไร้ความหมาย มีเพียงความแม่นยำระดับมิลลิเมตรและความจริงจังอย่างแท้จริงต่อชีวิตเท่านั้นที่เป็นมาตรฐานทองคำ

ในอนาคต โม

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง