สาขาอัลตราซาวด์ต้อนรับโมเดลขนาดใหญ่เฉพาะทาง เนื่องจากการถ่ายภาพอัลตราซาวด์มีคุณสมบัติแบบเรียลไทม์และไม่มีการแผ่รังสี จึงได้กลายเป็นเครื่องมือสำคัญสำหรับการวินิจฉัยทางคลินิกในระดับแนวหน้า อย่างไรก็ตาม โครงสร้างทางกายวิภาคที่หลากหลายและคุณลักษณะการวินิจฉัยที่แตกต่างกัน ทำให้โมเดลการฝึกฝนล่วงหน้าทางภาษาภาพทั่วไปปรับใช้ได้ยากโดยตรง และสัดส่วนของตัวอย่างอัลตราซาวด์ในข้อมูลข้ามโหมดทางการแพทย์ที่มีอยู่ยังต่ำกว่า 5% ซึ่งกลายเป็นคอขวดสำคัญในการวิจัยในสาขานี้

△ การกระจายสัดส่วนของภาพอัลตราซาวด์ในชุดข้อมูลมาตรฐานข้ามโหมดหลัก
พื้นที่สีแดงและเปอร์เซ็นต์ภายในในรูปแสดงถึงสัดส่วนของภาพอัลตราซาวด์ พื้นที่สีน้ำเงินแสดงถึงสัดส่วนของโหมดอื่น ป้ายด้านบนแสดงจำนวนสัมบูรณ์ (หน่วย: พัน) ชุดข้อมูล US-365K ที่เสนอในบทความนี้เป็นชุดข้อมูลขนาดใหญ่ชุดแรกที่อุทิศให้กับการถ่ายภาพอัลตราซาวด์โดยเฉพาะ
เพื่อแก้ไขปัญหานี้ ทีมวิจัยร่วมจากมหาวิทยาลัยเมืองเจ้อเจียง มหาวิทยาลัยเจ้อเจียง มหาวิทยาลัยนครฮ่องกง มหาวิทยาลัยฮ่องกงแบ๊บติสต์ โรงพยาบาลหมายเลข 1 แห่งวิทยาลัยแพทยศาสตร์มหาวิทยาลัยเจ้อเจียง และโรงพยาบาลสูติศาสตร์และนรีเวชวิทยาแห่งวิทยาลัยแพทยศาสตร์มหาวิทยาลัยเจ้อเจียง ได้สร้างชุดข้อมูลภาพ-ข้อความอัลตราซาวด์ขนาดใหญ่ทั่วไปชุดแรก US-365K และเสนอกรอบการเรียนรู้เชิงเปรียบเทียบที่รับรู้ความหมายซึ่งออกแบบมาสำหรับสถานการณ์อัลตราซาวด์โดยเฉพาะ Ultrasound-CLIP โดยมีวัตถุประสงค์เพื่อให้โมเดลเข้าใจความหมายทางคลินิกของการวินิจฉัยด้วยอัลตราซาวด์อย่างแท้จริง ผลงานที่เกี่ยวข้องได้รับการตีพิมพ์ใน CVPR 2026 และชุดข้อมูลและโค้ดได้เปิดเผยสู่สาธารณะแล้ว

ความท้าทายหลัก: อุปสรรคสามประการของการเรียนรู้ข้ามโหมดอัลตราซาวด์
การประยุกต์ใช้โมเดลภาษาภาพที่มีอยู่ในสาขาอัลตราซาวด์เผชิญกับปัญหาหลักสามประการ:
- ช่องว่างข้อมูลมีนัยสำคัญ: ชุดข้อมูลข้ามโหมดทางการแพทย์หลักเน้นที่ CT, MRI เป็นหลัก สัดส่วนตัวอย่างอัลตราซาวด์ต่ำมาก ขาดข้อมูลการฝึกมาตรฐานขนาดใหญ่เฉพาะทาง
- ความหมายคลุมเครือ จัดแนวได้ยาก: รายงานการวินิจฉัยอัลตราซาวด์มีการแสดงออกที่หลากหลาย การรอยโรคเดียวกันมีวิธีการอธิบายที่แตกต่างกัน การเรียนรู้เชิงเปรียบเทียบแบบดั้งเดิมกำหนดตัวอย่างบวกและลบได้ไม่แม่นยำ ง่ายต่อการเกิดอคติทางความหมาย
- ขาดความรู้เบื้องต้นเกี่ยวกับโครงสร้างทางคลินิก: การวินิจฉัยด้วยอัลตราซาวด์อาศัยความสัมพันธ์ที่ซับซ้อนระหว่างรอยโรคและคุณลักษณะการวินิจฉัย โมเดลทั่วไปไม่สามารถสร้างแบบจำลองตรรกะการให้เหตุผลทางคลินิกเฉพาะทางดังกล่าวได้ ทำได้เพียงการจับคู่คำหลักอย่างง่าย

△ ภาพรวมของกรอบ UDT และ Ultrasound-CLIP
รูป (a): ระบบการจำแนกการวินิจฉัยอัลตราซาวด์ (UDT) เป็นพื้นฐานทางความหมาย โดยจัดระบบความรู้อัลตราซาวด์ผ่านโครงสร้างลำดับชั้นทางกายวิภาคมาตรฐาน (UHAT) และกำหนด 9 คุณลักษณะการวินิจฉัยหลัก (UDAF) รูป (b): วิธีที่ Ultrasound-CLIP ใช้ UDT สองวิธี: (1) ตัวเข้ารหัสกราฟเฮเทอโรจีนีอัสตาม UDAF ผสานความสัมพันธ์ของคุณลักษณะลงในการฝังข้อความผ่านความสนใจข้าม เพื่อสร้างแบบจำลองการให้เหตุผลที่มีโครงสร้าง (2) สร้างความรู้เบื้องต้นทางความหมายตาม UDAF เพื่อปรับให้เหมาะสมสองวัตถุประสงค์เพื่อแก้ไขความกำกวม กรอบงานนี้จัดแนวคุณลักษณะภาพกับการแสดงข้อความที่รับรู้ความหมายและได้รับการปรับปรุงด้วยกราฟเหล่านี้
เพื่อแก้ไขปัญหาข้างต้นอย่างถึงราก ทีมวิจัยได้ดำเนินการจากสองมิติหลัก ได้แก่ การสร้างข้อมูลมาตรฐานและการออกแบบโมเดลเฉพาะทาง เพื่อสร้างระบบการเรียนรู้ข้ามโหมดที่ปรับให้เหมาะกับสถานการณ์อัลตราซาวด์ตลอดทั้งกระบวนการ
ขั้นตอนแรก: สร้างกรอบความรู้ UDT สร้างชุดข้อมูลมาตรฐาน US-365K
ทีมงานได้จัดตั้ง ระบบการจำแนกการวินิจฉัยอัลตราซาวด์ (UDT) ก่อน เพื่อกำหนดพื้นฐานที่เป็นมาตรฐานสำหรับการติดป้ายกำกับข้อมูลและการเรียนรู้ของโมเดล ระบบนี้ประกอบด้วยสองโมดูลหลัก:
- การจำแนกกายวิภาคตามลำดับชั้นอัลตราซาวด์ (UHAT): ตามหลักการวินิจฉัยทางคลินิก ได้จัดระบบโครงสร้างทางกายวิภาคตามลำดับชั้นที่ครอบคลุม 9 ระบบหลักของร่างกายและ 52 อวัยวะ ชี้แจงการจัดประเภทลำดับชั้นและความสัมพันธ์บริบทของแต่ละอวัยวะ เพื่อแก้ไขปัญหาความสับสนในการจำแนกกายวิภาคจากแหล่งข้อมูลที่แตกต่างกัน
- กรอบคุณลักษณะการวินิจฉัยอัลตราซาวด์ (UDAF): สรุป 9 มิติการวินิจฉัยที่แพทย์ทางคลินิกให้ความสำคัญเมื่อตีความภาพอัลตราซาวด์ รวมถึงระบบร่างกาย อวัยวะ ผลการวินิจฉัย รูปร่าง ขอบ ลักษณะการสะท้อนเสียง คุณลักษณะภายใน ปรากฏการณ์ทางเสียงด้านหลัง สัญญาณการไหลเวียนของเลือด และกำหนดคำศัพท์อธิบายทางคลินิกมาตรฐานสำหรับแต่ละมิติ

△ การแสดงภาพโครงสร้างลำดับชั้นทางกายวิภาคของ US-365K ตาม UHAT
จากกรอบ UDT ทีมงานได้รวบรวมข้อมูลอัลตราซาวด์จากฐานข้อมูลทางการแพทย์ระหว่างประเทศที่มีชื่อเสียง 5 แห่ง และดำเนินการประมวลผลอย่างละเอียดหลายขั้นตอน: กรองเนื้อหาที่ไม่ใช่อัลตราซาวด์ แยกวิดีโออัลตราซาวด์เป็นเฟรมคงที่ตามช่วงเวลา 0.5 วินาที ดึงป้ายกำกับการวินิจฉัยมาตรฐานผ่านไปป์ไลน์ที่ผสมผสานโมเดลขนาดใหญ่และพรอมต์ที่มีโครงสร้างตามกรอบ UDAF สุดท้ายผ่านการตรวจสอบและคัดกรองโดยผู้เชี่ยวชาญทางการแพทย์ เพื่อกำจัดตัวอย่างที่คลุมเครือหรือไม่สอดคล้องกัน
ชุดข้อมูล US-365K ที่สร้างขึ้นในที่สุดประกอบด้วยตัวอย่างภาพ-ข้อความอัลตราซาวด์ 364,000 คู่ ครอบคลุมกรณีทางคลินิกจริง 11,676 ราย พื้นที่ทางกายวิภาคครอบคลุมอย่างทั่วถึง ชุดข้อมูลนี้เป็น ชุดข้อมูลภาพและข้อความขนาดใหญ่ชุดแรกที่อุทิศให้กับอัลตราซาวด์โดยเฉพาะในอุตสาหกรรม โดยมีประสิทธิภาพข้อมูลเกิน 90% เติมเต็มช่องว่างของข้อมูลมาตรฐานขนาดใหญ่ข้ามโหมดสำหรับอัลตราซาวด์
ขั้นตอนที่สอง: เสนอกรอบ Ultrasound-CLIP เพื่อสร้างแบบจำลองและจัดแนวความหมายอัลตราซาวด์อย่างแม่นยำ
เพื่อแก้ไขปัญหาความหมายคลุมเครือและการขาดโครงสร้างในสถานการณ์อัลตราซาวด์ ทีมงานได้ออกแบบกรอบการเรียนรู้เชิงเปรียบเทียบที่รับรู้ความหมาย Ultrasound-CLIP กรอบงานนี้บนพื้นฐานของตัวเข้ารหัสคู่แบบคลาสสิก (ภาพ+ข้อความ) ได้ผสมผสานสองโมดูลหลักอย่างสร้างสรรค์ ได้แก่ ตัวเข้ารหัสกราฟเฮเทอโรจีนีอัสที่ชี้นำโดย UDAF และ ป้ายกำกับอ่อนทางความหมายตาม UDAF และใช้กลยุทธ์การปรับให้เหมาะสมสองวัตถุประสงค์
(1)ตัวเข้ารหัสกราฟเฮเทอโรจีนีอัสที่ชี้นำโดย UDAF สร้างแบบจำลองความสัมพันธ์ที่มีโครงสร้างของคุณลักษณะทางคลินิก
แปลงป้ายกำกับข้อความของแต่ละตัวอย่างเป็นกราฟเฮเทอโรจีนีอัสเฉพาะ: กำหนดโหนดการวินิจฉัยและโหนดคุณลักษณะตาม UDAF กำหนดชุดโหนดที่เปิดใช้งานตามป้ายกำกับตัวอย่าง และสร้างการเชื่อมต่อแบบไบพาร์ไทต์เต็มระหว่างโหนดสองประเภท เพื่อสร้างกราฟความสัมพันธ์รอยโรค-คุณลักษณะ ผ่านเครือข่ายประสาทเทียมกราฟเฮเทอโรจีนีอัส (GNN) ขนาดเบา ได้รับการฝังโหนด สร้างเวกเตอร์สรุปกราฟผ่านการรวมกลุ่มความสนใจ จากนั้นผสานกับการฝังข้อความดั้งเดิมผ่านความสนใจข้ามหลายหัว สุดท้ายได้การฝังข้อความที่ปรับปรุงด้วยกราฟ ซึ่งทำให้โมเดลสามารถจับตรรกะความหมายเฉพาะทางของการวินิจฉัยอัลตราซาวด์ได้
(2)ป้ายกำกับอ่อนทางความหมายตาม UDAF เพื่อวัดความคล้ายคลึงทางความหมายระดับละเอียด
ละทิ้งป้ายกำกับแข็งแบบไบนารีดั้งเดิม สร้างป้ายกำกับอ่อนความคล้ายคลึงทางความหมายต่อเนื่องตาม 9 มิติการวินิจฉัยของ UDAF: กำหนดเมทริกซ์ความคล้ายคลึงของป้ายกำกับมาตรฐานล่วงหน้าสำหรับแต่ละมิติ ค่าความสัมพันธ์ทางความหมายของคู่ตัวอย่างในแต่ละมิติ รวมแบบถ่วงน้ำหนักเพื่อรับความคล้ายคลึงเบื้องต้นทางความหมายโดยรวม สร้างเมทริกซ์เบื้องต้นอ่อน ซึ่งช่วยแก้ไขปัญหาความหมายคลุมเครือที่เกิดจากการแสดงออกรายงานที่หลากหลาย
(3)กลยุทธ์การปรับให้เหมาะสมสองวัตถุประสงค์ เพื่อจัดแนวข้ามโหมดอย่างแม่นยำและทำให้ความหมายเป็นมาตรฐาน
กรอบงานใช้การสูญเสียเชิงเปรียบเทียบและการสูญเสียความหมายร่วมกันในการปรับให้เหมาะสม:
– การสูญเสียเชิงเปรียบเทียบ: ใช้การสูญเสียเชิงเปรียบเทียบสมมาตรแบบคลาสสิก เพิ่มความคล้ายคลึงของคู่ตัวอย่างบวก (ภาพ-ข้อความที่สอดคล้องกัน) ให้สูงสุด ลดความคล้ายคลึงของคู่ตัวอย่างลบให้ต่ำสุด เพื่อให้ได้การจัดแนวข้ามโหมดพื้นฐาน
– การสูญเสียความหมาย: ผสานข้อผิดพลาดกำลังสองเฉลี่ยและ KL divergence ทำให้เมทริกซ์ความคล้ายคลึงที่โมเดลทำนายตรงกับเมทริกซ์เบื้องต้นอ่อนทางความหมายของ UDAF เพื่อให้แน่ใจว่าตัวอย่างที่มีความหมายคล้ายกันจะถูกจัดกลุ่มอย่างมีประสิทธิภาพในพื้นที่คุณลักษณะ
ผ่านการปรับให้เหมาะสมสองวัตถุประสงค์ร่วมกัน โมเดลสามารถจัดแนวภาพอัลตราซาวด์และข้อความได้อย่างแม่นยำ และยังสามารถจับคุณลักษณะความหมายทางคลินิกระดับละเอียดได้
การทดสอบ: ประสิทธิภาพนำหน้าในทุกงาน ความสามารถในการปรับตัวเข้ากับสถานการณ์ทางคลินิกที่หลากหลาย
ทีมงานได้ทำการทดลองบนพื้นฐานของ US-365K ในงานจำแนกหลายงาน งานค้นคืนภาพ-ข้อความ และตรวจสอบความสามารถในการปรับตัวของโมเดลบนชุดข้อมูลอัลตราซาวด์下游สาธารณะ 4 ชุด ผลลัพธ์แสดงว่า Ultrasound-CLIP มีประสิทธิภาพดีกว่าโมเดลฐาน CLIP ทางการแพทย์ที่มีอยู่ทั้งหมด
- การจำแนกหลายงาน: ความแม่นยำเฉลี่ยถึง 59.61% โดยความแม่นยำในการระบุคุณลักษณะทางคลินิกหลัก เช่น ขอบรอยโรค ผลการวินิจฉัย ถึง 84.44% และ 64.05% ตามลำดับ

- การค้นคืนภาพ-ข้อความ: การค้นคืนภาพไปยังข้อความ (I2T) @10 ถึง 37.45% การค้นคืนข้อความไปยังภาพ (T2I) @50 ถึง 80.22%

- การปรับตัว下游: ในงานศูนย์ตัวอย่าง การตรวจสอบเชิงเส้น การปรับจูนเต็มรูปแบบของชุดข้อมูลอัลตราซาวด์เต้านม ทางเดินอาหาร ฯลฯ 4 ชุด ได้รับประสิทธิภาพที่ดีที่สุดทั้งหมด แสดงความสามารถในการปรับตัวที่ดีกับสถานการณ์ทางคลินิกที่แตกต่างกัน
การเปิดเผยทรัพยากร
เพื่อส่งเสริมการพัฒนาสาขาการเรียนรู้ข้ามโหมดอัลตราซาวด์ ทีมวิจัยได้เปิดเผยโค้ดที่เกี่ยวข้องและชุดข้อมูล US-365K เพื่อเป็นทรัพยากรพื้นฐานที่สามารถนำไปใช้ซ้ำได้โดยตรงสำหรับการวิจัยต่อไป
ชื่อบทความ:
Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding
ผู้เขียน:
Jiayun Jin, Haolong Chai, Xueying Huang, Xiaoqing Guo, Zengwei Zheng, Zhan Zhou, Junmei Wang, Xinyu Wang, Jie Liu, Binbin Zhou
หน่วยงาน:
มหาวิทยาลัยเมืองเจ้อเจียง, มหาวิทยาลัยฮ่องกงแบ๊บติสต์, มหาวิทยาลัยเจ้อเจียง, โรงพยาบาลหมายเลข 1 แห่งวิทยาลัยแพทยศาสตร์มหาวิทยาลัยเจ้อเจียง, โรงพยาบาลสูติศาสตร์และนรีเวชวิทยาแห่งวิทยาลัยแพทยศาสตร์มหาวิทยาลัยเจ้อเจียง, มหาวิทยาลัยนครฮ่องกง
เผยแพร่:
CVPR 2026
ที่อยู่บทความ:
http://arxiv.org/abs/2604.01749
ที่อยู่โครงการ:
https://github.com/ZJUDataIntelligence/Ultrasound-CLIP
ที่อยู่ชุดข้อมูล:
https://huggingface.co/datasets/JJY-0823/US-365K
ประวัติผู้เขียน:
ผู้เขียนหลักของบทความนี้คือ Jin Jiayun นักศึกษาปริญญาโทมหาวิทยาลัยเมืองเจ้อเจียง งานวิจัยมุ่งเน้นที่โมเดลขนาดใหญ่หลายโหมด การวิจัยนี้เสร็จสิ้นภายใต้การแนะนำของรองศาสตราจารย์ Zhou Binbin และ Dr. Liu Jie
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/29829
