ด้วยการแทรกซึมอย่างรวดเร็วของปัญญาประดิษฐ์แบบสร้างสรรค์ (Generative AI) ในวงการแพทย์ ข้อมูลประวัติผู้ป่วย รายงานภาพถ่ายทางการแพทย์ และข้อความทางคลินิกประเภทต่างๆ จำนวนมากกำลังถูกนำมาใช้ในการสร้างโดย AI มากขึ้นเรื่อยๆ ภายใต้การปฏิวัติเทคโนโลยีที่มุ่งเพิ่มประสิทธิภาพนี้ กลับแฝงไปด้วยความเสี่ยงลึกๆ ที่คุกคามความปลอดภัยของการวินิจฉัยโรค
งานวิจัยล่าสุดโดยทีมสหวิทยาการจากมหาวิทยาลัยแห่งชาติสิงคโปร์ มหาวิทยาลัยฮาร์วาร์ด มหาวิทยาลัยสแตนฟอร์ด มหาวิทยาลัยเยล กูเกิล และคลินิกเมโย แสดงให้เห็นว่า เมื่อข้อความทางคลินิกที่สร้างโดย AI ถูกนำไปใช้ฝึกอบรมโมเดล AI รุ่นใหม่ ข้อมูลทางพยาธิวิทยาที่หายากแต่สำคัญบางส่วนจะค่อยๆ หายไปในกระบวนการวนซ้ำของข้อมูล ส่งผลให้ความน่าเชื่อถือโดยรวมของการวินิจฉัยโรคของ AI ทางการแพทย์ลดลงอย่างต่อเนื่องในระดับกลุ่ม
ทีมวิจัยได้วิเคราะห์ข้อมูลสังเคราะห์มากกว่า 800,000 ชุดอย่างเป็นระบบภายใต้สามภารกิจหลัก ได้แก่ การสร้างข้อความทางคลินิก การสร้างรายงานภาพถ่ายทางการแพทย์แบบผสมผสานภาพและภาษา และการสังเคราะห์ภาพทางการแพทย์ (ดังแสดงในรูปที่ 1) เป็นครั้งแรกที่พิสูจน์ว่า: ในกรณีที่ขาดการตรวจสอบโดยมนุษย์ที่เป็นข้อบังคับ วงจรการฝึกอบรมตนเองหลายรุ่นจะนำไปสู่การสูญเสียความหลากหลายทางพยาธิวิทยาอย่างรวดเร็ว และความน่าเชื่อถือในการวินิจฉัยลดลงอย่างรวดเร็ว และการประเมินโดยแพทย์ก็ยืนยันถึงการลดลงของประโยชน์ทางคลินิกเช่นกัน
งานวิจัยยังได้เสนอกลยุทธ์บรรเทาผลกระทบที่สามารถบูรณาการเข้ากับขั้นตอนการทำงานทางคลินิกที่มีอยู่ได้ เพื่อเป็นแนวทางปฏิบัติด้านความปลอดภัยก่อนที่ AI จะเข้าสู่วงการแพทย์อย่างเต็มรูปแบบ
- ชื่อบทความวิจัย: AI-generated data contamination erodes pathological variability and diagnostic reliability
- ลิงก์บทความวิจัย: https://arxiv.org/abs/2601.12946

รูปที่ 1: ปรากฏการณ์การสูญเสียความหลากหลายทางพยาธิวิทยาและการลดลงของความปลอดภัยในการวินิจฉัยจากมลพิษข้อมูลที่สร้างโดย AI พร้อมวิธีการบรรเทาผลกระทบ
ปัญหาความท้าทายในโลกจริง: วิกฤตที่ซ่อนอยู่เบื้องหลังความแพร่หลายของการสร้างข้อมูลทางการแพทย์โดย AI
ปัญญาประดิษฐ์กำลังปรับเปลี่ยนระบบเอกสารทางการแพทย์ทั่วโลก โมเดลภาษาขนาดใหญ่ถูกนำไปใช้อย่างแพร่หลายในสถานการณ์ต่างๆ เช่น รายงานทางคลินิก สรุปการจำหน่ายผู้ป่วย แฟ้มสุขภาพอิเล็กทรอนิกส์ การวินิจฉัยโรคด้วยความช่วยเหลือของ AI ก็เป็นที่นิยมมากขึ้นเรื่อยๆ อย่างไรก็ตาม ความเสี่ยงที่แฝงอยู่คือ: ฐานข้อมูลทางการแพทย์ที่เดิมพึ่งพาการสร้างโดยมนุษย์กำลังถูกแทนที่ด้วยเนื้อหาที่สร้างโดย AI จำนวนมาก และถูกบันทึกไว้อย่างต่อเนื่องในบันทึกการวินิจฉัยและรักษา จากนั้นกลายเป็นข้อมูลฝึกอบรมสำหรับโมเดล AI รุ่นต่อไป ก่อให้เกิดโครงสร้างวงจรตนเองแบบ “สร้าง-ฝึกอบรม-สร้างใหม่”
ในสาขาอื่นๆ วงจรการฝึกอบรมตนเองได้รับการพิสูจน์แล้วว่าทำให้เกิด “ความเสื่อมถอยของโมเดล” นั่นคือความหลากหลายของผลลัพธ์และความเที่ยงตรงลดลง ในขณะที่ลักษณะพิเศษของสาขาการแพทย์ทำให้อันตรายจากปัญหานี้รุนแรงเป็นพิเศษ การวินิจฉัยทางการแพทย์ส่วนใหญ่พึ่งพาการระบุโรคหายาก อาการทางคลินิกที่ไม่เป็นไปตามแบบแผน และความผิดปกติเล็กน้อยที่พบได้ยากในส่วนหางของการกระจายตัว การสูญเสียข้อมูลเหล่านี้เพียงเล็กน้อยก็สามารถสร้างจุดบอดในการวินิจฉัยที่เป็นระบบ เพิ่มความเสี่ยงในการวินิจฉัยโรคพลาด ทำให้ความไม่เท่าเทียมทางการแพทย์รุนแรงขึ้น และส่งผลกระทบต่อการเฝ้าระวังโรค ที่ร้ายแรงกว่านั้นคือ มาตรฐานการประเมิน AI ทางการแพทย์ในปัจจุบันมักเน้นที่คุณภาพภาษาพื้นผิว และขาดการพิจารณาความแม่นยำในการวินิจฉัย ส่งผลให้ความเสื่อมถอยของโมเดลและการประยุกต์ใช้ประเภทนี้ยากที่จะตรวจพบจากการตรวจสอบตามปกติ
ผลการวิจัยหลัก: ประสิทธิภาพลดลงอย่างทั่วถึงภายใต้ภารกิจหลากหลาย ความมั่นใจเท็จปกปิดช่องโหว่ร้ายแรง
ทีมวิจัยได้ดำเนินการทดลองหลายภารกิจโดยอิงจากรายงานรังสีวิทยาจำนวน 216,307 ฉบับ บันทึกทางคลินิก 790 รายการ ประวัติผู้ป่วยทางจักษุวิทยา 1,000 รายการ และภาพเอกซเรย์ทรวงอก 9,781 ภาพ ผลการทดลองแสดงให้เห็นว่า ความเสื่อมถอยหรือแม้กระทั่งความล้มเหลวของประสิทธิภาพโมเดลที่เกิดจากมลพิษข้อมูลที่สร้างโดย AI ไม่ได้เกิดจากประเภทข้อมูลเดียวหรือภารกิจทางคลินิกเพียงอย่างเดียว แต่เกิดขึ้นตลอดทั้งสามภารกิจทางคลินิกจริง ได้แก่ การสร้างข้อความทางคลินิก การสร้างรายงานรังสีวิทยาแบบผสมผสานภาพและภาษา และการสังเคราะห์ภาพทางการแพทย์ การทดลองที่ใช้สถาปัตยกรรมโมเดลตัวแทนหลากหลายรูปแบบต่างแสดงให้เห็นตรรกะความเสื่อมถอยที่คล้ายคลึงกัน: วงจรการฝึกอบรมตนเองนำไปสู่การสูญเสียความหลากหลายทางพยาธิวิทยาและการลดลงของความน่าเชื่อถือในการวินิจฉัย พร้อมกันนั้นก็ถูกปกปิดด้วยความมั่นใจในการทำนายสูงที่เป็นเท็จ เพื่อประเมินความเกี่ยวข้องทางคลินิกของผลการวิจัย ทีมงานได้ทบทวนและแก้ไขผลลัพธ์ที่สร้างโดย AI อย่างมีโครงสร้าง และได้นำขั้นตอนการประเมินโดยแพทย์เข้ามาเกี่ยวข้อง

รูปที่ 2: มลพิษข้อมูลที่สร้างโดย AI ส่งผลให้สูญเสียความหลากหลายทางภาษาและความรู้ทางคลินิกในบันทึกทางคลินิก
อันตรายจากข้อความทางคลินิกที่สร้างโดย AI: การสูญเสียสองเท่าของคำศัพท์และความรู้ และการแตกเป็นเสี่ยงของเรื่องเล่า
ทีมวิจัยได้ใช้เอกสารทางคลินิกและสถาปัตยกรรมโมเดล AI หลายรูปแบบเป็นอันดับแรก เพื่อสำรวจว่าการใช้ข้อความทางคลินิกสังเคราะห์เพื่อฝึกอบรมตนเองจะทำให้ประสิทธิภาพของโมเดลภาษาลดลงหรือไม่ ผลลัพธ์ในรูปที่ 2 แสดงให้เห็นว่าหลังจากฝึกอบรมตนเองสี่รุ่น โมเดลก็เกิดความเสื่อมถอยอย่างหายนะ คำศัพท์ในส่วน “ความประทับใจ” ของรายงานรังสีวิทยาลดลงจากประมาณ 12,078 คำ เหลือเพียงประมาณ 200 คำ ลดลง 98.9% คำศัพท์ทางการแพทย์เฉพาะลดลง 66% รายงานแสดงแนวโน้มที่เป็นสูตรสำเร็จอย่างชัดเจน ข้อสรุปที่คล้ายกันนี้เป็นจริงในเอกสารทางคลินิกที่กว้างขึ้น (เช่น บันทึกทางคลินิกจากฐานข้อมูล i2b2 จำนวน 790 รายการ) ขณะที่โมเดล AI มีความมั่นใจในข้อมูลสังเคราะห์ของตัวเองมากขึ้นเรื่อยๆ ความสามารถทางภาษาทางการแพทย์ที่แท้จริงของมันกลับลดลงเหลือเพียงหนึ่งในสี่ของเดิม สิ่งนี้สร้างความเสี่ยงอย่างร้ายแรงต่อการนำ AI ทางการแพทย์ไปใช้ – ความมั่นใจสูงที่เป็นเท็จอาจปกปิดข้อผิดพลาดสำคัญในบันทึกผู้ป่วย

รูปที่ 3: มลพิษข้อมูลที่สร้างโดย AI ส่งผลให้เกิดการสูญเสียความหลากหลายทางภาษาและความรู้ทางคลินิกในการสร้างรายงานรังสีวิทยาโดยโมเดลแบบผสมผสานภาพและภาษา
รายงานแบบผสมผสานภาพและภาษา: การยึดโยงกับภาพล้มเหลว อัตราความสบายใจเท็จพุ่งสูงขึ้น
ในภารกิจแบบผสมผสานภาพและภาษาในการสร้างรายงานจากภาพทางการแพทย์ ปรากฏการณ์ความเสื่อมถอยทางภาษายังคงมีอยู่ การวิจัยใช้โมเดลภาษาภาพ (Vision-Language Models) เช่น Swin-Transformer, Llama-2 (เช่น R2GenGPT) โดยใช้ภาพเอกซเรย์ทรวงอกจริงเป็นอินพุต แต่ฝึกอบรมโดยใช้เฉพาะรายงานสังเคราะห์ ผลลัพธ์ในรูปที่ 3 แสดงให้เห็นว่า แม้อินพุตจะเป็นภาพจริง โมเดลยังคงเกิดความเสื่อมถอยอย่างรุนแรง: ความเป็นเอกลักษณ์ของรายงานลดลงจาก 96.2% อย่างรวดเร็วเหลือเพียง 0.9% คำศัพท์ลดลงจาก 8,186 คำ เหลือเพียง 94 คำ ลดลง 98.9%
ที่อันตรายยิ่งกว่านั้นคือ อัตราความสบายใจเท็จเพิ่มขึ้นอย่างรวดเร็ว เมื่อมีภาวะทางพยาธิวิทยาที่เป็นอันตรายถึงชีวิต สัดส่วนของโมเดลที่ส่งออกผลลัพธ์ผิดพลาดว่า “ไม่พบสิ่งผิดปกติเฉียบพลัน” เพิ่มขึ้นจาก 13.3% เป็น 40.3% ในขณะที่โมเดลเองยังคงมีความมั่นใจสูงต่อผลลัพธ์นี้ ผลลัพธ์ที่มีความเสี่ยงทางคลินิกเช่นนี้ไม่สามารถตอบสนองความต้องการในการวินิจฉัยและรักษาของผู้ป่วยได้

รูปที่ 4: มลพิษข้อมูลที่สร้างโดย AI ส่งผลให้การสังเคราะห์ภาพทางการแพทย์มีคุณภาพภาพลดลง การบิดเบือนลักษณะทางพยาธิวิทยา และอคติทางประชากรศาสตร์เพิ่มขึ้น
การสังเคราะห์ภาพทางการแพทย์: คุณภาพเสื่อมถอย อคติขยายใหญ่ขึ้น และการขาดตัวแทนของกลุ่มประชากรที่เปราะบาง
นอกจากนี้ ภาพทางการแพทย์สังเคราะห์ที่สร้างโดย AI กำลังถูกนำไปใช้อย่างกว้างขวางมากขึ้นในด้านการวิจัย การพัฒนาผลิตภัณฑ์ ฯลฯ เพื่อขยายชุดข้อมูลฝึกอบรมหรือเพื่อแบ่งปันข้อมูลภายใต้การปกป้องความเป็นส่วนตัว อย่างไรก็ตาม เมื่อภาพสังเคราะห์เหล่านี้ถูกนำไปใช้ฝึกอบรมโมเดล AI รุ่นต่อไป ภาพที่สร้างขึ้นยากที่จะสะท้อนความหลากหลายของประชากรผู้ป่วยจริง เพื่อสำรวจว่าการสร้างภาพจะเกิดรูปแบบความเสื่อมถอยที่คล้ายกับโมเดลข้อความหรือไม่ ทีมวิจัยได้ฝึกอบรมโมเดลสร้างภาพ AI โดยใช้ภาพเอกซเรย์ทรวงอกในวงจรการฝึกอบรมตนเองหลายรอบ ผลการทดลอง (รูปที่ 4) แสดงให้เห็นว่าปัญหาการลดลงของคุณภาพภาพ การบิดเบือนลักษณะทางพยาธิวิทยา และการขยายใหญ่ขึ้นของอคติทางประชากรศาสตร์ที่เกิดจากมลพิษข้อมูลสังเคราะห์โดย AI ล้วนทวีความรุนแรงขึ้น
รวมขั้นตอนการประเมินโดยแพทย์ เสนอสามกลยุทธ์รับมือกับปัญหาการสร้างข้อมูลโดย AI
เพื่อประเมินความเกี่ยวข้องทางคลินิกของผลการวิจัย ทีมงานได้ทบทวนและแก้ไขผลลัพธ์ที่สร้างโดย AI อย่างมีโครงสร้าง และยืนยันการลดลงของประโยชน์ทางคลินิกผ่านการนำการประเมินโดยแพทย์เข้ามาเกี่ยวข้อง พร้อมกันนั้น การวิจัยได้ตรวจสอบสามกลยุทธ์ในการรับมือกับความเสื่อมถอยของโมเดลจากมลพิษข้อมูล AI อย่างเป็นระบบ:
1. การฝึกอบรมแบบผสมผสานกับข้อมูลจริง: ในฐานะแผนพื้นฐาน เมื่อสัดส่วนของข้อมูลจริงถึง 75% สามารถรักษาความหลากหลายทางพยาธิวิทยา ความเที่ยงตรงทางภาษาได้ดี และลดอคติทางประชากรศาสตร์ได้อย่างมีประสิทธิภาพ
2. การกรองตามคุณภาพ: ในกรณีที่ข้อมูลจริงมีจำกัด สามารถใช้เป็นวิธีการเสริมประสิทธิภาพเพื่อเพิ่มประสิทธิภาพการใช้ข้อมูล แต่ไม่สามารถทดแทนบทบาทของข้อมูลจริงในสัดส่วนสูงได้
3. การเพิ่มปริมาณข้อมูลสังเคราะห์เพียงอย่างเดียว: วิธีนี้ไม่เพียงแต่ไม่ได้ผล แต่กลับเร่งความเสื่อมถอยของโมเดลและเพิ่มอคติทางเพศหนักขึ้น พิสูจน์ว่าปริมาณข้อมูลไม่สามารถชดเชยข้อบกพร่องด้านคุณภาพได้
สรุปและมุมมองในอนาคต
ทีมวิจัยเชื่อว่าควรกำหนดให้การติดตามที่มาของข้อมูลเป็นข้อกำหนดนโยบายบังคับสำหรับการนำ AI ทางการแพทย์ไปใช้ และจัดตั้งระบบการตรวจสอบโดยมนุษย์ที่เป็นข้อบังคับ การพึ่งพาการกำกับดูแลโดยสมัครใจเพียงอย่างเดียวไม่เพียงพอ – เมื่อการประยุกต์ใช้ AI ทางคลินิกขยายตัว ความเป็นไปได้ทางเศรษฐกิจของการตรวจสอบทางกลไกที่เข้มงวดจะต่ำลงเรื่อยๆ หากขาดข้อจำกัดเชิงสถาบัน ระบบการแพทย์จะเผชิญกับความเสี่ยงในการปนเปื้อนข้อมูลสรีรวิทยาดิจิทัลของผู้ป่วยในอนาคต หากไม่มีกลไกการติดตามที่มาที่บังคับโดยนโยบาย การนำ Generative AI ไปใช้อาจเป็นอันตรายต่อระบบนิเวศข้อมูลทางการแพทย์ที่มันพึ่งพาอาศัยอยู่ และนำไปสู่ปัญหาด้านความปลอดภัยได้
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/26068
