
งานวิจัยจากมหาวิทยาลัยฮาร์วาร์ดที่ตีพิมพ์ในวารสาร Science ก่อให้เกิดการถกเถียงอย่างกว้างขวาง: ในการทดลองแบบ double-blind กับผู้ป่วยฉุกเฉินจริง 76 ราย โมเดล OpenAI o1 มีความแม่นยำในการวินิจฉัยถึง 67% สูงกว่าแพทย์มนุษย์ที่ได้ 50% อย่างมาก ในส่วนของคะแนนแผนการรักษา o1 ทำได้ 89% เทียบกับ 34% ของแพทย์ ถือเป็นช่องว่างที่ชัดเจน อย่างไรก็ตาม ปัจจุบัน AI ยังไม่สามารถรับรู้สีหน้าหรือความเจ็บปวดของผู้ป่วยได้ การเปลี่ยนแปลงที่แท้จริงไม่ใช่ “ชัยชนะของ AI” แต่เป็นห้องฉุกเฉินที่กำลังก้าวสู่รูปแบบใหม่ของ “การร่วมมือสามฝ่ายระหว่างแพทย์ ผู้ป่วย และ AI”
เมื่อเร็วๆ นี้ วงการแพทย์ทั่วโลกได้รับข่าวสำคัญ คณะแพทยศาสตร์มหาวิทยาลัยฮาร์วาร์ดร่วมกับศูนย์การแพทย์ Beth Israel Deaconess เผยแพร่ผลงานวิจัยที่น่าจับตามองในวารสาร Science

ในสถานการณ์การคัดแยกผู้ป่วยจริงในห้องฉุกเฉิน โมเดล推理 OpenAI o1 แสดงความแม่นยำในการวินิจฉัยที่น่าทึ่งที่ 67% ในขณะที่แพทย์อายุรกรรมผู้เชี่ยวชาญสองคนทำได้เพียง 55% และ 50% ตามลำดับ
AI ชนะแล้ว ชัยชนะครั้งนี้ไม่ได้มาจากข้อสอบจำลองหรือแบบฝึกหัด แต่มาจากการปฏิบัติจริงในห้องฉุกเฉินที่สมจริง

ข้อมูลที่น่าตกใจยิ่งกว่านั้นยังมา: ในการทดสอบการวางแผนการรักษา o1 ได้คะแนนสูงถึง 89% ในขณะที่แพทย์มนุษย์ที่ใช้ทรัพยากรดั้งเดิมช่วยเหลือ มีค่ามัธยฐานเพียง 34%

ความแตกต่างไม่ได้เล็กน้อย แต่กลับมากกว่าสองเท่า
นี่ไม่ใช่การโปรโมตตัวเองของบริษัท AI ใดๆ แต่เป็นผลงานวิจัยที่นำโดยคณะแพทยศาสตร์ฮาร์วาร์ด รับรองโดยวารสารวิชาการชั้นนำ และผ่านการตรวจสอบแบบ double-blind
หัวหน้าทีมวิจัยและผู้เขียนบทความ Arjun Manrai จากห้องปฏิบัติการ AI ของคณะแพทยศาสตร์ฮาร์วาร์ด กล่าวอย่างมีความหมายว่า “เราได้ทดสอบโมเดล AI นี้ด้วยเกณฑ์มาตรฐานเกือบทั้งหมด มันเหนือกว่าโมเดลก่อนหน้านี้และเกณฑ์พื้นฐานของแพทย์”

รอยร้าวของยุคสมัยถูกเปิดออกแล้ว

ผู้ป่วยจริง 76 ราย ไม่มีการปรับแต่งล่วงหน้า การแข่งขันแบบ double-blind
จุดแข็งที่สุดของงานวิจัยนี้คือ: มันไม่ได้ใช้กรณีศึกษาจากตำราที่จัดเตรียมอย่างดีมาทดสอบ AI แต่โยนข้อมูลเวชระเบียนอิเล็กทรอนิกส์ที่ดิบที่สุดและยุ่งเหยิงที่สุดจากห้องฉุกเฉินให้กับเครื่องจักร
ทีมวิจัยสุ่มเลือกผู้ป่วยจริง 76 รายจากแผนกฉุกเฉินของ Beth Israel และเปรียบเทียบในสามจุดสำคัญของการวินิจฉัย: การคัดแยกผู้ป่วยฉุกเฉิน (เมื่อผู้ป่วยเข้ามา), การตรวจครั้งแรกของแพทย์ฉุกเฉิน, และการรับเข้ารักษาในโรงพยาบาลหรือ ICU
ในแต่ละจุด แพทย์อายุรกรรมผู้เชี่ยวชาญสองคนและโมเดล o1 และ 4o ของ OpenAI ให้การวินิจฉัยแยกโรคพร้อมกัน โดยแต่ละฝ่ายสามารถระบุการวินิจฉัยที่เป็นไปได้สูงสุด 5 รายการ
รายละเอียดสำคัญคือ: นักวิจัยไม่ได้ปรับแต่งข้อมูลล่วงหน้า
บทความระบุชัดเจนว่า ข้อมูลที่โมเดล AI ได้รับนั้นเหมือนกับเวชระเบียนอิเล็กทรอนิกส์ที่แพทย์เห็นทุกประการ ซึ่งเป็นข้อมูลทางคลินิกจริงที่ยุ่งเหยิง ขาดหาย และเต็มไปด้วยสัญญาณรบกวน

จากนั้น แพทย์ผู้เชี่ยวชาญอีกสองคนทำการ “ประเมินแบบ blind” โดยไม่รู้ว่าการวินิจฉัยใดมาจากมนุษย์และใดมาจาก AI
ผลการประเมินแบบ blind แสดงให้เห็นว่า แพทย์ผู้ประเมินแทบไม่สามารถแยกแยะแหล่งที่มาของการวินิจฉัยได้: แพทย์คนหนึ่งเดาถูกว่าเป็น AI หรือมนุษย์เพียง 15.2% (83.6% ของกรณีเลือก “แยกไม่ออก”) ส่วนอีกคนยิ่ง夸张กว่านั้น คือเพียง 3.1% (94.4% “แยกไม่ออก”)
กล่าวอีกนัยหนึ่ง การวินิจฉัยที่ AI สร้างขึ้น แม้แต่แพทย์ผู้มีประสบการณ์ก็ไม่สามารถบอกได้ว่าเป็นผลงานของเครื่องจักร
ภายใต้เงื่อนไขที่เข้มงวดนี้ โมเดล o1 ในขั้นตอนการคัดแยกผู้ป่วยฉุกเฉิน ซึ่งเป็นช่วงที่มีข้อมูลน้อยที่สุด เวลาจำกัดที่สุด และการตัดสินใจสำคัญที่สุด ให้ความแม่นยำ 67.1% (รวมถึงการวินิจฉัยที่แม่นยำหรือใกล้เคียงมาก)
แพทย์มนุษย์สองคนทำได้ 55.3% และ 50.0% ตามลำดับ

เมื่อข้อมูลเพิ่มขึ้นเรื่อยๆ ผลงานของทุกคนดีขึ้น: ในขั้นตอนการรับเข้ารักษา ความแม่นยำของ o1 เพิ่มเป็น 81.6% ส่วนแพทย์ทำได้ 78.9% และ 69.7%
แต่ช่องว่างยังคงมีอยู่ โดยเฉพาะในช่วงเริ่มต้นที่มีข้อมูลน้อยที่สุด ซึ่งเห็นได้ชัดเจนที่สุด
นี่คือสิ่งที่可怕ที่สุด: สิ่งที่สำคัญที่สุดในห้องฉุกเฉินคือ “ไม่กี่นาทีแรก”: ผู้ป่วยเพิ่งถูกนำเข้ามา ข้อมูลเป็นชิ้นเป็นอัน ชีวิตและความตายขึ้นอยู่กับการตัดสินใจในความไม่แน่นอนอย่างยิ่ง
และในจุดนี้ AI แสดงผลงานได้ดีที่สุด

แพทย์ฉุกเฉินไม่พอใจ: เอาแพทย์อายุรกรรมมาเทียบกับ AI จะบอกอะไรได้?
หลังจากเผยแพร่บทความ แพทย์ฉุกเฉินชื่อ Kristen Panthagani โพสต์ในโซเชียลมีเดียโจมตีโดยตรง: นี่คืองานวิจัยที่ “ถูกโปรโมตเกินจริง”
ข้อสงสัยหลักของเธอคือ: ในการศึกษา แพทย์ที่เปรียบเทียบกับ AI คือ แพทย์อายุรกรรมผู้เชี่ยวชาญ ไม่ใช่แพทย์ฉุกเฉิน
“ถ้าเราจะเปรียบเทียบความสามารถทางคลินิกของ AI กับแพทย์ อย่างน้อยควรเปรียบเทียบกับแพทย์ในสาขาเดียวกัน ฉันจะไม่แปลกใจถ้าโมเดลภาษาขนาดใหญ่สอบผ่านข้อสอบเฉพาะทางศัลยกรรมประสาทได้ดีกว่าแพทย์ผิวหนัง แต่นั่นไม่ได้บอกอะไร”

เธอยังชี้ให้เห็นถึงตรรกะพื้นฐานของเวชศาสตร์ฉุกเฉิน: “ในฐานะแพทย์ฉุกเฉินที่พบผู้ป่วยครั้งแรก เป้าหมายแรกของฉันไม่ใช่การเดาการวินิจฉัยสุดท้าย เป้าหมายแรกของฉันคือการ判断ว่าคุณมีโรคที่อาจฆ่าคุณหรือไม่”
ข้อโต้แย้งนี้มีน้ำหนักไหม? มี แต่ก็ควรสังเกตว่าบทความวิจัยเองก็ยอมรับข้อจำกัดนี้ และประเด็นหลักของบทความไม่เคยเป็น “AI สามารถแทนที่แพทย์ฉุกเฉินได้” แต่เป็น “ความสามารถในการ推理ของ AI ภายใต้ข้อมูลจำกัดถึงระดับที่ควรทดลองทางคลินิกแล้ว”
แพทย์ฉุกเฉินในสถานการณ์จริงทำมากกว่าแค่ “เดาชื่อโรค” พวกเขาต้องดูสีหน้าผู้ป่วย ฟังเสียงหายใจ รับรู้ระดับความเจ็บปวด และ判断การเปลี่ยนแปลงเล็กน้อยของสัญญาณชีพ
สัญญาณที่ไม่ใช่คำพูดเหล่านี้ บางครั้งสำคัญกว่าตัวชี้วัดการตรวจใดๆ
แพทย์ฉุกเฉินผู้มีประสบการณ์เดินเข้าไปในห้องผู้ป่วย มองผู้ป่วยแวบเดียว อาจวินิจฉัยได้ 80% แล้ว ความสามารถนี้เรียกว่า “clinical gestalt” ซึ่งมาจากประสบการณ์การรักษาจริงนับหมื่นครั้ง ปัจจุบันไม่มี AI ใดสามารถเลียนแบบได้
Manrai เองก็ยอมรับว่าทีมกำลังศึกษา ความสามารถของ AI ในการจัดการภาพและสัญญาณที่ไม่ใช่ข้อความอื่นๆ “เห็นผลลัพธ์ที่ก้าวหน้าอย่างรวดเร็ว” แต่ยังห่างไกลจากการนำไปใช้ทางคลินิก

บทเรียนจาก “คำทำนาย” ของ Hinton: นักรังสีวิทยาไม่ได้ตกงาน กลับยุ่งมากขึ้น
เมื่อพูดถึงการแทนที่แพทย์ด้วย AI ต้องพูดถึงกรณี “โดนหักหน้า” ที่คลาสสิก
ในปี 2016 บิดาแห่ง AI และผู้ได้รับรางวัลโนเบล Geoffrey Hinton กล่าวประโยคที่สั่นสะเทือนวงการแพทย์: ผู้คนควรหยุดฝึกอบรมนักรังสีวิทยาตั้งแต่ตอนนี้ การเรียนรู้เชิงลึกจะทำได้ดีกว่านักรังสีวิทยาภายในห้าปี นี่เป็นสิ่งที่ชัดเจน

คำพูดนี้ทำให้ นักศึกษาแพทย์ที่เตรียมเลือกสาขารังสีวิทยาหลายคนถอยหนี ตลอดช่วงปลายทศวรรษ 2010 สื่อเต็มไปด้วยบทความ “รังสีวิทยากำลังจะตาย”
สิบปีผ่านไป
ทีมนักรังสีวิทยาของ Mayo Clinic เพิ่มขึ้น 55% จากปี 2016 เป็น 400 คน สมาคมรังสีวิทยาอเมริกันคาดการณ์ว่าในอีก 30 ปีข้างหน้า อุปทานนักรังสีวิทยาจะเพิ่มขึ้นอีก 26%
การขาดแคลนนักรังสีวิทยาที่ใหญ่ที่สุดในโลกกำลังเกิดขึ้น ไม่ใช่เพราะ AI แย่งงาน แต่เพราะ AI ทำให้การตรวจภาพสะดวกขึ้น กลับสร้างความต้องการมากขึ้น
Hinton เองก็ยอมรับในภายหลังว่าเขาพูด “กว้างเกินไป”
เขาแก้ไขคำทำนาย: การตีความภาพทางการแพทย์ในอนาคตจะทำโดย “การรวมกันของ AI และนักรังสีวิทยา” AI จะทำให้นักรังสีวิทยา “มีประสิทธิภาพมากขึ้น พร้อมเพิ่มความแม่นยำ”
เรื่องนี้มีหลักการทางเศรษฐศาสตร์ที่ลึกซึ้ง นั่นคือ Jevons paradox: เมื่อเทคโนโลยีทำให้การใช้ทรัพยากรบางอย่างมีประสิทธิภาพมากขึ้น ความต้องการรวมของทรัพยากรนั้นอาจเพิ่มขึ้นอย่างมาก
การวินิจฉัยภาพถูกลงและเร็วขึ้น แพทย์จึงสั่งตรวจมากขึ้น นักรังสีวิทยากลับยุ่งมากขึ้น
ผู้เขียนงานวิจัยใหม่ของฮาร์วาร์ดดูเหมือนจะ吸取บทเรียนของ Hinton
Manrai ผู้เขียนบทความ กล่าวชัดเจนในงานแถลงข่าว: “การค้นพบของเราไม่ได้หมายความว่า AI จะมาแทนที่แพทย์ แม้ว่าบริษัทที่ขายผลิตภัณฑ์ AI ทางการแพทย์บางแห่งอาจพูดเช่นนั้น”
Adam Rodman ผู้เขียนร่วมและหัวหน้าโครงการ AI ของ Beth Israel กล่าวตรงไปตรงมากว่า: “ปัจจุบันไม่มีกรอบความรับผิดชอบที่เป็นทางการสำหรับการวินิจฉัยด้วย AI ผู้ป่วยต้องการให้มนุษย์นำทางพวกเขาผ่านการตัดสินใจที่关乎生死 และนำทางพวกเขาเผชิญกับทางเลือกการรักษาที่ยากลำบาก”

ไม่ใช่ “AI ชนะ” แต่คือการจัดระเบียบอำนาจการตัดสินใจทางการแพทย์
จากการสำรวจของสมาคมการแพทย์อเมริกัน (AMA) ในปี 2026 แพทย์อเมริกันกว่า 80% ใช้ AI ในการทำงานแล้ว ซึ่งเป็นสองเท่าของปี 2023
17% ของแพทย์ใช้ AI เพื่อ “ช่วยวินิจฉัย”
การศึกษา Elsevier ในปี 2025 พบว่า 20% ของแพทย์ทางคลินิกกำลังขอ “ความเห็นที่สอง” จากโมเดลภาษาขนาดใหญ่
งานวิจัยของฮาร์วาร์ดนี้พิสูจน์ว่า AI มีความสามารถในการ推理เหนือกว่าแพทย์มนุษย์ในสถานการณ์ฉุกเฉินที่มีข้อมูลน้อยที่สุดและต้องตัดสินใจเร่งด่วนที่สุด
ข้อมูลสามชุด叠加กัน ชี้ไปที่แนวโน้มที่ชัดเจน: โครงสร้างอำนาจการตัดสินใจทางการแพทย์กำลัง重组อย่าง fundamental
รูปแบบห้องฉุกเฉินในอดีตคือ: ผู้ป่วยเข้ามา → แพทย์判断 → ตัดสินใจ
รูปแบบในอนาคตอาจกลายเป็น: ผู้ป่วยเข้ามา → AI สแกนเวชระเบียนอิเล็กทรอนิกส์อย่างรวดเร็ว ให้การ判断เบื้องต้น → แพทย์结合การสังเกตทางคลินิกและคำแนะนำของ AI ตัดสินใจ → ผู้ป่วยมีส่วนร่วมในการ讨论แผนการรักษา
Rodman ผู้เขียนงานวิจัย คาดการณ์ว่าในอนาคตจะเกิดการแยกสามทาง: งานบางส่วนมนุษย์ทำได้ดีกว่า งานบางส่วน AI ทำได้ดีกว่า และงานบางส่วนต้องการความร่วมมือระหว่างมนุษย์และเครื่องจักรเพื่อเพิ่มประสิทธิภาพ
นี่คือสิ่งที่นักวิจัยเรียกว่า “รูปแบบความร่วมมือสามฝ่ายระหว่างแพทย์ ผู้ป่วย และ AI”
ฟังดูคล้ายกับการขับขี่อัตโนมัติ
ระดับ L2: AI ช่วยมนุษย์ตัดสินใจ ระดับ L3: AI นำ มนุษย์ควบคุม ระดับ L4: อัตโนมัติเต็มรูปแบบในสถานการณ์เฉพาะ
ปัจจุบัน ความ成熟ของ AI ในวงการแพทย์ อยู่ระหว่าง L2 ถึง L3 มันสามารถ判断ใน “ระดับข้อความ” ได้เหนือกว่าแพทย์มนุษย์ แต่ในสภาพแวดล้อมทางคลินิกจริงที่มีหลายรูปแบบ ยังต้องการตา หู และสัญชาตญาณของมนุษย์เพื่อชดเชยข้อบกพร่อง
**

**
AI วินิจฉัยผิด ใครรับผิดชอบ?
ในการ讨论ที่เกี่ยวข้องทั้งหมด มี “ช้างในห้อง” ที่ไม่มีใครกล้าแตะต้องโดยตรง: ถ้า AI ผิดพลาด ใครต้องรับผิดชอบ?
Rodman ให้สัมภาษณ์กับ The Guardian ยอมรับว่า ปัจจุบันไม่มีกลไกความรับผิดชอบที่เป็นทางการในด้านการวินิจฉัยด้วย AI
ถ้าแพทย์วินิจฉัยผิด มีระบบจัดการข้อพิพาททางการแพทย์ที่成熟แล้ว ผู้ป่วยสามารถร้องเรียน ฟ้องร้อง แพทย์ก็面临ความเสี่ยงทางวิชาชีพ แต่ถ้า AI ให้คำแนะนำผิด แพทย์นำไปใช้แล้วทำให้ผู้ป่วยได้รับอันตราย ความรับผิดควรเป็นของแพทย์? บริษัท AI? โรงพยาบาล? หรือทั้งสามฝ่ายร่วมกัน?
สถานการณ์ที่ซับซ้อนกว่านั้นคือ: AI ให้คำแนะนำที่ถูกต้อง แต่แพทย์ปฏิเสธการ判断ของ AI ยืนยันการวินิจฉัยที่ผิดของตนเอง ทำให้ผู้ป่วยได้รับการรักษาล่าช้า ในกรณีนี้ แพทย์ควรรับผิดชอบเพิ่มเติมสำหรับ “การละเลยคำแนะนำของ AI” หรือไม่?
还有一个ความเสี่ยงที่ซ่อนอยู่: การพึ่งพามากเกินไป
เมื่อแพทย์คุ้นเคยกับการ判断ที่แม่นยำสูงของ AI ความสามารถในการคิดอิสระของพวกเขาจะลดลงหรือไม่? เช่นเดียวกับ GPS ที่ทำให้หลายคนสูญเสียความสามารถในการนำทางด้วยตนเอง การวินิจฉัยที่ใช้ AI ช่วยจะทำให้ “กล้ามเนื้อ” การ推理ทางคลินิกของแพทย์ค่อยๆ ฝ่อลงหรือไม่?
ปัจจุบัน ไม่มีประเทศใดสามารถให้คำตอบที่ชัดเจนสำหรับคำถามเหล่านี้
เอกสารอ้างอิง:
https://www.science.org/doi/10.1126/science.adz4433
https://www.harvardmagazine.com/ai/ai-outperforms-doctors-diagnosis-harvard-study
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33170
