เวลา 01.00 น. ที่ห้องฉุกเฉินของโรงพยาบาลระดับตติยภูมิแห่งหนึ่ง ชายอายุ 62 ปี ถูกนำส่งมาอย่างเร่งด่วน เขากำลังประสบภาวะ STEMI เฉียบพลันร่วมกับภาวะหัวใจล้มเหลวเฉียบพลัน ความดันโลหิตพุ่งสูงถึง 185/105 mmHg ความอิ่มตัวของออกซิเจนในเลือดอยู่ที่เพียง 91% พยาบาลได้เข็นเครื่องกระตุกหัวใจไฟฟ้ามาแล้ว และเร่งให้แพทย์ “Electrocardiogram Hunter” ยืนยันขนาดยาของ Ticagrelor
เนื่องจากผู้ป่วยมีภาวะไตบกพร่อง การใช้ขนาดยามาตรฐานอาจทำให้เกิดภาวะเลือดออกในสมองที่ร้ายแรงถึงชีวิตได้ง่าย ในขณะที่การลดขนาดยาอาจทำให้เกิดลิ่มเลือดในขดลวดค้ำยันอีกครั้ง เมื่อเผชิญกับแนวทางและเอกสารวิชาการที่กอง如山 แพทย์ต้องหาหลักฐานในการปรับขนาดยาภายในเวลาเพียงสามนาที ซึ่งสำหรับเขาแล้ว สามนาทีนี้ยาวนานราวกับหนึ่งศตวรรษ
ในช่วงดึก ศาสตราจารย์เฉียว กุ้ยปิน หัวหน้าแผนกศัลยกรรมทรวงอกของโรงพยาบาลจูเจียง ยังคงทำงานที่โต๊ะเพื่อวางแผนการรักษาต่อเนื่องสำหรับผู้ป่วยโรคปอดที่พบได้ยากรายหนึ่ง ในฐานะหัวหน้าแผนกศัลยกรรมทรวงอก แพทย์ผู้เชี่ยวชาญอาวุโส และอาจารย์ที่ปรึกษาปริญญาเอก เขาทำงานเฉลี่ยมากกว่า 10 ชั่วโมงต่อวัน และการทำงานล่วงเวลาเพื่อจัดการกับเคสที่ซับซ้อนกลายเป็นเรื่องปกติ
“ไม่มีแพทย์ในประเทศไหนที่ต้องเผชิญกับความกดดันมหาศาลเช่นนี้” ผู้กำกับสารคดีเรื่อง ‘แพทย์จีน’ เคยกล่าวไว้ในการให้สัมภาษณ์พิเศษ ประโยคนี้สรุปความเป็นจริงในชีวิตประจำวันของแพทย์ได้อย่างแม่นยำ
ข้อมูลสาธารณะแสดงให้เห็นว่าในปี 2024 จำนวนผู้เข้ารับบริการทั้งหมดในสถานพยาบาลทั่วประเทศสูงถึง 10.15 พันล้านครั้ง โดยในจำนวนนี้เป็นผู้เข้ารับบริการในโรงพยาบาลระดับตติยภูมิ 2.87 พันล้านครั้ง และอัตราการใช้เตียงใกล้เคียงกับ 90% ขณะที่ทั่วประเทศมีแพทย์ (ผู้ช่วย) ที่ขึ้นทะเบียนเพียง 5.082 ล้านคน ซึ่งต้องรองรับความต้องการในการวินิจฉัยและรักษาหลายหมื่นล้านครั้งนี้ การสั่งจ่ายยา การออกคำสั่งการรักษา การตรวจ และการวางแผนการผ่าตัด ล้วนแทบจะขาดการตัดสินใจของแพทย์ไม่ได้
ที่น่าปวดหัวยิ่งกว่าคือ ความรู้ทางการแพทย์มีการอัปเดตอย่างรวดเร็วมาก ยกตัวอย่าง PubMed ซึ่งได้รวบรวมเอกสารชีวการแพทย์มากกว่า 40 ล้านรายการแล้ว และยังเพิ่มขึ้นอีกเป็นล้านรายการต่อปี สำหรับแพทย์ ความกดดันไม่ได้มาจากจำนวนผู้ป่วยและปริมาณการรักษาเท่านั้น แต่ยังมาจากความท้าทายในการไล่ตามหลักฐานและแนวทางล่าสุดท่ามกลางภาระงานที่หนักหน่วงอีกด้วย
ภายใต้สถานการณ์ที่ติดขัดเชิงโครงสร้างนี้ ปัญหาหลักของการแพทย์ไม่ใช่ ‘การจับคู่การเข้ารับบริการ’ แต่เป็นอุปทานของการตัดสินใจของแพทย์ การแพทย์ทางอินเทอร์เน็ตสามารถเพิ่มประสิทธิภาพในการเข้ารับบริการได้ แต่ไม่สามารถเข้าถึงจุดเจ็บปวดเชิงโครงสร้างนี้ได้ และนี่คือจุดที่ AI ทางการแพทย์สามารถมีบทบาทได้อย่างแท้จริง
DeepSeek ทั้งหลาย
ทำไมพอเข้าสู่งานวิจัยทางการแพทย์ถึงล้มเหลว?
ในปีที่ผ่านมา โมเดลขนาดใหญ่ได้เขย่าแทบทุกวงการ รวมถึงวงการแพทย์ด้วย ความคาดหวังของอุตสาหกรรมที่มีต่อ AI ทางการแพทย์เพิ่มสูงขึ้นอย่างรวดเร็ว และแพทย์จีนกลายเป็นหนึ่งในกลุ่มที่ embrace โมเดลขนาดใหญ่มากที่สุด แต่ในขณะเดียวกัน ปัญหาที่ชัดเจนมากขึ้นเรื่อยๆ ก็ปรากฏต่อหน้าทุกคน: เมื่อโมเดลขนาดใหญ่ทั่วไปเข้าสู่สถานการณ์ทางการแพทย์ที่จริงจัง ความสามารถของมันมักจะทรุดตัวลงอย่างรวดเร็ว
สิ่งที่ทำให้แพทย์ปวดหัวมากที่สุดคือปัญหา ‘ภาพหลอน’ (Hallucination) ตัวอย่างเช่น มันจะสร้างเอกสารอ้างอิงที่ไม่มีอยู่จริง เมื่อคุณต้องการดูต้นฉบับเพื่อตรวจสอบข้อมูล แม้จะขอให้ระบุ DOI (เลขประจำตัวเอกสาร) ที่ถูกต้องอย่างชัดเจน ก็มักจะพบว่าลิงก์นั้นผิด เมื่อคลิกเข้าไปก็เป็นบทความอื่นโดยสิ้นเชิง

อัตราภาพหลอนที่สูงของโมเดลขนาดใหญ่ทั่วไปยังคงเป็นปัญหาที่น่ารำคาญ
เฉียว กุ้ยปิน และเพื่อนร่วมงานต่างก็เคยใช้โมเดลขนาดใหญ่ทั่วไปทั้งในที่ทำงานและส่วนตัว อัตราภาพหลอนที่สูงยังคงเป็นปัญหาที่น่ารำคาญ สำหรับห้องตรวจที่แข็งกร้าวอย่างศัลยกรรมทรวงอก ข้อสรุปที่ถูกกุขึ้นมานั้น อันตรายไม่น้อยไปกว่าการวินิจฉัยผิดพลาด
เมื่อเร็วๆ นี้ งานวิจัยชิ้นหนึ่งที่ตีพิมพ์ในวารสารทางการของ Royal College of Surgeons of England [1] ได้ยืนยันความกังวลของแพทย์เพิ่มเติม: เอกสารอ้างอิงทางการแพทย์ที่สร้างโดยแพลตฟอร์ม AI กระแสหลักบางแห่ง อาจมากกว่าหนึ่งในสามเป็นของปลอม ตัวอย่างเช่น อัตราภาพหลอนของการอ้างอิงของ Grok 3 สูงถึง 33.6% และของ DeepSeek DeepThink อยู่ที่ 25%
‘การอ้างอิงภาพหลอน’ เหล่านี้ดูสมจริงมาก แม้กระทั่งมีลิงก์ Mayo Clinic ที่สมมติขึ้น หรือหัวข้อทางวิชาการที่ทำให้เข้าใจผิดอย่างมาก
การศึกษายังพบว่าเกือบครึ่งหนึ่งของโมเดลชั้นนำ เมื่อตอบคำถามทางการแพทย์ โดยค่าเริ่มต้นจะไม่เปิดเผยแหล่งที่มาของข้อมูลอย่างชัดเจน
และสิ่งเหล่านี้ขัดแย้งกับแก่นแท้ของการทำงานประจำวันของแพทย์โดยสิ้นเชิง: Evidence-based (การตัดสินใจโดยอิงหลักฐาน) – ฉันจะรู้ได้อย่างไรว่าเหตุผลและการตัดสินใจของฉันมีหลักฐาน มีความน่าเชื่อถือ และแม่นยำ? โดยเฉพาะหลักฐานที่เกี่ยวข้องกับจุดบอดในความรู้ของฉัน
ในเวลานี้ การค้นหาหลักฐานที่เชื่อถือได้อย่างรวดเร็วและแม่นยำเพื่อสนับสนุนการตัดสินใจ เป็นสิ่งจำเป็นที่สุดและปวดหัวที่สุด และโมเดลขนาดใหญ่ทั่วไปซึ่งโดยพื้นฐานแล้วสร้างข้อความตามความน่าจะเป็น ไม่มีความสามารถ ‘Evidence-based’ ในสถานการณ์เช่นนี้โดยธรรมชาติ

การทดสอบจากหลายมิติว่าโมเดลขนาดใหญ่ทั่วไปชั้นนำของจีนมีความน่าเชื่อถือหรือไม่เมื่อตอบคำถามวิจัยทางการแพทย์ ผลลัพธ์ก็น่ากังวล
เพื่อแก้ปัญหานี้ อุตสาหกรรมโดยทั่วไปถือว่า Retrieval-Augmented Generation (RAG) เป็นยาวิเศษ โดยเชื่อว่ามันสามารถแก้ไขการพูดเท็จของโมเดลขนาดใหญ่ได้โดยการดึงข้อมูลประวัติผู้ป่วยภายนอก วิธีการที่ใช้บ่อยที่สุดคือการหั่นเวชระเบียน แนวทาง และบทความ แล้วป้อนเข้าไปใน Vector Database จากนั้นใช้ RAG เพื่อให้โมเดล ‘ตอบโดยมีข้อมูลประกอบ’
ส่วนผลลัพธ์? งานวิจัยล่าสุดให้ข้อสรุปที่ค่อนข้างขัดกับสัญชาตญาณ
บทความนี้ซึ่งตีพิมพ์ใน medRxiv แพลตฟอร์ม preprint ทางการแพทย์ที่เชื่อถือได้ แสดงให้เห็นว่าในการสร้างข้อความทางคลินิกทางการแพทย์ หลังจากเพิ่มเทคโนโลยี RAG แล้ว อัตราการกล่าวอ้างที่ไม่มีหลักฐาน (Unsupported claim rate หรืออัตราภาพหลอน) ของโมเดลขนาดใหญ่เพิ่มขึ้นอย่างรุนแรงจาก 5.0% ในสถานะพื้นฐานเป็น 43.6% ซึ่งหมายความว่า RAG ทำให้ความน่าจะเป็นที่ AI ทางการแพทย์จะทำผิดพลาดเกี่ยวกับข้อเท็จจริงเพิ่มขึ้นถึง 8.7 เท่า [2]
ทำไมถึงเป็นเช่นนั้น? เพราะข้อความทางคลินิกไม่ใช่ฐานความรู้ทั่วไป
มันมีโครงสร้างที่ไม่เป็นระเบียบสูง เต็มไปด้วยการพึ่งพาบริบท ข้อมูลที่ไวต่อเวลา และหลักฐานที่ขัดแย้งกัน คำศัพท์ทางการแพทย์ระหว่างผู้ป่วยต่างกัน ณ เวลาต่างกัน มีความทับซ้อนกันสูงมาก RAG มีแนวโน้มสูงที่จะดึงข้อมูลส่วนของเวชระเบียนที่ ‘มีความคล้ายคลึงทางความหมายสูง แต่จริงๆ แล้วเป็นของผู้ป่วยรายอื่น หรือตรงกับช่วงเวลาที่ผิด’
กล่าวคือ มันค้นหาเอกสารที่ ‘ดูเหมือนเกี่ยวข้อง’ แต่อาจไม่ใช่หลักฐานที่ ‘ใช้ได้จริง’ และโมเดลขนาดใหญ่จะใช้สิ่งนี้เป็นพื้นฐานในการสร้างเรื่องเล่าทางการแพทย์เท็จสำหรับผู้ป่วยปัจจุบันขึ้นมาลอยๆ
จะมั่นใจได้อย่างไรว่าโมเดลค้นหาหลักฐานที่ถูกต้อง ใช้บริบทที่ถูกต้อง และให้คำตัดสินที่แพทย์สามารถตรวจสอบได้? จะทำให้ทุกคำตอบผูกติดกับห่วงโซ่หลักฐานที่เชื่อถือได้อย่างไร?
นี่คือจุดที่ Ali Health ซึ่ง深耕ด้านการแพทย์และสุขภาพมานานกว่าสิบปี ต้องการจะแก้ไข
ทุกอย่างเพื่อความน่าเชื่อถือ ‘Hydrogen Ion’ กุญแจสำคัญในการพลิกเกม
เมื่อวันที่ 13 พฤษภาคม Ali Health ได้เปิดตัว ‘Hydrogen Ion’ อย่างเป็นทางการ นี่คือผลิตภัณฑ์ AI ทางการแพทย์ที่ออกแบบมาสำหรับแพทย์ทางคลินิกและงานวิจัย ในงานแถลงข่าว Ali Health ยังประกาศว่า Hydrogen Ion ได้บรรลุความร่วมมือด้านเนื้อหาแต่เพียงผู้เดียวกับวารสารทางการแพทย์ระดับชาติชั้นนำ

ในการออกแบบผลิตภัณฑ์ AI ถูกวางไว้เป็นลำดับสุดท้าย ในขณะที่คำจำกัดความแรกคือหลักฐานและ Evidence-based

Hydrogen Ion บรรลุความร่วมมือด้านเนื้อหาแต่เพียงผู้เดียวกับวารสารทางการแพทย์ระดับชาติชั้นนำ
ตามตำแหน่งทางการ ‘Hydrogen Ion’ ต้องการแก้ปัญหา ‘คำถามทางการแพทย์ทั้งหมดของแพทย์ 5 ล้านคนในจีน’ ‘ภาพหลอนต่ำ, Evidence-based สูง’ คือป้ายกำกับความสามารถหลัก: ทุกคำตอบมีแหล่งที่มาที่เชื่อถือได้ รองรับการ溯源ด้วยคลิกเดียว และเข้าถึงแหล่งข้อมูลได้โดยตรง

“ในแง่ของอัตราภาพหลอนรุนแรง ฉันสามารถให้ข้อสรุปเชิงคุณภาพแก่คุณได้ว่าเรานำหน้าคู่แข่งในประเทศ 2-3 เท่า” Xiangzhi, CTO ของ Ali Health กล่าว

สิ่งนี้ทำให้หลายคนนึกถึง ‘เครื่องมือวิเศษ’ ทางการแพทย์อย่าง UpToDate หรือ UTD แพทย์หลายคนเมื่อตรวจเยี่ยมผู้ป่วย สั่งยา จัดการเคสที่ซับซ้อน หรือเตรียมข้อมูลวิจัย มักจะพึ่งพาระบบสนับสนุนการตัดสินใจทางการแพทย์แบบ Evidence-based อย่าง UTD เพื่อค้นหาหลักฐานการตัดสินใจที่เชื่อถือได้และรวดเร็ว
แต่เมื่อเทียบกับเครื่องมือแบบดั้งเดิม ‘Hydrogen Ion’ มีเกณฑ์การใช้งานที่ต่ำกว่ามาก แพทย์สามารถถามคำถามผ่านภาษาธรรมชาติ การสนทนาหลายรอบ หรือแม้แต่รูปแบบ multimodal เช่น เสียงและรูปภาพ เหมือนกับการปรึกษาเคสกับเพื่อนร่วมงาน โดยโยนคำถามให้ AI โดยตรง ซึ่งจะเข้าใจและตอบสนองตามบริบทอย่างต่อเนื่อง
ก่อนการเปิดตัวอย่างเป็นทางการ Hydrogen Ion ได้เสร็จสิ้นการทดสอบภายในและเปิดให้ดาวน์โหลดแล้ว คำติชมจากแพทย์ที่เน้นมากที่สุดคือ ‘น่าเชื่อถือ’ และ ‘ไว้ใจได้’ โดยเฉพาะอย่างยิ่งการชื่นชม ‘การถาม-ตอบแบบ Evidence-based’ อย่างสูง แพทย์ผู้เชี่ยวชาญอาวุโสแผนกฉุกเฉินของโรงพยาบาลระดับตติยภูมิรายหนึ่ง หลังจากทดลองใช้ ได้เข้าสู่ระบบสูงถึง 193 ครั้งภายใน 88 วัน
เพื่อยืนยันขนาดยา Ticagrelor แพทย์ห้องฉุกเฉิน ‘Electrocardiogram Hunter’ เปิด ‘Hydrogen Ion’ และพิมพ์อย่างรวดเร็วว่า ‘การปรับขนาดยา Ticagrelor หลัง PCI ในภาวะกล้ามเนื้อหัวใจตายเฉียบพลันชนิด ST ยกสูงร่วมกับภาวะหัวใจล้มเหลวเฉียบพลัน (eGFR 65)’

|

—|—
ข้อความของ ‘Electrocardiogram Hunter’ ในชุมชนทางการแพทย์
AI ไม่เพียงแนะนำขนาดยา loading dose 180mg และ maintenance dose 90mg bid อย่างชัดเจน แต่ยังเน้นข้อความแหล่งที่มาเป็นตัวหนา – แนวทางการรักษาล่าสุดปี 2025 ของ Chinese Medical Association เมื่อคลิกสามารถดูเนื้อหาต้นฉบับของแนวทางอิเล็กทรอนิกส์ได้โดยตรง ไม่ต้องค้นหาไฟล์ PDF ที่เทอะทะอีกต่อไป
ที่สำคัญยิ่งกว่านั้น ‘Hydrogen Ion’ ไม่ได้เพียงแค่ไฮไลต์ข้อความทั้งย่อหน้า แต่ระบุตำแหน่ง ‘สามบรรทัดสำคัญ’ ที่กำหนดข้อสรุปจริงๆ แพทย์ไม่เพียงเห็นว่า ‘บทความนี้อาจเกี่ยวข้อง’ แต่เห็นว่า ‘หลักฐานอยู่ที่ไหนโดยเฉพาะ’
ในขณะเดียวกัน คำตอบยัง引入了สองมิติที่สำคัญยิ่งกว่า: ความทันเวลา (‘ปี 2025’) และความน่าเชื่อถือ (‘แนวทางของ Chinese Medical Association’) โดยเน้นการติดตามและคัดกรองแนวทางและเอกสารระดับโลกที่เชื่อถือได้แบบรายวัน และสร้างคำตอบตามหลักฐานที่เปลี่ยนแปลงไปนี้
เบื้องหลังนี้ คำนึงถึงความเป็นจริงพื้นฐาน: หลักฐานทางการแพทย์เปลี่ยนแปลงทุกวัน
แนวทางใหม่ ยาใหม่ การรักษาใหม่ การทดลองทางคลินิกใหม่ เกิดขึ้นอย่างไม่ขาดสาย โดยเฉพาะในด้านมะเร็ง การติดเชื้อ โรคหัวใจและหลอดเลือด ผลลัพธ์ใหม่ในวารสารชั้นนำอาจเปลี่ยนกลยุทธ์การรักษาในวันถัดไปได้โดยตรง เมื่อหลักฐานตามไม่ทันและส่งผลต่อการตัดสินใจ ผลที่ตามมาอาจเป็นผู้ป่วยถูกผ่าตัดโดยไม่จำเป็น หรือพลาดช่วงเวลาการผ่าตัดที่ดีที่สุด
เพื่อป้องกัน ‘มลพิษ’ จากแหล่งข้อมูลคุณภาพต่ำตั้งแต่ต้นทาง เมื่อสร้างคำตอบ โมเดลจะจัดลำดับความสำคัญของแหล่งข้อมูลที่มีความน่าเชื่อถือสูงกว่าโดยอัตโนมัติ และลดน้ำหนักของรายงานเคสแต่ละรายที่ไม่มีคุณภาพ
ในระดับหนึ่ง นี่คือความแตกต่างพื้นฐานที่สุดระหว่าง ‘Hydrogen Ion’ กับเครื่องมือค้นหาทางการแพทย์แบบดั้งเดิม หรือแม้แต่ผลิตภัณฑ์ ‘AI หมอ’ อื่นๆ – ทุกมุมมองที่แพทย์เห็นใน ‘Hydrogen Ion’ สามารถผ่านการทดสอบคำถามหลักสามข้อ: มันแม่นยำหรือไม่? มันน่าเชื่อถือหรือไม่? มันทันสมัยพอหรือไม่?
อย่างไรก็ตาม ในแนวหน้าทางคลินิกจริง นอกจากความน่าเชื่อถือแล้ว แพทย์ยังต้องการความเร็วอย่างเข้มงวดไม่แพ้กัน
แพทย์ที่ชื่อ ‘Electrocardiogram Hunter’ กล่าวว่าเมื่อเขายืนยันขนาดยา Ticagrelor “ไม่คิดว่าจะได้ผลลัพธ์ภายใน 3 วินาที” ในอดีตเมื่อเจอปัญหาที่ซับซ้อนคล้ายกัน เขาต้องสลับไปมาระหว่างหลายแพลตฟอร์ม เช่น PubMed, แนวทางทางคลินิก, เอกสารกำกับยา ซึ่ง整个过程มักใช้เวลาสิบถึงยี่สิบนาที
แพทย์หลายคนมีแอปพลิเคชันทางการแพทย์ 5 ถึง 6 ตัวติดตั้งอยู่ในโทรศัพท์ตลอดเวลา แต่แอปพลิเคชันเหล่านี้ส่วนใหญ่เป็นเพียงเครื่องมือที่แก้ปัญหาเดียว ในขณะที่ ‘Hydrogen Ion’ พยายามบีบอัด ‘ต้นทุนการ搬运’ ทั้งหมดนี้ให้เป็นการถามคำถามง่ายๆ ครั้งเดียว: ให้คำแนะนำการใช้ยาและขนาดยาที่มีหลักฐานอย่างรวดเร็ว พร้อมทั้งเชื่อมโยงเอกสารกำกับยา และระบุข้อห้ามใช้และข้อควรระวังอย่างชัดเจน

แพทย์ ‘Electrocardiogram Hunter’ แบ่งปันในชุมชนทางการแพทย์ว่า ผลลัพธ์ที่ AI ส่งกลับมาไม่เพียงให้คำแนะนำการใช้ยา แต่ยังเชื่อมโยงเอกสารกำกับยาที่เกี่ยวข้องโดยอัตโนมัติ และระบุข้อห้ามใช้และข้อควรระวัง ซึ่งมีประสิทธิภาพมากกว่าวิธีเดิมที่แพทย์ฉุกเฉินต้องพลิกดูแนวทางและค้นหาเอกสารกำกับยาไปพร้อมกัน
สำหรับแพทย์ นี่ไม่ใช่แค่ ‘การเปิดเว็บน้อยลงไม่กี่หน้า’ แต่ในสภาพแวดล้อมทางคลินิกที่ต้อง争分夺秒 มันช่วย缩短เวลาการตัดสินใจที่สำคัญได้อย่างแท้จริง
การเขียน ‘หลักฐานทางการแพทย์’ ลงในแกนกลางของ AI: เผยแพร่สถาปัตยกรรม Evidence-based สี่ชั้นเป็นครั้งแรก
ในงานแถลงข่าว ทีมงานได้เปิดเผย ‘สถาปัตยกรรม Evidence-based สี่ชั้น’ ที่อยู่เบื้องหลัง ‘ภาพหลอนต่ำ, Evidence-based สูง’ เป็นครั้งแรก ตั้งแต่การประมวลผลหลักฐานทางการแพทย์แบบมีโครงสร้าง การ检索แบบ Evidence-based การจัดแนวโมเดล ไปจนถึงการป้อนกลับแบบวงปิดโดยผู้เชี่ยวชาญ สถาปัตยกรรมนี้พยายามผสาน ‘Evidence-based Medicine’ เข้ากับตรรกะพื้นฐานของ AI อย่างแท้จริง

ชั้นแรก: การทำความเข้าใจหลักฐานทางการแพทย์อย่างลึกซึ้ง
ชั้นนี้ไม่ใช่แค่ ‘การอ่านข้อความ’ อย่างง่าย แต่เป็นการแปลงข้อความทางการแพทย์ให้เป็นหน่วยหลักฐานที่มีโครงสร้าง สามารถประเมินได้ และสามารถ追溯ได้
แกนหลักคือกรอบงาน Evidence-based แบบคลาสสิกสองชุดคือ PICO และ GRADE
PICO โดยพื้นฐานแล้วเป็นวิธีการจัดโครงสร้างปัญหาทางการแพทย์ มันต้องการให้ AI เหมือนแพทย์ทางคลินิก แยกแยะองค์ประกอบหลักของข้อความ: 针对กลุ่มประชากรใด (P)? ใช้มาตรการแทรกแซงอะไร (I)? เปรียบเทียบกับแผนการใด (C)? ผลลัพธ์สุดท้ายคืออะไร (O)?
ตัวอย่างเช่น สำหรับการศึกษายาลดน้ำหนัก ระบบจะสร้างห่วงโซ่หลักฐานที่แม่นยำโดยอัตโนมัติ:
– ประชากร: ผู้ใหญ่อายุ 18 ถึง 50 ปี น้ำหนักเกิน 200 ปอนด์ ไม่มีโรคหัวใจรุนแรง
– การแทรกแซง: รับประทานยาลดน้ำหนักชนิดใหม่ A ทุกวัน
– การเปรียบเทียบ: อีกกลุ่มรับประทานยาหลอกที่มีลักษณะเหมือนกัน
– ผลลัพธ์: หลังจากสามเดือน กลุ่ม A ลดน้ำหนักเฉลี่ย 10 ปอนด์ กลุ่มควบคุมลดน้ำหนักเพียง 2 ปอนด์
วิธีการตีความนี้ไม่เพียงแก้ปัญหาการจับคู่ความหมาย แต่ยังเน้น ‘การปรับหลักฐานให้เหมาะสม’ – เฉพาะเมื่อเงื่อนไข PICO ตรงกันอย่างสมบูรณ์ คำแนะนำที่ตามมาจึงมีคุณค่าทางคลินิกอย่างแท้จริง
ในขณะที่ระบบ GRADE มีหน้าที่ติดป้ายกำกับระดับ ‘ความน่าเชื่อถือ’ ให้กับหลักฐานเหล่านี้
ใน Evidence-based Medicine คุณค่าของเอกสาร文献แตกต่างกันอย่างมาก ความคิดเห็นหนึ่งควรเชื่อหรือไม่ ไม่ใช่凭ความรู้สึก แต่基于ระบบการประเมินที่สามารถวัดปริมาณได้ GRADE เป็นหนึ่งในระบบการจัดระดับหลักฐานที่สำคัญที่สุดในวงการ Evidence-based Medicine ทั่วโลก และถูกนำมาใช้อย่างกว้างขวางโดยองค์การอนามัยโลก (WHO) และองค์กรทางการแพทย์ที่เชื่อถือได้มากกว่า 100 แห่งทั่วโลก
ตามมาตรฐานนี้ การทดลองแบบสุ่มและมีกลุ่มควบคุมขนาดใหญ่ (RCT) มักเป็นหลักฐานระดับสูง Meta-analysis มักมีความน่าเชื่อถือโดยรวมที่แข็งแกร่งกว่า ในขณะที่การสังเกตเคสและการแบ่งปันประสบการณ์เป็นหลักฐานระดับต่ำกว่า

ภาพด้านบนคือผลการค้นหาเอกสาร文献ล่าสุดสำหรับ ‘มะเร็งรังไข่กลับเป็นซ้ำที่ดื้อต่อ Platinum’ เอกสาร文献ถูกนำเสนอตามความทันเวลา (ปี 2025), ความน่าเชื่อถือ (วารสารชั้นนำที่มี Impact Factor สูง) และระดับหลักฐาน (RCT, การวิจัยทางคลินิก) แม้กระทั่งระบุ JCR Quartile, CAS Quartile และค่า Impact Factor (IF) เพื่อให้แพทย์สามารถตัดสินคุณภาพและคุณค่าของ文献ได้ในพริบตา ที่มา: บทความใน公众号ของ Dr. Wang Weiqiang
ชั้นที่สอง: การผสาน PICO เข้ากับ RAG ก้าวจาก ‘การ检索คำสำคัญ’ สู่ ‘การลดมิติเชิงโครงสร้าง’
基于กรอบงาน PICO ตรรกะการ检索ได้รับการยกระดับจาก ‘การค้นหาคำ’ ธรรมดาเป็น ‘การค้นหาโครงสร้าง’ ซึ่งแก้ปัญหาที่ RAG (Retrieval-Augmented Generation) แบบดั้งเดิม检索容易ล้มเหลวได้อย่างสิ้นเชิง
ตัวอย่างเช่น เมื่อแพทย์ถามว่า ‘Ibuprofen ลดไข้ในเด็กได้เร็วกว่า Paracetamol หรือไม่?’ ระบบจะไม่เพียงค้นหา ‘Ibuprofen ลดไข้ เด็ก’ แต่通过 PICO แยกแยะ จะแปลงเป็นคำถาม Evidence-based มาตรฐานโดยอัตโนมัติ – ‘ในเด็กที่มีไข้ (P) Ibuprofen (I) เมื่อเทียบกับ Paracetamol (C) มีหลักฐานทางคลินิกเกี่ยวกับความเร็วในการลดไข้และผลข้างเคียง (O) อย่างไร?’
文献ที่检索ได้ด้วยวิธีนี้更像是ตอบคำถามทางคลินิกที่เฉพาะเจาะจง มากกว่าการ拼凑คำสำคัญ ในทางกลับกัน RAG จะมีบทบาทที่เชื่อถือได้มากขึ้นก็ต่อเมื่อเอกสารมีระดับโครงสร้างสูงและตรรกะการ检索สอดคล้องกับกระบวนทัศน์ Evidence-based
เมื่อมีความเข้าใจหลักฐานและการ检索ที่แม่นยำแล้ว คำถามต่อไปก็เกิดขึ้น: AI จะใช้หลักฐานเหล่านี้อย่างถูกต้องหรือไม่?
ชั้นที่สาม: Reinforcement Learning และ Alignment ฝึกโมเดลให้ ‘ใช้หลักฐานเหมือนแพทย์’
‘Hydrogen Ion’ ในขั้นตอน Post-training ได้นำ Reward Model และระบบการให้คะแนน Rubrics มาใช้ Reward Model มีหน้าที่ให้ AI เรียนรู้ที่จะ识别 ‘คำตอบที่ดีคืออะไร’ ในขณะที่ Rubrics แปลงข้อกำหนดด้านคุณภาพใน Evidence-based Medicine ให้เป็นมาตรฐานที่สามารถฝึกฝนและประเมินผลได้ทางวิศวกรรมต่อไป
สิ่งที่โมเดลเรียนรู้ในที่สุด ไม่ใช่แค่สไตล์ภาษา แต่เป็นวิธีการสร้างคำตอบที่มีภาพหลอนต่ำ สามารถ追溯ได้ และสอดคล้องกับมาตรฐาน Evidence-based
อย่างไรก็ตาม ในวงการแพทย์ที่เปลี่ยนแปลงอย่างรวดเร็ว การพึ่งพาการฝึกโมเดลแบบคงที่เพียงอย่างเดียวไม่สามารถครอบคลุมกรณีขอบหางยาวทั้งหมดได้ และไม่สามารถซิงค์แนวทาง ยา และการรักษาล่าสุดได้แบบเรียลไทม์ ดังนั้น ห่วงสุดท้ายของสถาปัตยกรรมจึงถูกมอบให้กับ Experts-in-the-Loop (การป้อนกลับแบบวงปิดโดยผู้เชี่ยวชาญ)
ข้อมูลที่มีคุณค่าอย่างแท้จริงต้องการการ标注โดยผู้เชี่ยวชาญในระยะยาว การอัปเดตอย่างต่อเนื่อง การแบ่งระดับหลักฐานที่ชัดเจน และความเข้าใจอย่างลึกซึ้งเกี่ยวกับความสัมพันธ์และความขัดแย้งระหว่างการศึกษาต่างๆ

ปัจจุบัน ‘Hydrogen Ion’ ได้สร้างคณะกรรมการผู้เชี่ยวชาญ AI ทางการแพทย์ซึ่งประกอบด้วยแพทย์อาวุโสกว่า 300 คน พวกเขาทำหน้าที่เป็น ‘แพทย์เจ้าของไข้’ และ ‘หัวหน้าผู้ออกข้อสอบ’ โดยดำเนินการ ‘จับผิด ให้คะแนน และแก้ไข’ ผลลัพธ์ของ AI อย่างเข้มข้นอย่างต่อเนื่อง
การประเมินโดยผู้เชี่ยวชาญไม่ได้มีไว้เพื่อให้ได้คะแนนที่ปลอดภัย แต่เพื่อป้อนกลับไปยังสามชั้นแรก ตัวอย่างเช่น หากพบว่าคำตอบในบางจุดไม่ดี ก็จะย้อนกลับไปทันที: ชั้นแรกการแยกแยะ PICO ละเอียดไม่พอหรือไม่? หรือชั้นที่สามมาตรฐานการให้คะแนน Rubrics ผ่อนปรนเกินไป?
ในที่สุด ผ่านสถาปัตยกรรม Evidence-based สี่ชั้นนี้ ตั้งแต่浅入深 ความเข้าใจ การ检索 การฝึกฝน และการประเมินผล形成了一个สมบูรณ์แบบ ‘สามารถ追溯, สามารถตรวจสอบ, สามารถไว้วางใจได้’ วงปิด AI หลุดพ้นจากข้อจำกัดของ ‘เครื่องมือคงที่’ อย่างสิ้นเชิง และพัฒนาเป็น ‘ระบบวิวัฒนาการ’ ที่สามารถอัปเดตตามหลักฐานทางการแพทย์แบบเรียลไทม์ และแก้ไขตัวเองอย่างต่อเนื่องโดย基于ข้อเสนอแนะทางคลินิก
มันเปลี่ยนจากผลิตภัณฑ์ที่มีประสิทธิภาพสูง มาเป็นคู่หูที่เชื่อถือได้ซึ่งขาดไม่ได้สำหรับแพทย์ทั้งในทางคลินิกและการวิจัยอย่างแท้จริง
ความน่าเชื่อถือในประเทศ + แนวหน้าสากล: กำแพงข้อมูล เสริมฐาน Evidence-based
การจะทำให้ ‘Evidence-based สูง’ ถึงขีดสุด การพึ่งพาแค่นวัตกรรมอัลกอริทึมและวิศวกรรมนั้นไม่เพียงพอ อุปสรรคที่แข็งแกร่งที่สุดของ AI แท้จริงแล้วอยู่ที่แหล่งข้อมูล ฐานข้อมูลทางการแพทย์คุณภาพสูง ไม่เพียงเป็นฐานการทำงาน แต่ยังเป็นราวกั้นความปลอดภัยทางคลินิก

แพทย์จีนโดยทั่วไปเผชิญกับปัญหาในการเข้าถึงงานวิจัยระดับโลกชั้นนำ
ก่อนหน้านี้ ‘Hydrogen Ion’ ได้สร้างความร่วมมือเชิงลึกกับ Chinese Medical Association, People’s Medical Publishing House และยักษ์ใหญ่ด้านการพิมพ์ทางการแพทย์ในประเทศ ซึ่งวางรากฐานความน่าเชื่อถือในประเทศ และความร่วมมือกับวารสารชั้นนำระดับสากลที่ประกาศในครั้งนี้ หมายความว่า 76% ของแพทย์จะไม่ถูกจำกัดด้วยความยากลำบากในการเข้าถึงหลักฐาน前沿ระดับสูงอีกต่อไป
ผ่าน ‘การรวมพลังที่แข็งแกร่ง’ นี้ ‘Hydrogen Ion’ ได้สร้าง谱系ความรู้ทางการแพทย์เฉพาะทางหลายระดับ ซึ่งช่วยเสริมสร้างกำแพงข้อมูลพื้นฐานในด้าน AI ทางการแพทย์เพิ่มเติม
ปัจจุบัน ‘Hydrogen Ion’ รวบรวม文献ชั้นนำระดับ千万จากฐานข้อมูลนานาชาติ เช่น PubMed, Google Scholar และวารสารหลักในประเทศ ซึ่งให้การสนับสนุนที่มั่นคงสำหรับการวิจัยและเคสที่ซับซ้อน

ในขณะเดียวกัน ระบบได้รวมแนวทางทางคลินิกและฉันทามติผู้เชี่ยวชาญทั้งในและต่างประเทศมากกว่าสามหมื่นฉบับ โดยเน้นเนื้อหาที่เผยแพร่โดย Chinese Medical Association และองค์กรอื่นๆ ทำให้ AI สามารถ锁定แผนการมาตรฐานได้อย่างรวดเร็วในสภาพแวดล้อมทางคลินิกที่ซับซ้อน ซึ่งช่วยเพิ่มประสิทธิภาพและความปลอดภัยในการวินิจฉัยและรักษาอย่างมาก
นอกจากนี้ ระบบยังรวบรวมเอกสารกำกับยาและข้อมูลสารออกฤทธิ์มากกว่าหกหมื่นรายการ ครอบคลุมข้อบ่งใช้ ข้อห้ามใช้ วิธีใช้และขนาดยา อาการไม่พึงประสงค์ และการใช้ยาในกลุ่มผู้ป่วยพิเศษในทุกแง่มุม ทำให้สามารถควบคุมความเสี่ยงในการสั่งยาและการใช้ยาทางคลินิกได้อย่าง全面
มาตรการเหล่านี้ไม่เพียงรับประกันความปลอดภัยสูงสุดของ AI ในการช่วยเหลือทางคลินิก แต่ยังทำให้ ‘Hydrogen Ion’ สร้างความสามารถในการแข่งขันหลักที่ยากจะ超越ในระยะสั้นบน赛道 AI ทางการแพทย์

ในช่วงสองปีที่ผ่านมา อุตสาหกรรมเคยชินกับการเข้าใจ AI ทางการแพทย์ว่าเป็นการแข่งขันด้านขนาดพารามิเตอร์ การแข่งขันด้านความสามารถในการถามตอบ แต่เมื่อเข้าสู่สถานการณ์ทางคลินิกและการวิจัยจริง ผู้คนพบว่า ความแม่นยำ ความสามารถในการ追溯 ความเสถียร และความสอดคล้องในการตัดสินใจ มีความสำคัญมากกว่า ‘การตอบได้หรือไม่’
‘Hydrogen Ion’ พิสูจน์ให้เห็นในทางปฏิบัติว่า คูเมืองที่แท้จริงของ AI ทางการแพทย์ที่จริงจังไม่ใช่ขนาดพารามิเตอร์ แต่เป็น ‘ความสามารถทางวิศวกรรมแบบครบวงจรตั้งแต่หลักฐานระดับสูงไปจนถึงคำตอบทางคลินิก’ หากปราศจากการฝึกฝนอย่างเข้มงวดของแหล่งข้อมูลชั้นนำและสถาปัตยกรรม Evidence-based พารามิเตอร์ที่ใหญ่โตก็จะกลายเป็นเพียงการผสมผสาน平庸ของ ‘โมเดลทั่วไป + คลังข้อมูลทางการแพทย์’ ในที่สุด
ดังที่เฉียว กุ้ยปิน สรุป: ‘นี่คือรูปแบบที่ AI ทางการแพทย์ควรเป็น มันไม่ได้แทนที่แพทย์ในการสรุปผล แต่ช่วยให้แพทย์ค้นหาหลักฐานการตัดสินใจได้เร็วขึ้น และแสดงที่มาของหลักฐานเหล่านี้อย่างชัดเจน’ สิ่งที่แพทย์ต้องการ ไม่เคยเป็น ‘แจกันสนทนา’ ที่擅长การตอบแบบคลุมเครือ แต่เป็น ‘สหายร่วมรบที่硬核’ ที่สามารถทำงานเคียงบ่าเคียงไหล่ในทางคลินิกและการวิจัย
เมื่อภาระงาน检索แบบ Evidence-based ถูก AI แยกแยะอย่างมีประสิทธิภาพแล้ว บางครั้งแพทย์ก็จะ讨论กับนักศึกษา: หากงาน Evidence-based ทั้งหมด交给 AI ทำ แพทย์เองยังต้องการอะไร?
คำตอบของทุกคนสอดคล้องกันอย่างมาก – กลับสู่พื้นฐาน ฝึกฝนความสามารถในการตัดสินใจทางคลินิก เพราะแผนการรักษาสุดท้ายยังคงขึ้นอยู่กับการประเมินโดยรวมของแพทย์
สิ่งนี้ยังยืนยันคำพูดที่广为流传ในวงการ: สิ่งที่สามารถให้แผนการรักษาได้ เรียกว่า ‘Intelligence’ (ปัญญาประดิษฐ์); สิ่งที่เข้าใจผู้ป่วยที่อยู่ตรงหน้าอย่างแท้จริง ถึงจะเรียกว่า ‘Wisdom’ (ปัญญา)
ลิงก์อ้างอิง
1. Trust, truth and transparency: analysing the references underpinning AI-generated surgical information
https://publishing.
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34543
