PerturbDiff: มองการกระจายตัวของประชากรเซลล์เป็นตัวแปรสุ่ม ปรับปรุงสถิติ SOTA ในการทำนายการตอบสนองของเซลล์เดี่ยว
จะใช้ AI ทำนายผลของยาต้านมะเร็งใหม่ต่อเซลล์มะเร็งเฉพาะเจาะจงได้อย่างไร? แนวคิดพื้นฐานคือให้ AI เรียนรู้กฎการเปลี่ยนแปลงการแสดงออกของยีนในเซลล์เดียวกัน ก่อนและหลังการรักษาด้วยยา
อย่างไรก็ตาม ลักษณะ “ทำลายตัวอย่าง” ของการหาลำดับเบสทรานสคริปโตมของเซลล์เดี่ยว (scRNA-seq) ก่อให้เกิดอุปสรรคพื้นฐาน: เมื่อสังเกตสถานะของเซลล์แล้ว เซลล์นั้นจะถูกทำลายทันที ดังนั้น เราจึงไม่สามารถสังเกตเซลล์เดียวกันได้ทั้งก่อนและหลังการก่อกวน (เช่น การแทรกแซงด้วยยา การแก้ไขยีน)
เมื่อเผชิญกับข้อมูลที่ไม่มีการจับคู่โดยธรรมชาตินี้ โมเดล AI แบบดั้งเดิมมักแสดงผลได้ไม่ดี พวกมันอาจบังคับจับคู่แบบสุ่ม ซึ่งทำให้โมเดลเรียนรู้เพียงการตอบสนอง “เฉลี่ย” ที่ธรรมดา หรืออาจ “พลาดเป้า” บ่อยครั้งเมื่อทำนายยีนเป้าหมายสำคัญ
ล่าสุด นักวิจัยจากทีมของ Jian Tang แห่ง Mila (สถาบันปัญญาประดิษฐ์ควิเบก) ได้เผยแพร่งานวิจัยใหม่ชื่อ PerturbDiff ทีมวิจัยนี้เคยเผยแพร่งานวิจัยสำคัญหลายชิ้นในด้านการทำนายและออกแบบคุณสมบัติโปรตีน และเซลล์เสมือน AI มาก่อน งานวิจัยใหม่นี้ก้าวข้ามกรอบความคิดเดิมที่ยึดติดกับ “เซลล์เดี่ยว” หรือ “การกระจายตัวเดียว” โดยเป็นครั้งแรกที่มอง “การกระจายความน่าจะเป็นของประชากรเซลล์” เองเป็นตัวแปรสุ่มที่สามารถดำเนินการเพิ่มและลดสัญญาณรบกวนได้

โมเดลนี้ได้ทำลายสถิติ SOTA ในการทำนายการตอบสนองของเซลล์เดี่ยวด้วยความได้เปรียบอย่างชัดเจน ในการทดสอบมาตรฐานอ้างอิงหลายชุด รวมถึงแผนที่การก่อกวนด้วยยาที่ใหญ่ที่สุดในโลก (Tahoe100M) ซึ่งมีเซลล์หลายร้อยล้านเซลล์ นับเป็นความก้าวหน้าครั้งสำคัญของ AI บนเส้นทางสู่การสร้าง “เซลล์เสมือน” ที่มีความเที่ยงตรงสูง
กับดักทางความคิด: การตอบสนองต่อการก่อกวนเป็น “การกระจายตัวแบบคงที่” จริงหรือ?
เพื่อเข้าใจความสำเร็จของ PerturbDiff ต้องทำความเข้าใจข้อจำกัดของวิธีการ SOTA ก่อนหน้านี้เสียก่อน
วิธีการที่ก้าวหน้าเร็วในปีที่ผ่านมา (เช่น STATE, CellFlow ฯลฯ) ตระหนักแล้วว่าการบังคับจับคู่เซลล์เดี่ยวและฝึกฝนด้วยการถดถอยนั้นไม่น่าเชื่อถือ จึงเปลี่ยนไปลองทำการแมปจาก “กลุ่มสู่กลุ่ม” แต่โลกทัศน์พื้นฐานของวิธีการเหล่านี้มีสมมติฐานคงที่ที่สำคัญ: เมื่อกำหนดชนิดเซลล์และยาชนิดหนึ่ง ผลการกระจายตัวของเซลล์หลังการก่อกวนจะคงที่และมีเพียงรูปแบบเดียว
ทีมของ Jian Tang ชี้ให้เห็นอย่างเฉียบคมว่าระบบชีวิตไม่ใช่เครื่องจักรนาฬิกาที่แม่นยำ ความผันผวนของสภาพแวดล้อมจุลภาคในจานเพาะเลี้ยง ความแตกต่างเล็กน้อยในวัฏจักรเซลล์ หรือแม้แต่เอฟเฟกต์ระหว่างชุดการทดลอง “ตัวแปรแฝงที่มองไม่เห็น” เหล่านี้ล้วนทำให้การกระจายตัวสุดท้ายของเซลล์เกิดการเปลี่ยนแปลงเล็กน้อยในแต่ละครั้งที่ทำการทดลองซ้ำ
หากบังคับให้ AI เรียนรู้ “คำตอบมาตรฐานเดียว” สิ่งที่มันเรียนรู้จะเป็นเพียงค่าเฉลี่ยของความเป็นไปได้ทั้งหมด เมื่อต้องเผชิญกับการทดสอบยาตัวใหม่หรือการทดสอบข้ามชุดข้อมูลจริง ความสามารถในการสรุปผล (generalization) ของมันจะลดลงอย่างรวดเร็ว

ความก้าวหน้าของ PerturbDiff อยู่ที่การยกระดับแนวคิดให้ลึกซึ้งขึ้น: มันไม่ได้กำหนดเป้าหมายการสร้างโมเดลหรือการสร้างของ AI เป็น “เซลล์” เดี่ยวอีกต่อไป หรือแม้แต่ “การกระจายตัวของเซลล์เฉพาะเจาะจง” แต่เป็น “การกระจายตัวของการกระจายตัวของเซลล์” — นั่นคือมองประชากรเซลล์ทั้งหมดหลังการก่อกวนเป็น “ตัวแปรสุ่ม” ที่มีค่าในพื้นที่การกระจายตัว เนื่องจากผลลัพธ์ทางชีวภาพจากการก่อกวนมีความวุ่นวายและเปลี่ยนแปลงได้โดยธรรมชาติ ก็ให้ใช้โมเดลกำเนิด (generative model) ไปปรับให้ตรงกับความแปรปรวนนี้เอง

การแพร่ในพื้นที่ฟังก์ชัน: จะเพิ่มสัญญาณรบกวนให้กับ “การกระจายตัว” ได้อย่างไร?
หลังจากกำหนดแนวคิดการสร้างโมเดลการกระจายตัวแบบไม่คงที่แล้ว ความท้าทายทางวิศวกรรมที่แท้จริงเพิ่งจะเริ่มต้น
จะใช้เครือข่ายการเรียนรู้เชิงลึกสร้างโมเดลกำเนิดให้กับ “ตระกูลการกระจายความน่าจะเป็น” ที่ไม่มีรูปร่างได้อย่างไร?
PerturbDiff นำเสนอเครื่องมือทางคณิตศาสตร์ที่มีความงดงามมาใช้: พื้นที่ฮิลเบิร์ตที่มีเคอร์เนลกำเนิด (RKHS, 𝓗ₖ) และการฝังค่าเฉลี่ยด้วยเคอร์เนล (Kernel Mean Embedding, KME)
ในกรอบงานนี้ กลุ่มเซลล์ที่ซับซ้อนซึ่งมีเซลล์นับหมื่นเซลล์ ถูกแมปเป็น “จุด” หนึ่งจุดในพื้นที่ RKHS มิติสูง
ในโมเดลแพร่แบบดั้งเดิม (เช่น Sora หรือ Stable Diffusion สำหรับสร้างภาพ) AI จะเพิ่มสัญญาณรบกวนแบบเกาส์เซียนลงในเมทริกซ์พิกเซลที่มีขอบเขตจำกัด จากนั้นค่อยๆ สร้างภาพขึ้นใหม่จากสัญญาณรบกวน
ในขณะที่ PerturbDiff ดำเนินการวิวัฒนาการการแพร่แบบมาร์คอฟต่อเนื่อง (นั่นคือการแพร่เชิงฟังก์ชัน) กับจุดที่แทน “การกระจายตัวของประชากรเซลล์ทั้งหมด” ในพื้นที่ฟังก์ชันมิติสูงสุดนี้ (RKHS)

เพื่อแก้ปัญหาการคำนวณในพื้นที่มิติสูง ผู้เขียนได้ชี้แจงผ่านการพิสูจน์ทางคณิตศาสตร์อย่างเข้มงวด (อิงจากการขยายอนุกรมเทย์เลอร์เชิงเส้นอันดับหนึ่ง) ว่า: ในเมทริกซ์การแสดงออกของเซลล์เดี่ยวในโลกแห่งความเป็นจริง การเพิ่มสัญญาณรบกวนแบบเกาส์เซียนในพื้นที่ยุคลิดให้กับแต่ละเซลล์เดี่ยวอย่างอิสระ เทียบเท่ากับทางคณิตศาสตร์กับการเดินสุ่มแบบเกาส์เซียนของจุดการกระจายตัวในพื้นที่ RKHS พิสูจน์นี้สร้างสะพานเชื่อมระหว่างทฤษฎีและวิศวกรรม ทำให้กระบวนการแพร่เชิงฟังก์ชันที่ซับซ้อนมากสามารถนำไปปฏิบัติได้ผ่านการดำเนินการเพิ่มสัญญาณรบกวนด้วยเทนเซอร์พื้นฐาน
ความเป็นภายในของ MMD: จาก “การลงโทษด้วยการทำให้เป็นมาตรฐาน” สู่ “การวิเคราะห์หลักการพื้นฐาน”
ในการออกแบบฟังก์ชันการสูญเสีย PerturbDiff ได้แสดงความสอดคล้องภายในของระบบทฤษฎีอีกครั้ง
ในปีที่ผ่านมา ความแตกต่างของค่าเฉลี่ยสูงสุด (Maximum Mean Discrepancy, MMD) มักถูกใช้เป็นฟังก์ชันการสูญเสียในโมเดลการจัดตำแหน่งการกระจายตัวของเซลล์เดี่ยวต่างๆ (เช่น STATE) แต่ในงานก่อนหน้านี้ MMD ถูกใช้เป็นพจน์การลงโทษแบบฮิวริสติก “เสริม” มากขึ้น เพื่อลดระยะห่างของการกระจายตัวระหว่างกลุ่ม ในกรอบงานของ PerturbDiff MMD เป็นสิ่งที่เกิดขึ้นภายในและหลีกเลี่ยงไม่ได้
เมื่อผู้เขียนหาอนุพันธ์เป้าหมายการลดสัญญาณรบกวนย้อนกลับในพื้นที่ RKHS ขอบเขตล่างของการแปรผันของลอการิทึมความน่าจะเป็นได้นำไปสู่พจน์การวัดระยะห่างระหว่างจุดการกระจายตัว μ โดยธรรมชาติ:

เนื่องจากคุณสมบัติทางเรขาคณิตโดยธรรมชาติของการจัดตำแหน่งระหว่างผลคูณภายในใน RKHS กับฟังก์ชันเคอร์เนลเชิงประจักษ์ พจน์นี้เทียบเท่ากับทางคณิตศาสตร์อย่างแน่นอนกับกำลังสองของระยะ MMD ระหว่างการกระจายตัวจริงและการกระจายตัวที่ทำนายในพื้นที่เซลล์เดี่ยวดั้งเดิม
สิ่งนี้อธิบายว่าทำไมในการทดลองกำจัดองค์ประกอบ (ablation study) การลบฟังก์ชันการสูญเสีย MMD ออกและคงไว้เพียงข้อผิดพลาดกำลังสองเฉลี่ย (MSE) จะทำให้โมเดลล้มเหลว ข้อมูลการแสดงออกของยีนเซลล์เดี่ยวมีความเบาบางสูง (สัดส่วนของค่าศูนย์มักสูงกว่า 95%) การใช้เพียง MSE ระดับเซลล์จะผลักดันให้โมเดลตกอยู่ในคำตอบย่อยที่ “ทำนายเป็นศูนย์ทั้งหมด” ในขณะที่ฟังก์ชันการสูญเสีย MMD ที่เกิดขึ้นภายในระบบการแพร่เชิงฟังก์ชัน บังคับให้โมเดลจัดตำแหน่งคุณลักษณะทางสถิติอันดับสูง เช่น ความหนาแน่นของการกระจายตัวโดยรวม น้ำหนักของกลุ่มย่อย ฯลฯ สิ่งนี้ยังทำให้ PerturbDiff แสดงความได้เปรียบอย่างท่วมท้นในการทำนายยีนที่แสดงออกแตกต่างกัน (Differentially Expressed Genes, DEGs) — ซึ่งเป็นตัวชี้วัดหลักที่สุด (เช่น AUPRC, AUROC) ที่ชุมชนชีววิทยาใช้ประเมินโมเดลการก่อกวน
ความรู้ชีวภาพเบื้องหลังการครองตำแหน่งสูงสุด: แผนที่ “พาโนรามา” 61 ล้านเซลล์ ส่งเสริมความสามารถแบบซีโร่ช็อต
ความงดงามของทฤษฎีในที่สุดก็แปลงเป็นประสิทธิภาพอันยอดเยี่ยมบนเกณฑ์มาตรฐานการทดลอง
ในการทดสอบ Tahoe100M (เกณฑ์มาตรฐานการตอบสนองต่อยาที่ใหญ่ที่สุดในโลก ซึ่งมีเซลล์เดี่ยวกว่า 100 ล้านเซลล์และยา 1,100 ชนิด) และ PBMC (เกณฑ์มาตรฐานสัญญาณภูมิคุ้มกัน) PerturbDiff นำหน้าอย่างสมบูรณ์ใน 14 ตัวชี้วัดการประเมิน

สิ่งที่น่าตื่นเต้นสำหรับนักชีววิทยามากขึ้นคือ ความแม่นยำสูงสุดของมันในตัวชี้วัดที่เกี่ยวข้องกับยีนที่แสดงออกแตกต่างกัน การทำนายการเปลี่ยนแปลงรูปร่างของประชากรเซลล์เป็นเพียงผิวเผิน สิ่งที่การพัฒนายาใหม่กังวลอย่างแท้จริงคือ: “ยาตัวนี้กระตุ้นหรือยับยั้งเส้นทางสัญญาณของยีนสำคัญใดบ้าง?” ในประเด็นหลักนี้ เนื่องจาก PerturbDiff เรียนรู้ “การเปลี่ยนแปลงการกระจายตัวเชิงระบบ” ที่เกิดจากการก่อกวนอย่างแท้จริง ประสิทธิภาพของมันจึงเหนือกว่าโมเดลทั้งหมดในอดีตอย่างมาก

นอกจากสถาปัตยกรรมโมเดลแล้ว แบบแผนการฝึกฝนของ PerturbDiff ยังให้แนวคิดที่มีความลึกซึ้งเพื่อรับมือกับปัญหา “ข้อบ่งชี้ขาดแคลน” โดยธรรมชาติของข้อมูลชีวเวชศาสตร์: การฝึกฝนล่วงหน้าด้วยการกระจายตัวส่วนปลาย (marginal distribution)
การทดลองก่อกวน (โดยเฉพาะการคัดกรอง CRISPR หรือการทดสอบยาขนาดใหญ่) มีต้นทุนสูง และครอบคลุมชนิดเซลล์ได้จำกัด ผู้เขียนไม่ได้จำกัดตัวเองอยู่กับข้อมูลก่อกวนที่มีข้อบ่งชี้จำกัด แต่ใช้ข้อมูลทรานสคริปโตมของเซลล์เดี่ยว61 ล้านเซลล์ที่ไม่ได้ถูกแทรกแซงจากชุดข้อมูล CellxGene ในการฝึกฝนล่วงหน้าแมนิโฟลด์แบบไม่มีเงื่อนไข (unconditional manifold) สำหรับโมเดลแพร่ของพวกเขา

การฝึกฝนล่วงหน้าที่ดูเหมือนไม่เกี่ยวข้องกับงานก่อกวนเฉพาะนี้ ไม่เพียงแต่เพิ่มประสิทธิภาพของโมเดลอย่างมากภายใต้การปรับแต่งด้วยตัวอย่างจำนวนน้อยมาก (เช่น ชุดข้อมูล Replogle ซึ่งมีเซลล์เพียงไม่กี่ร้อยเซลล์ต่อการก่อกวนแต่ละชนิด) แต่ยังสังเกตเห็นความสามารถในการทำนายแบบซีโร่ช็อต ที่เด่นชัดบนโมเดลที่ฝึกฝนล่วงหน้าแล้ว สิ่งนี้แฝงด้วยความเข้าใจเชิงชีววิทยาอันลึกซึ้ง: การก่อกวนทางชีวภาพไม่ได้ผลักเซลล์ไปยังพื้นที่วุ่นวายใดๆ ในพื้นที่การแสดงออกของยีน โดยพลการ; เส้นทางการเปลี่ยนสถานะที่เหนี่ยวนำโดยการก่อกวน จริงๆ แล้วมีการจัดตำแหน่งหรือซ้อนทับบางส่วนกับแมนิโฟลด์สถานะเซลล์ที่มีอยู่แล้วในธรรมชาติเอง
แผนที่ 61 ล้านเซลล์วาดภาพ “แผนที่พื้นหลังพาโนรามา” ทางชีววิทยาอันกว้างใหญ่นี้เอง การเข้าใจภูมิประเทศของแผนที่พื้นหลัง การสำรวจเส้นทางที่การก่อกวนเกิดขึ้นจึงเป็นเรื่องง่ายดาย

สรุป
PerturbDiff ไม่เพียงแต่ทำลายสถิติ SOTA ในตัวชี้วัดการสรุปผล (generalization) มากกว่าสิบรายการบนเกณฑ์มาตรฐานอ้างอิง (PBMC, Tahoe100M) เท่านั้น แต่ที่สำคัญกว่านั้นคือ มันกระตุ้นให้เราทบทวนรากฐานทางทฤษฎีของการสร้างโมเดลฟีโนไทป์เชิงคำนวณใหม่
เช่นเดียวกับเครือข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ต่อการจดจำภาพ Transformer ต่อการสร้างข้อความ หรือ Evoformer ของ AlphaFold ต่อการทำนายโครงสร้างโปรตีน อคติอุปนัย (inductive bias) ที่สอดคล้องกับกฎภายในของข้อมูลเท่านั้นที่จะปลดปล่อยศักยภาพของข้อมูลได้อย่างแท้จริง PerturbDiff ซึ่งฝึกฝนโมเดลแพร่ในพื้นที่ฟังก์ชันของ “การกระจายตัวของการกระจายตัวประชากรเซลล์” นับเป็นก้าวสำคัญในทิศทางนี้
ด้วยความก้าวหน้าของงานวิจัยนี้ เซลล์เสมือน AI สุดท้ายที่สามารถลองผิดลองถูกได้ไม่จำกัด และจำลองการตอบสนองต่อการก่อกวนของยาได้อย่างแม่นยำ บางทีอาจใกล้ความเป็นจริงมากขึ้นอีกก้าวใหญ่
หน้าแรกโครงการ:
https://katarinayuan.github.io/PerturbDiff-ProjectPage/
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25458
