โมเดลขนาดเล็ก 30B คว้าเหรียญทองโอลิมปิก: การใช้เหตุผลด้วยภาษาธรรมชาติล้วนๆ โดยไม่พึ่งพาเครื่องมือภายนอก ก็สามารถทำคะแนนเต็ม IMO ได้

3 hours ago • การอนุมานโมเดลขนาดใหญ่ • 10 views

การให้เหตุผลทางวิทยาศาสตร์ระดับโอลิมปิก จำเป็นต้องพึ่งพาโมเดลทั่วไปที่ใหญ่กว่าหรือไม่?

เมื่อเร็วๆ นี้ รายงานทางเทคนิคที่เผยแพร่โดย Shanghai Artificial Intelligence Laboratory ได้ให้คำตอบที่แตกต่างออกไป: โมเดลการให้เหตุผลขนาด 30B-A3B โดยไม่ต้องใช้เครื่องมือภายนอกใดๆ ไม่ต้องรันโค้ด และไม่ต้องเชื่อมต่อกับตัวแก้สัญลักษณ์เฉพาะ ผ่านการฝึกอบรมหลังการฝึกแบบรวมและการขยายเวลาในการอนุมาน ก็สามารถทำผลงานระดับสูงสุดในการประเมินโอลิมปิกคณิตศาสตร์และฟิสิกส์ที่ยาก เช่น IMO, USAMO, IPhO ได้

ทีมวิจัยเริ่มต้นจากโมเดลการให้เหตุผลขนาด 30B-A3B ที่มีอยู่ โดยใช้เส้นทางการให้เหตุผลคุณภาพสูงประมาณ 338,000 เส้นทาง จากนั้นทำการปรับแต่งอย่างมีผู้ชี้แนะ (Supervised Fine-Tuning) ผ่านหลักสูตรความสับสนแบบย้อนกลับ (Reverse Perplexity Curriculum) หลังจากนั้น พวกเขาใช้การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) แบบสองขั้นตอน 200 ขั้นตอน เพื่อเพิ่มความสามารถในการแก้ปัญหาและคุณภาพของหลักฐานที่สมบูรณ์ของโมเดล สุดท้าย ในขั้นตอนการอนุมาน โมเดลจะดำเนินการวนซ้ำ “สร้าง-ตรวจสอบ-แก้ไข” หลายรอบ ตลอดกระบวนการ โมเดลไม่เรียกใช้เครื่องมือภายนอก ไม่รันโค้ด และไม่พึ่งพาตัวแก้สัญลักษณ์เฉพาะ แต่สามารถให้เหตุผลด้วยภาษาธรรมชาติบริสุทธิ์มากกว่า 100,000 โทเค็นสำหรับปัญหาโอลิมปิกที่ยาก

ในการประเมินระดับการแข่งขัน หลังจากขยายขั้นตอนการอนุมาน โมเดลนี้ได้คะแนน 35 คะแนนทั้งในการแข่งขัน IMO 2025 และ USAMO 2026 ซึ่งถึงระดับเหรียญทอง และยังคว้าเหรียญทองในงานโอลิมปิกฟิสิกส์ เช่น IPhO 2024/2025 อีกด้วย ที่น่าสังเกตเป็นพิเศษคือ ในข้อที่ 3 ของ USAMO 2026 โมเดลได้คะแนนเต็ม ในขณะที่ผู้เข้าแข่งขันที่เป็นมนุษย์ได้คะแนนเฉลี่ยเพียง 0.01 คะแนน และไม่มีใครทำคะแนนเกิน 5 คะแนน

ที่สำคัญยิ่งกว่านั้น ผลงานนี้ไม่ได้มาจากโมเดล “ยักษ์ใหญ่” ที่มีพารามิเตอร์มหาศาล แต่มาจากผู้เล่นขนาดกะทัดรัดขนาด 30B-A3B

รายงานยังแสดงให้เห็นว่า ในเส้นทางการขยายการอนุมานของ USAMO 2026 ความยาวมัธยฐานของการสร้างคำตอบเริ่มต้นอยู่ที่ประมาณ 106,000 โทเค็น ในขณะที่ความยาวมัธยฐานของขั้นตอนการแก้ไขด้วยตนเองอยู่ที่ประมาณ 83,000 โทเค็น

สิ่งนี้แสดงให้เห็นอย่างชัดเจนว่า กุญแจสำคัญของการให้เหตุผลทางวิทยาศาสตร์ระดับโอลิมปิกไม่ได้อยู่ที่ขนาดของโมเดลเพียงอย่างเดียว แต่อยู่ที่ว่าโมเดลสามารถแปลงงบประมาณการอนุมานที่ยาวขึ้นให้เป็นความสามารถในการค้นหาหลักฐาน การตรวจสอบตนเอง และการซ่อมแซมข้อโต้แย้งที่มีประสิทธิภาพได้อย่างเสถียรหรือไม่

ลิงก์论文: https://arxiv.org/abs/2605.13301
ลิงก์โอเพนซอร์ส: https://github.com/Simplified-Reasoning/SU-01

โมเดลขนาดทั่วไป ก็สามารถทำงานพิสูจน์ระดับโอลิมปิกได้หรือไม่?

ข้อสอบโอลิมปิกเป็น “กระดูกแข็ง” ที่ใช้ทดสอบความสามารถในการให้เหตุผลระยะยาวของโมเดลมาโดยตลอด ข้อสอบประเภทนี้แตกต่างอย่างสิ้นเชิงจากคำถามคณิตศาสตร์ทั่วไป การได้ข้อสรุปที่ถูกต้องเพียงอย่างเดียวนั้นไม่เพียงพอ โมเดลต้องจัดการสมมติฐาน ข้อสรุประหว่างกลาง และกรณีขอบต่างๆ อย่างต่อเนื่องในห่วงโซ่การแก้ปัญหาที่ยาวนาน และสุดท้ายต้องให้หลักฐานหรือการ推导ที่สมบูรณ์ซึ่งสามารถผ่านการให้คะแนนอย่างเข้มงวด ช่องว่างในการโต้แย้งที่ซ่อนอยู่ การจำแนกกรณีที่ไม่ได้ครอบคลุม หรือบทแทรกสำคัญที่ไม่ได้พิสูจน์ ล้วนอาจทำให้เสียคะแนนทั้งข้อ

ดังนั้น เป็นเวลานานที่ผู้คนเชื่อมโยงการให้เหตุผลระดับโอลิมปิกเข้ากับเงื่อนไขหนึ่งโดยธรรมชาติ: ฐานโมเดลทั่วไปที่ใหญ่กว่า และรายงานนี้ต้องการตอบคำถามนี้:

งานให้เหตุผลระดับโอลิมปิก จำเป็นต้องพึ่งพาโมเดลทั่วไปที่ใหญ่กว่าและแข็งแกร่งกว่าหรือไม่?

ทีมวิจัยเลือกอย่างระมัดระวัง: ไม่นำเครื่องมือภายนอกเข้ามา ไม่รันโค้ด ไม่พึ่งพาตัวแก้สัญลักษณ์ โมเดลดำเนินการตั้งแต่การคิด การพิสูจน์ การตรวจสอบ ไปจนถึงการแก้ไข ทั้งหมดในภาษาธรรมชาติ

ด้วยวิธีนี้ ผลลัพธ์จะชี้ไปที่ความสามารถของโมเดลเองโดยตรงมากขึ้น: โมเดลขนาด 30B-A3B ที่ใช้เพียงการให้เหตุผลด้วยภาษาธรรมชาติ จะสามารถรับภาระการพิสูจน์ระดับโอลิมปิกได้หรือไม่?

สอนโมเดลให้ให้เหตุผลอย่างเข้มงวดก่อน แล้วค่อยให้มันเรียนรู้ที่จะแก้ไขตัวเอง

แผนงานที่เรียบง่ายและเป็นหนึ่งเดียวที่ทีมเสนอนั้นสามารถสรุปได้เป็นสามขั้นตอน: การปรับแต่งอย่างมีผู้ชี้แนะเพื่อสร้างพฤติกรรม การเรียนรู้แบบเสริมกำลังเพื่อเพิ่มความสามารถในการแก้ปัญหา และการขยายขั้นตอนการอนุมานเพื่อขยายการค้นหาหลักฐาน

รูปที่ 1: กรอบวิธีการ กระบวนการโดยรวมใช้แกนหลักการให้เหตุผลขนาด 30B-A3B ผ่านการปรับแต่งอย่างมีผู้ชี้แนะ การเรียนรู้แบบเสริมกำลังสองขั้นตอน และการขยายขั้นตอนการอนุมาน เพื่อเปลี่ยนโมเดลให้เป็นระบบการให้เหตุผลด้วยภาษาธรรมชาติที่สามารถค้นหาหลักฐาน ตรวจสอบตนเอง และแก้ไขหลายรอบ

ขั้นตอนแรกคือการปรับแต่งอย่างมีผู้ชี้แนะด้วยหลักสูตรความสับสนแบบย้อนกลับ ทีมวิจัยสร้างข้อมูลการให้เหตุผลแบบลูกโซ่ยาวจากแหล่งที่มา เช่น คณิตศาสตร์ วิทยาศาสตร์ โค้ด และการทำตามคำสั่ง และเพิ่มตัวอย่างการตรวจสอบตนเองและการแก้ไขตนเอง เพื่อให้โมเดลเรียนรู้วิธีการจัดระเบียบหลักฐาน ตรวจสอบสมมติฐาน ค้นหาช่องโหว่ และซ่อมแซมข้อโต้แย้ง ในระหว่างการฝึก ตัวอย่างจะถูกจัดเรียงตามความสับสนของโมเดลเริ่มต้นจากสูงไปต่ำ: โมเดลจะสัมผัสกับเส้นทางการพิสูจน์ที่แตกต่างจากกลยุทธ์ปัจจุบันมาก่อน จากนั้นจึงค่อยๆ เสริมตัวอย่างที่คุ้นเคยมากขึ้น

กล่าวอีกนัยหนึ่ง เป้าหมายของขั้นตอน SFT ไม่ใช่การเพิ่มความสามารถของโมเดลโดยตรงด้วยข้อมูลมหาศาล แต่เป็นการปรับเปลี่ยนพฤติกรรมการให้เหตุผลของโมเดลอย่างเสถียรยิ่งขึ้น เพื่อให้เกิดรูปแบบการให้เหตุผลระยะยาวที่เข้มงวด ตรวจสอบได้ และแก้ไขได้

ขั้นตอนที่สองคือการเรียนรู้แบบเสริมกำลังสองขั้นตอน ขั้นตอนแรกใช้ปัญหาที่ตรวจสอบได้และรางวัลผลลัพธ์ที่เชื่อถือได้ เพื่อเพิ่มความสามารถในการแก้ปัญหาโดยตรงของโมเดลอย่างมีประสิทธิภาพ ขั้นตอนที่สองจะเปลี่ยนจาก “คำตอบถูกต้องหรือไม่” ไปสู่ “หลักฐานสมบูรณ์และเชื่อถือได้หรือไม่” โดยแนะนำโมเดลรางวัลคุณภาพหลักฐาน งานแก้ไขตนเอง และกลไกการเล่นซ้ำประสบการณ์

ในจำนวนนี้ งานแก้ไขตนเองช่วยให้โมเดลเรียนรู้วิธีตรวจสอบห่วงโซ่การให้เหตุผลอีกครั้งหลังจากเห็นคำตอบที่ไม่สมบูรณ์หรือมีช่องโหว่ของตนเอง และสร้างหลักฐานเวอร์ชันแก้ไขที่สมบูรณ์และเข้มงวดยิ่งขึ้น ส่วนกลไกการเล่นซ้ำประสบการณ์ใช้เพื่อเก็บรักษาเส้นทางการพิสูจน์ที่ประสบความสำเร็จจำนวนเล็กน้อยแต่มีคุณค่าสูงในระหว่างการฝึก เพื่อหลีกเลี่ยงไม่ให้วิธีแก้ปัญหาที่มีประสิทธิภาพซึ่งค้นพบโดยบังเอิญในปัญหาที่ยากถูกลืมไปอย่างรวดเร็ว

ขั้นตอนที่สามคือการขยายขั้นตอนการอนุมาน เมื่อเผชิญกับปัญหาโอลิมปิกที่ยาก โมเดลจะไม่สร้างคำตอบเพียงครั้งเดียว แต่จะเข้าสู่วงจร “สร้างคำตอบ候选 – ตรวจสอบหลักฐานสมบูรณ์ – ค้นหาปัญหา – แก้ไขคำตอบ” สิ่งที่ขยายที่นี่ไม่ใช่ห่วงโซ่เครื่องมือภายนอก แต่เป็นการคำนวณการตรวจสอบและแก้ไขด้วยภาษาธรรมชาติของโมเดลเอง

การให้เหตุผลโอลิมปิกระดับ 100,000 โทเค็น ไม่ใช่แค่การเขียนคำตอบให้ยาวขึ้น

รูปที่ 2: ผลลัพธ์ ProofBench ใน IMO-Bench SU-01 ได้ 57.6% เมื่อสร้างโดยตรง และเพิ่มขึ้นเป็น 70.2% หลังจากการขยายขั้นตอนการอนุมาน ซึ่งเหนือกว่าโมเดลขนาดเดียวกันอย่างมีนัยสำคัญ และใกล้เคียงกับโมเดลปิดที่แข็งแกร่งอย่าง Gemini 3.1 Pro Thinking

ผลลัพธ์ของรายงานแสดงให้เห็นว่า SU-01 แสดงความสามารถในการให้เหตุผลระยะยาวที่แข็งแกร่งในการประเมินระดับหลักฐาน บน IMO-ProofBench SU-01 ได้ 57.6% เมื่อสร้างโดยตรง ซึ่งเป็นผลลัพธ์ที่ดีที่สุดในบรรดาโมเดลขนาดเดียวกัน หลังจากขยายขั้นตอนการอนุมาน คะแนนโดยรวมเพิ่มขึ้นเป็น 70.2% ซึ่งเหนือกว่าโมเดลขนาดเดียวกันอย่างมีนัยสำคัญ และใกล้เคียงกับ 72.6% ของ Gemini 3.1 Pro Thinking

ซึ่งแสดงให้เห็นว่า โมเดลขนาดทั่วไปไม่เพียงแต่สามารถ追求ความถูกต้องของคำตอบสุดท้ายเท่านั้น แต่ยังสามารถปรับปรุงคุณภาพของหลักฐานที่สมบูรณ์ผ่านการฝึกและการจัดระเบียบการอนุมานที่เป็นหนึ่งเดียว

รายงานยังชี้ให้เห็นเพิ่มเติมว่า ความสามารถของ SU-01 ไม่ได้จำกัดอยู่แค่ข้อสอบแข่งขัน ในการประเมิน FrontierScience-Research ซึ่งใกล้เคียงกับรูปแบบปัญหาการวิจัยทางวิทยาศาสตร์มากขึ้น SU-01 ได้ผลลัพธ์ที่ดีที่สุดในบรรดาโมเดลขนาดเดียวกัน ซึ่งบ่งชี้ว่าแผนการฝึกนี้ไม่เพียงแต่ใช้ได้กับเกณฑ์มาตรฐานโอลิมปิกเท่านั้น แต่ยังมีศักยภาพในการขยายไปสู่ปัญหาทางวิทยาศาสตร์เชิงวิจัยอีกด้วย

รูปที่ 2: การกระจายความยาวการสร้างของการกระทำต่างๆ ในกระบวนการขยายขั้นตอนการอนุมานของ USAMO 2026

การขยายขั้นตอนการอนุมานช่วยขยายความสามารถในการค้นหาหลักฐานและการแก้ไขตนเองของโมเดลเพิ่มเติม ผ่านวงจรหลายรอบของ “สร้างคำตอบ候选 – ตรวจสอบหลักฐานสมบูรณ์ – ค้นหาปัญหา – แก้ไขคำตอบ” โมเดลสามารถเปลี่ยนความพยายามที่ไม่สมบูรณ์หรือไม่เสถียรให้เป็นคำตอบที่สมบูรณ์ เข้มงวด และต่อเนื่อง

การวิเคราะห์การขยายการอนุมานในรายงานแสดงให้เห็นว่า ในเส้นทางการขยายการอนุมานของ USAMO 2026 ความยาวมัธยฐานของการสร้างคำตอบเริ่มต้นอยู่ที่ประมาณ 106,000 โทเค็น และความยาวมัธยฐานของขั้นตอนการแก้ไขอยู่ที่ประมาณ 83,000 โทเค็น

กล่าวอีกนัยหนึ่ง โมเดลภายใต้ขนาด 30B-A3B ยังคงสามารถดำเนินการให้เหตุผลที่มีประสิทธิภาพในระดับ 100,000 โทเค็นได้อย่างต่อเนื่อง และใช้การคำนวณระยะยาวสำหรับการสร้างหลักฐาน การค้นหาช่องโหว่ และการซ่อมแซมข้อโต้แย้ง

การให้เหตุผลระดับเหรียญทองคณิตศาสตร์และฟิสิกส์โอลิมปิก

ในข้อสอบโอลิมปิกอย่างเป็นทางการ SU-01 แสดงความสามารถในการให้เหตุผลระดับเหรียญทองทั้งในงานโอลิมปิกคณิตศาสตร์และฟิสิกส์

ในด้านโอลิมปิกคณิตศาสตร์ โมเดลมีความสามารถในการแก้ปัญหาที่ค่อนข้างแข็งแกร่งเมื่อสร้างโดยตรงครั้งเดียว: IMO 2025 ได้ 21 คะแนน ได้คะแนนเต็มใน P2 และเกือบเต็มใน P4, P5; USAMO 2026 ได้ 15 คะแนน ได้คะแนนเต็มใน P1, P4 หลังจากขยายขั้นตอนการอนุมาน โมเดลได้ 35 คะแนนทั้งใน IMO 2025 และ USAMO 2026 ซึ่งถึงระดับเหรียญทองที่สอดคล้องกัน

ตารางที่ 1: ผลการประเมินโอลิมปิกคณิตศาสตร์ การประเมินครอบคลุมการแข่งขัน IMO 2025 และ USAMO 2026; โดยเส้นเหรียญทอง/เงิน/ทองแดงของ IMO 2025 คือ 35/28/19 คะแนน และเส้นเหรียญทอง/เงิน/ทองแดงของ USAMO 2026 คือ 25/18/11 คะแนน

โดยเฉพาะอย่างยิ่งในการแข่งขัน USAMO 2026 ล่าสุด SU-01 ได้ 35 คะแนน ซึ่งสูงกว่าเส้นเหรียญทอง 25 คะแนนของการแข่งขันนี้อย่างมาก และถึงระดับคะแนนสูงสุดของผู้เข้าแข่งขันที่เป็นมนุษย์

ตามสถิติคะแนนของผู้เข้าแข่งขัน 340 คน คะแนนเฉลี่ยของ USAMO 2026 คือ 8.59 คะแนน ค่ามัธยฐานเพียง 6 คะแนน เส้นคะแนน Top 12 คือ 26 คะแนน เส้นคะแนน Top 24 คือ 23 คะแนน คะแนนสูงสุดทั้งการแข่งขันคือ 35 คะแนน; จากสถิติแยกข้อ P2, P3, P6 มีความยากโดดเด่นเป็นพิเศษ โดย P3 มีคะแนนเฉลี่ยเพียง 0.01 คะแนน ไม่มีใครทำคะแนนเกิน 5 คะแนน ในขณะที่ SU-01 ได้คะแนนเต็มในข้อนี้

รูปที่ 4: การกระจายคะแนนของผู้เข้าแข่งขันมนุษย์ใน USAMO 2026 และการวิเคราะห์ความยากของแต่ละข้อ การแข่งขันครั้งนี้มีผู้เข้าร่วม 340 คน คะแนนเฉลี่ยโดยรวมคือ 8.59 คะแนน ค่ามัธยฐานเพียง 6 คะแนน เส้นคะแนนสำหรับ 12 อันดับแรกและ 24 อันดับแรกกำหนดไว้ที่ 26 คะแนนและ 23 คะแนนตามลำดับ คะแนนสูงสุดคือ 35 คะแนน จากข้อมูลสถิติของแต่ละข้อ P2, P3 และ P6 มีความยากสูงอย่างมีนัยสำคัญ โดยคะแนนเฉลี่ยของ P3 ต่ำถึง 0.01 คะแนน และไม่มีผู้เข้าแข่งขันคนใดทำคะแนนเกิน 5 คะแนนในข้อนี้ (แหล่งข้อมูล: https://web.evanchen.cc/exams/posted-usamo-statistics.pdf)

ผลลัพธ์นี้บ่งชี้ว่า 35 คะแนนที่ SU-01 ได้รับไม่ได้มาจากการทำข้อสอบปกติได้อย่างเสถียร แต่มาจากการ突破ที่สำคัญในข้อพิสูจน์ที่ยาก และประสิทธิภาพโดยรวมของมันก็เทียบเท่ากับผู้เข้าแข่งขันมนุษย์ระดับ顶尖

กรณีที่โดดเด่นเป็นพิเศษคือข้อ P3 ของ USAMO 2026: โมเดลนี้ไม่ได้ใช้เส้นทางการแก้ปัญหาเรขาคณิตแบบดั้งเดิม แต่ใช้วิธีจำนวนเชิงซ้อนอย่างชาญฉลาด โดยรวมวงกลมหนึ่งหน่วย การหมุนสามเหลี่ยมด้านเท่า ความสัมพันธ์ของคอร์ด และเงื่อนไขเส้นสัมผัสเข้าไว้ในกรอบพีชคณิตที่เป็นหนึ่งเดียว การกระทำนี้เปลี่ยนการจัดเรียงทางเรขาคณิตที่ปกติต้องใช้การ追踪มุมและการสร้างเส้น辅助ให้เป็นรูปแบบการแสดงออกเชิงวิเคราะห์ที่ชัดเจน

ในขณะที่ในข้อ P2 ของ IMO 2025 โมเดลแสดงความสามารถอีกอย่างที่เสริมกัน: มันลดรูปปัญหาเรขาคณิตที่เกี่ยวข้องกับวงกลมตัดกันสองวง จุด orthocenter และการ判定เส้นสัมผัส ให้เป็นกระบวนการคำนวณพิกัดและระยะทาง

ตัวอย่างอื่นๆ ที่น่าสนใจ ได้แก่ วิธีแก้ปัญหาแบบ Dynamic Programming ตามสถานะการทดในข้อ P4 ของ USAMO และการพิสูจน์ทฤษฎีจำนวนที่ผสานฟังก์ชันออยเลอร์ สมภาค Vieta jumping และโครงสร้าง Fibonacci ในข้อ P6 ของ USAMO

ในสาขาโอลิมปิกฟิสิกส์ โมเดลนี้สร้างคำตอบโดยตรงใน IPhO 2024/2025 ซึ่งเกินเส้นเหรียญทองแล้ว หลังจากขยายขั้นตอนการอนุมาน ผลงานของมันก็เพิ่มขึ้นอีก

ตารางที่ 2: ผลการประเมินโอลิมปิกฟิสิกส์ การประเมินครอบคลุมการแข่งขัน IPhO 2024 และ IPhO 2025; โดยเส้นเหรียญทองของ IPhO 2024 คือ 20.8 คะแนน และเส้นเหรียญทองของ IPhO 2025 คือ 19.7 คะแนน ในตาราง x /y แทนคะแนนของโมเดลในโหมดสร้างโดยตรงและโหมดขยายขั้นตอนการอนุมานตามลำดับ

เส้นทางสู่การสร้างระบบการให้เหตุผลทางวิทยาศาสตร์ที่มีประสิทธิภาพมากขึ้น

คุณค่าหลักของงานนี้เกินกว่าแค่คะแนนโอลิมปิก กุญแจสำคัญอยู่ที่การตรวจสอบเส้นทางที่เป็นไปได้ในการสร้างระบบการให้เหตุผลทางวิทยาศาสตร์ที่มีประสิทธิภาพมากขึ้น: โดยใช้โมเดลการให้เหตุผลที่มีอยู่เป็นฐาน ผ่านการสร้างพฤติกรรมการให้เหตุผลที่เข้มงวด การออกแบบรางวัลระดับหลักฐาน และกลไกวงจรปิด “สร้าง-ตรวจสอบ-แก้ไข” ในกระบวนการอนุมาน เพื่อเปลี่ยนทรัพยากรการคำนวณของโมเดลขนาดจำกัดให้เป็นความสามารถในการพิสูจน์ที่สามารถให้คะแนนและตรวจสอบได้

เมื่อมองไปข้างหน้า เส้นทางนี้มีแนวโน้มที่จะขยายจากสาขาโอลิมปิกคณิตศาสตร์และฟิสิกส์ไปสู่สถานการณ์การแก้ปัญหาทางวิทยาศาสตร์ที่กว้างขึ้น ซึ่งจะกลายเป็นวิธีการทั่วไปในการสร้างระบบปัญญาประดิษฐ์ทางวิทยาศาสตร์ที่มีประสิทธิภาพ เชื่อถือได้ และตรวจสอบได้

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง