แนวคิดที่สำคัญที่สุดในปี 2026 ของวงการ AI: Harness – มองการปฏิวัติวิศวกรรมของ AI Agent จากความสำเร็จของ Baidu ในการครองตำแหน่งสูงสุดของ MLE-Bench

2 days ago • วิศวกรรมโมเดลขนาดใหญ่ • 27 views

บรรณาธิการ | เจ๋อหนาน

แนวคิดที่สำคัญที่สุดในวงการ AI ในปี 2026 อาจไม่ใช่ใครอื่นนอกจาก Harness

ปลายเดือนที่แล้ว ซอร์สโค้ดของ Claude Code เอเจนต์เขียนโค้ด AI ของ Anthropic ถูกเปิดเผยโดยไม่ได้ตั้งใจ วงการอุตสาหกรรมต่างพากันประหลาดใจและกล่าวว่า “Harness engineering มันยากจริงๆ”

แนวคิดที่สำคัญที่สุดในปี 2026 ของวงการ AI: Harness - มองการปฏิวัติวิศวกรรมของ AI Agent จากความสำเร็จของ Baidu ในการครองตำแหน่งสูงสุดของ MLE-Bench

ในฐานะหนึ่งในเสาหลักสองประการของเอเจนต์ AI (Agent) โมเดลขนาดใหญ่คือรากฐาน ส่วน Harness คือโครงสร้างส่วนบน พูดให้เจาะจง Harness Engineering หมายถึงสาขาวิชาวิศวกรรมที่ออกแบบระบบ ข้อจำกัด และวงจรการตอบรับรอบๆ เอเจนต์ AI เพื่อให้สามารถทำงานได้อย่างน่าเชื่อถือในสภาพแวดล้อมการผลิต

ในเรื่องนี้ สิทธิ์และการควบคุมความปลอดภัย การจัดการความจำและสถานะ การจัดลำดับเครื่องมือและเวิร์กโฟลว์ รวมถึงกลไกของวงจรการแก้ไขตนเอง ล้วนขาดเสียมิได้ ความสำคัญที่วงการ AI ให้กับ Harness หมายความว่าเทคโนโลยี AI กำลังบอกลายุคกล่องสุ่ม และก้าวเข้าสู่ขอบเขตของวิศวกรรมศาสตร์

ในระดับของการนำไปใช้ในอุตสาหกรรม การปฏิบัติในประเทศจีนก้าวหน้าไปก่อนหน้า และได้เสร็จสิ้นการพิสูจน์ยืนยันโดยบุคคลที่สามเป็นรายแรก

เมื่อเร็วๆ นี้ บน MLE-Bench ซึ่งเป็นเกณฑ์มาตรฐานอำนาจที่จัดตั้งขึ้นโดย OpenAI เอเจนต์อัจฉริยะปรับแต่งอัลกอริทึมระดับองค์กร Famou (Famou) ของ Baidu เอาชนะผู้เล่นทุกฝ่ายและขึ้นสู่ตำแหน่งสูงสุด พร้อมทั้งทำลายสถิติ SOTA

นี่เป็นการนำหน้าครั้งที่สองของ Famou หลังจากที่ขึ้นสู่ตำแหน่งสูงสุดเป็นครั้งแรกในเดือนตุลาคมปีที่แล้ว ครั้งนี้ที่คว้าอันดับหนึ่งคือเวอร์ชัน 2.0 ซึ่งคาดว่าจะเปิดตัวอย่างเป็นทางการในงาน Baidu AI Developer Conference: Create 2026 ในวันที่ 13 พฤษภาคมปีนี้

ต่างจากการประเมินทั่วไปที่ทดสอบความรู้ทั่วไปหรือการเขียนโค้ด MLE-Bench ได้รับการยอมรับในอุตสาหกรรมว่าเป็นสนามสอบที่ยากลำบากสำหรับทดสอบ “ความสามารถในการลงมือปฏิบัติ” ของเอเจนต์ โดยเลือกปัญหาวิศวกรรมจริง 75 ข้อจากการแข่งขันบนแพลตฟอร์มวิทยาศาสตร์ข้อมูลชั้นนำ Kaggle มุ่งเน้นทดสอบความสามารถปฏิบัติการแบบครบวงจรของ AI ในกระบวนการทั้งหมดของการเรียนรู้ของเครื่อง เช่น การฝึกโมเดล การเตรียมข้อมูล การรันการทดลอง เป็นต้น

พูดง่ายๆ คือ MLE-Bench ไม่ทดสอบ “ข้อสอบปรนัย” แต่ทดสอบ “ข้อสอบปัญหาเชิงประยุกต์” ในการพัฒนาโครงการวิศวกรรม ซึ่งต้องการให้เอเจนต์ AI สามารถออกแบบกระบวนการทั้งหมดตั้งแต่การทำความเข้าใจความต้องการไปจนถึงการส่งออกวิธีแก้ปัญหา หาคำตอบที่ดีที่สุดโดยรวมได้เหมือนวิศวกรอัลกอริทึมมนุษย์ที่มีประสบการณ์

การที่สามารถขึ้นสู่ตำแหน่งสูงสุดบน MLE-Bench หมายความว่า Famou ได้ก้าวข้ามขอบเขตของการเป็นเพียงผู้ทำข้อสอบ ความสามารถในการแก้ปัญหาการปรับแต่งอัลกอริทึมและปัญหาวิศวกรรมจริงได้ถึงระดับสูงสุดแล้ว

และผลลัพธ์ครั้งนี้ “ได้มาอย่างยากลำบาก”

เรื่องอื้อฉาวบนชาร์ต: การแข่งขันเกี่ยวกับขีดจำกัดของการประเมิน AI

เรื่องราวต้องเริ่มจากเรื่องอื้อฉาวบนชาร์ต

เดือนตุลาคมปีที่แล้ว ทีม Famou ของ Baidu ได้ส่งผลคะแนนของ Famou Agent ไปยัง MLE-Bench ที่นำโดย OpenAI เป็นครั้งแรก ได้ 43.56 คะแนนและคว้า SOTA (ระดับที่ดีที่สุด) ในขณะนั้น ก่อนหน้านี้ มีผู้ส่งผลคะแนนบนชาร์ตวิศวกรรมการเรียนรู้ของเครื่องที่ยากลำบากนี้เพียงไม่กี่ราย การขึ้นสู่ตำแหน่งสูงสุดของ Famou ทำให้ชาร์ตคึกคักขึ้นในทันที และดึงดูดให้ทีมชั้นนำเกือบ 10 ทีมเข้าร่วมแข่งขัน

ปลายเดือนธันวาคม Baidu Famou ได้เปิดตัวเวอร์ชัน 2.0 และขึ้นสู่ตำแหน่งสูงสุดอีกครั้งด้วยคะแนน 59.56 คะแนน

ที่น่าสนใจคือในการอัปเกรดครั้งนี้ ทีม Famou ได้ตัดสินใจที่ขัดกับสัญชาตญาณบางอย่าง: พวกเขาไม่ได้ใช้โมเดลพื้นฐานที่ล้ำสมัยที่สุดในขณะนั้น แต่ยังคงใช้โมเดลรุ่นก่อนหน้าเป็นพื้นฐาน พวกเขาต้องการทดสอบความก้าวหน้าของระบบ Harness ของเอเจนต์เองแยกต่างหาก

เดือนกุมภาพันธ์ปีนี้ ในขณะที่ทุกคนยังคงดิ้นรนอยู่ในช่วงคะแนน 60 กว่าๆ บริษัทสตาร์ทอัพชื่อ Disarray ได้ส่งคำตอบที่ได้คะแนน 77.78 คะแนนอย่างกะทันหัน

แต่ไม่นานชุมชน AI ก็พบความผิดปกติ: เอเจนต์ของ Disarray กลับได้คะแนน “ข้อผิดพลาด 0.0” ในบางงาน (เช่น งานระบุตำแหน่ง GPS) และได้คะแนนที่ต่ำอย่างเหลือเชื่อในงานภาพอื่นๆ ผลลัพธ์ที่แทบจะเป็นไปไม่ได้เช่นนี้ได้จุดประกายการอภิปรายในพื้นที่สนทนา GitHub

นักวิจัยบางคนพบว่า ในระหว่างการทำงาน เอเจนต์ของ Disarray ใช้ช่องโหว่ของกลไก MLE-Bench เพื่อรับสัญญาณตอบรับแบบไบนารีจาก “ชุดทดสอบส่วนตัว” เอเจนต์รู้ทิศทางคำตอบของการสอบโดยประมาณล่วงหน้าก่อนที่จะส่งคำตอบแล้ว นอกจากนี้ มันยังเรียกใช้ข้อมูลเครือข่ายภายนอกโดยตรงในบางงานอีกด้วย

นอกเหนือจากข้อโต้แย้งแล้ว ทีม Famou ตัดสินใจลงมือ พวกเขาเปลี่ยนไปใช้โมเดลพื้นฐาน SOTA ล่าสุดในการส่งผลคะแนน สุดท้ายได้คะแนน: 64.44 คะแนน แม้ว่าคะแนนสัมบูรณ์จะไม่เกิน Disarray ที่ใช้ช่องโหว่ แต่ผลลัพธ์นี้ไม่ได้ใช้สัญญาณตอบรับจากชุดทดสอบส่วนตัว และไม่ได้ใช้ข้อมูลเครือข่ายภายนอก

วันที่ 23 มีนาคม ในที่สุด MLE-Bench อย่างเป็นทางการได้ตัดสินใจเพิ่มลู่แข่งพิเศษ (No Private LB) แยกวิธีการทั้งหมดที่สงสัยว่ามีการรั่วไหลของข้อมูล (รวมถึง Disarray) ออกไป และติดป้ายเตือน

หลังจากแยกปัจจัยรบกวนออกแล้ว Baidu Famou 2.0 ที่ยึดมั่นในหลักการทดลองและปฏิเสธทางลัด กลับมาอยู่บนตำแหน่งสูงสุดของชาร์ตหลักด้วยคะแนนที่ไม่อาจโต้แย้งได้

การเปลี่ยนแปลงอันดับบนชาร์ตครั้งนี้ ดูเหมือนจะเปรียบเปรยถึงประเด็นหลักของการทำให้ AI เป็นวิศวกรรม: ในขณะที่มีทีมวิจัยหลายทีมพยายามทำคะแนนให้สูงขึ้นอย่างต่อเนื่อง ก็มีผู้สำรวจที่กำลังปฏิบัติตามแนวคิดการทำให้ Harness เป็นวิศวกรรม ค่อยๆ บุกฝ่าอุปสรรคของงานในโลกแห่งความเป็นจริง

ทำไม Famou 2.0 ถึงชนะ?

ที่ Baidu สามารถคว้าอันดับหนึ่งในการแข่งขันของเอเจนต์อัจฉริยะระดับโลกไม่ใช่เรื่องบังเอิญ คำตอบซ่อนอยู่ในคำใหม่ที่ทั้งซิลิคอนวัลเลย์กำลังพูดคุยกันอย่างร้อนแรง: Harness Engineering (วิศวกรรมการจัดระบบ)

หลายปีที่ผ่านมา จุดสนใจของการแข่งขันในอุตสาหกรรม AI อยู่ที่โมเดลพื้นฐาน แต่ผู้คนพบว่าเมื่อต้องจัดการกับปัญหาวิศวกรรมที่ซับซ้อนในโลกแห่งความเป็นจริง แม้แต่โมเดลที่ฉลาดที่สุดหากไม่มีระบบการจัดลำดับและข้อจำกัดที่เหมาะสม ก็ยังจะสูญเสียทิศทางในงานที่มีห่วงโซ่ยาว ติดอยู่ในวงจรอุบาทว์ หรือผลิตโค้ดผิดพลาดที่ไม่สามารถนำไปใช้ได้

Harness Engineering จึงได้รับความสำคัญมากขึ้นเรื่อยๆ เป้าหมายของมันชัดเจนมาก: เปลี่ยนจากการสร้าง AI ด้วยมือไปสู่การวิวัฒนาการที่ขับเคลื่อนโดยเฟรมเวิร์ก

โดยอิงจาก “เครื่องยนต์” อย่างโมเดลขนาดใหญ่ Harness รับผิดชอบการจัดการการแบ่งงาน การจัดเก็บความจำ การตอบรับจากการลองผิดลองถูก การเรียกใช้เครื่องมือ และขอบเขตความปลอดภัย ผู้เชี่ยวชาญ AI หลายคนเชื่อว่าในการแข่งขัน AI ในอนาคต ใครที่สามารถสร้างเฟรมเวิร์ก Harness ที่ดีที่สุดได้ คนนั้นจะสามารถเปลี่ยนสติปัญญาของโมเดลขนาดใหญ่เป็นพลังการผลิตได้อย่างแท้จริง

ประเด็นล้ำสมัยนี้ก็เป็นทิศทางที่ Baidu Famou พยายามมาตลอด

Famou เป็นระบบมัลติเอเจนต์ที่ทำให้อัลกอริทึม AI วิวัฒนาการด้วยตนเองและค้นหาคำตอบที่ดีที่สุดโดยรวม มีเป้าหมายเพื่อแก้ปัญหาที่ยากลำบากด้วยประสิทธิภาพสูง มันผสานโมเดลภาษาขนาดใหญ่และอัลกอริทึมการค้นหาเชิงวิวัฒนาการ สามารถแก้ปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริงได้ ในงาน Baidu World Conference เมื่อเดือนพฤศจิกายนปีที่แล้ว เราได้เห็นเฟรมเวิร์กทางเทคนิคและผลลัพธ์การปฏิบัติของ Baidu Famou แล้ว

หลี่ หยานหง เคยกล่าวว่า “ตราบใดที่วิธีแก้ปัญหาชัดเจนและสามารถตรวจสอบได้ Famou ก็สามารถจำลองหรือแม้แต่เหนือกว่าผู้เชี่ยวชาญอัลกอริทึมระดับสูงสุดได้”

ในเวอร์ชัน 2.0 ของ Famou กลยุทธ์การวิวัฒนาการ กลไกความจำระยะยาว โครงสร้างพื้นฐานระดับล่าง และอื่นๆ ได้รับการปรับปรุงอย่างครอบคลุม

ประการแรก Famou ดำเนินการในโหมดการสำรวจแบบมัลติเอเจนต์ขนาน เมื่อเผชิญกับงานใหม่ ระบบจะสร้าง “วิธีแก้ปัญหาอัลกอริทึมเริ่มต้น” หลายชุดผ่านมัลติเอเจนต์พร้อมกัน (คูลสตาร์ท) แจกจ่ายไปยัง “เกาะ” ต่างๆ เพื่อสร้างประชากรเริ่มต้น จากนั้นเข้าสู่ขั้นตอนการวิวัฒนาการด้วยตนเอง ใช้กลไกการกลายพันธุ์และครอสโอเวอร์แบบขนานขนาดใหญ่บนคลัสเตอร์แบบกระจายเพื่อทำซ้ำอย่างต่อเนื่อง ค่อยๆ เข้าใกล้คำตอบที่ดีที่สุดโดยรวม ไม่จำเป็นต้องให้วิศวกรสร้างความสามารถทุกชั้นด้วยมือ แต่ปล่อยให้เอเจนต์ค้นหาคำตอบที่ดีที่สุดด้วยตนเองในการวิวัฒนาการ

ประการที่สอง Famou อัปเกรดกลไกความจำระยะยาว ทำให้เอเจนต์สามารถรักษาความคิดที่ชัดเจนและตรรกะที่สอดคล้องกันในงานที่มีห่วงโซ่ยาวได้เหมือนวิศวกรมนุษย์ กลไกนี้แก้ไขจุดอ่อนของโมเดลขนาดใหญ่ที่ “ลืมสิ่งที่ทำก่อนหน้าเมื่อทำสิ่งหลัง” ทำให้เอเจนต์สามารถจดจำการวิเคราะห์ การตัดสินใจ และผลลัพธ์กลางก่อนหน้าในงานวิศวกรรมที่ซับซ้อนของโลกแห่งความเป็นจริงได้

สุดท้าย ผ่านการปรับปรุงโครงสร้างพื้นฐานระดับล่าง Famou ประสบความสำเร็จในการเพิ่มประสิทธิภาพการทำซ้ำการวิวัฒนาการของอัลกอริทึมอย่างมีนัยสำคัญ ด้วยการปรับปรุง AI Cloud แบบฟูลสแตกของ Baidu Intelligent Cloud Famou ทำได้อย่างยอดเยี่ยมในด้านการจัดสรรทรัพยากรคอมพิวเตอร์ การดำเนินงานแบบขนาน การกู้คืนจากข้อผิดพลาด เป็นต้น โครงสร้างพื้นฐานระดับล่างที่แข็งแกร่ง ทำให้ระบบขนาดใหญ่ทั้งหมดสามารถ “ทำงานได้อย่างมั่นคง เร็ว และน่าเชื่อถือ”

ชาร์ตคือการตรวจสอบ อุตสาหกรรมคือคำตอบ

ผลลัพธ์บนชาร์ต MLE-Bench เป็นเพียงส่วนหนึ่งของการตรวจสอบทางเทคนิค ที่จริงแล้ว Baidu Famou ได้แก้ปัญหาอุตสาหกรรมมากมายในโลกกายภาพจริง ซึ่งมีหลายกรณีที่เราคาดไม่ถึง

ในด้านการวิจัยและพัฒนารถยนต์ ค่าสัมประสิทธิ์แรงต้านอากาศเป็นตัวชี้วัดสำคัญที่ส่งผลต่อระยะวิ่งของรถยนต์พลังงานใหม่ แต่การตรวจสอบทางอากาศพลศาสตร์เผชิญกับความท้าทายเสมอมา วิธีการดั้งเดิมอาศัยซอฟต์แวร์จำลองเพื่อแก้สมการเชิงอนุพันธ์ย่อยที่ซับซ้อน การตรวจสอบหนึ่งครั้งอาจใช้เวลาถึง 10 ชั่วโมง หลังจากนักออกแบบร่างแบบเสร็จ มักต้องรอการตอบรับจากวิศวกรอย่างเฉยเมย กระบวนการเหมือน “เปิดกล่องสุ่ม”

บริษัทออกแบบรถยนต์อิสระที่ใหญ่ที่สุดในเอเชีย IAT ได้ผสานแพลตฟอร์มหลัก AI ของตนกับ Baidu Famou อย่างลึกซึ้ง ใช้ความสามารถในการวิวัฒนาการด้วยตนเองของ Famou เพื่อฝึกระบบพยากรณ์อัจฉริยะ “Yufeng”

ระบบนี้ลดกระบวนการวิเคราะห์และตรวจสอบที่เดิมใช้เวลา 10 ชั่วโมง ให้เหลือเพียงไม่กี่นาทีในการส่งออกแผนภาพเมฆความดันที่มองเห็นได้และค่าสัมประสิทธิ์แรงต้านอากาศ โดยควบคุมข้อผิดพลาดในการพยากรณ์ไว้ภายใน 5% ความแตกต่างของความสามารถในระดับรุ่นนี้ ทำให้กระบวนการอนุกรมแบบดั้งเดิม “ออกแบบ-ตรวจสอบ-แก้ไข” เปลี่ยนเป็นโหมดความร่วมมือแบบขนาน “ออกแบบไป ตรวจสอบไป” ดังนั้น วงจรการวิจัยและพัฒนารถยนต์ทั้งคันจึงสั้นลง 25%

ในด้านการเงิน กำแพงป้องกันหลักของธนาคารดิจิทัลอยู่ที่การควบคุมความเสี่ยง และเส้นชีวิตของการควบคุมความเสี่ยงขึ้นอยู่กับ “การขุดค้นคุณลักษณะ” CITIC Baixin Bank ได้นำเอเจนต์ Famou เข้าสู่ระบบควบคุมความเสี่ยงหลักของตน ที่นี่ Famou ทำหน้าที่เป็น “ปรมาจารย์วิวัฒนาการกลยุทธ์” ที่ไม่รู้จักเหน็ดเหนื่อย ด้วยความสามารถในการรับรู้ข้อมูลหลายมิติของมัน มันขุดค้นคุณลักษณะความเสี่ยงจากข้อมูลมหาศาลตลอด 24 ชั่วโมงทุกวัน และบรรลุระดับของวิศวกรข้อมูลมืออาชีพได้ในเวลาอันสั้น

ผลลัพธ์การปฏิบัติจริงมีนัยสำคัญ: Famou ไม่เพียงแต่เพิ่มประสิทธิภาพการขุดค้นคุณลักษณะขึ้น 100% แต่ยังจับคุณลักษณะที่มีมูลค่าสูงที่นักวิเคราะห์มนุษย์มองข้ามได้อย่างแม่นยำ ทำให้ความสามารถในการแยกแยะความเสี่ยงของโมเดลควบคุมความเสี่ยงเพิ่มขึ้น 2.41% ซึ่งหมายความว่าธนาคารสามารถระบุลูกค้าที่มีคุณภาพได้อย่างแม่นยำมากขึ้นภายในขอบเขตความเสี่ยงที่ควบคุมได้ จึงขยายขอบเขตการบริการทางการเงินแบบครอบคลุมออกไป

ก้าวไปอีกขั้น ความสามารถของ Famou ในการแก้ปัญหาที่ซับซ้อนไม่เพียงแต่ใช้ในสถานการณ์อุตสาหกรรม แต่ยังส่งเสริมการปฏิรูปกระบวนทัศน์การวิจัยล้ำสมัย

มหาวิทยาลัยเทคโนโลยีปักกิ่งนำ Baidu Famou ไปใช้ในการวิจัยและพัฒนาอุปกรณ์ตรวจสอบคุณภาพอากาศขนาดเล็กของสถานีอวกาศจีน เมื่อเผชิญกับปัญหาความสม่ำเสมอของสนามการไหลของส่วนประกอบหลัก “คอลัมน์โครมาโตกราฟีแก๊ส” Famou ทำลายกรอบแนว

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง