บรรณาธิการ | เจ๋อหนาน
แนวคิดที่สำคัญที่สุดในวงการ AI ในปี 2026 อาจไม่ใช่ใครอื่นนอกจาก Harness
ปลายเดือนที่แล้ว ซอร์สโค้ดของ Claude Code เอเจนต์เขียนโค้ด AI ของ Anthropic ถูกเปิดเผยโดยไม่ได้ตั้งใจ วงการอุตสาหกรรมต่างพากันประหลาดใจและกล่าวว่า “Harness engineering มันยากจริงๆ”

ในฐานะหนึ่งในเสาหลักสองประการของเอเจนต์ AI (Agent) โมเดลขนาดใหญ่คือรากฐาน ส่วน Harness คือโครงสร้างส่วนบน พูดให้เจาะจง Harness Engineering หมายถึงสาขาวิชาวิศวกรรมที่ออกแบบระบบ ข้อจำกัด และวงจรการตอบรับรอบๆ เอเจนต์ AI เพื่อให้สามารถทำงานได้อย่างน่าเชื่อถือในสภาพแวดล้อมการผลิต
ในเรื่องนี้ สิทธิ์และการควบคุมความปลอดภัย การจัดการความจำและสถานะ การจัดลำดับเครื่องมือและเวิร์กโฟลว์ รวมถึงกลไกของวงจรการแก้ไขตนเอง ล้วนขาดเสียมิได้ ความสำคัญที่วงการ AI ให้กับ Harness หมายความว่าเทคโนโลยี AI กำลังบอกลายุคกล่องสุ่ม และก้าวเข้าสู่ขอบเขตของวิศวกรรมศาสตร์
ในระดับของการนำไปใช้ในอุตสาหกรรม การปฏิบัติในประเทศจีนก้าวหน้าไปก่อนหน้า และได้เสร็จสิ้นการพิสูจน์ยืนยันโดยบุคคลที่สามเป็นรายแรก
เมื่อเร็วๆ นี้ บน MLE-Bench ซึ่งเป็นเกณฑ์มาตรฐานอำนาจที่จัดตั้งขึ้นโดย OpenAI เอเจนต์อัจฉริยะปรับแต่งอัลกอริทึมระดับองค์กร Famou (Famou) ของ Baidu เอาชนะผู้เล่นทุกฝ่ายและขึ้นสู่ตำแหน่งสูงสุด พร้อมทั้งทำลายสถิติ SOTA


นี่เป็นการนำหน้าครั้งที่สองของ Famou หลังจากที่ขึ้นสู่ตำแหน่งสูงสุดเป็นครั้งแรกในเดือนตุลาคมปีที่แล้ว ครั้งนี้ที่คว้าอันดับหนึ่งคือเวอร์ชัน 2.0 ซึ่งคาดว่าจะเปิดตัวอย่างเป็นทางการในงาน Baidu AI Developer Conference: Create 2026 ในวันที่ 13 พฤษภาคมปีนี้
ต่างจากการประเมินทั่วไปที่ทดสอบความรู้ทั่วไปหรือการเขียนโค้ด MLE-Bench ได้รับการยอมรับในอุตสาหกรรมว่าเป็นสนามสอบที่ยากลำบากสำหรับทดสอบ “ความสามารถในการลงมือปฏิบัติ” ของเอเจนต์ โดยเลือกปัญหาวิศวกรรมจริง 75 ข้อจากการแข่งขันบนแพลตฟอร์มวิทยาศาสตร์ข้อมูลชั้นนำ Kaggle มุ่งเน้นทดสอบความสามารถปฏิบัติการแบบครบวงจรของ AI ในกระบวนการทั้งหมดของการเรียนรู้ของเครื่อง เช่น การฝึกโมเดล การเตรียมข้อมูล การรันการทดลอง เป็นต้น
พูดง่ายๆ คือ MLE-Bench ไม่ทดสอบ “ข้อสอบปรนัย” แต่ทดสอบ “ข้อสอบปัญหาเชิงประยุกต์” ในการพัฒนาโครงการวิศวกรรม ซึ่งต้องการให้เอเจนต์ AI สามารถออกแบบกระบวนการทั้งหมดตั้งแต่การทำความเข้าใจความต้องการไปจนถึงการส่งออกวิธีแก้ปัญหา หาคำตอบที่ดีที่สุดโดยรวมได้เหมือนวิศวกรอัลกอริทึมมนุษย์ที่มีประสบการณ์
การที่สามารถขึ้นสู่ตำแหน่งสูงสุดบน MLE-Bench หมายความว่า Famou ได้ก้าวข้ามขอบเขตของการเป็นเพียงผู้ทำข้อสอบ ความสามารถในการแก้ปัญหาการปรับแต่งอัลกอริทึมและปัญหาวิศวกรรมจริงได้ถึงระดับสูงสุดแล้ว
และผลลัพธ์ครั้งนี้ “ได้มาอย่างยากลำบาก”
เรื่องอื้อฉาวบนชาร์ต: การแข่งขันเกี่ยวกับขีดจำกัดของการประเมิน AI
เรื่องราวต้องเริ่มจากเรื่องอื้อฉาวบนชาร์ต
เดือนตุลาคมปีที่แล้ว ทีม Famou ของ Baidu ได้ส่งผลคะแนนของ Famou Agent ไปยัง MLE-Bench ที่นำโดย OpenAI เป็นครั้งแรก ได้ 43.56 คะแนนและคว้า SOTA (ระดับที่ดีที่สุด) ในขณะนั้น ก่อนหน้านี้ มีผู้ส่งผลคะแนนบนชาร์ตวิศวกรรมการเรียนรู้ของเครื่องที่ยากลำบากนี้เพียงไม่กี่ราย การขึ้นสู่ตำแหน่งสูงสุดของ Famou ทำให้ชาร์ตคึกคักขึ้นในทันที และดึงดูดให้ทีมชั้นนำเกือบ 10 ทีมเข้าร่วมแข่งขัน
ปลายเดือนธันวาคม Baidu Famou ได้เปิดตัวเวอร์ชัน 2.0 และขึ้นสู่ตำแหน่งสูงสุดอีกครั้งด้วยคะแนน 59.56 คะแนน
ที่น่าสนใจคือในการอัปเกรดครั้งนี้ ทีม Famou ได้ตัดสินใจที่ขัดกับสัญชาตญาณบางอย่าง: พวกเขาไม่ได้ใช้โมเดลพื้นฐานที่ล้ำสมัยที่สุดในขณะนั้น แต่ยังคงใช้โมเดลรุ่นก่อนหน้าเป็นพื้นฐาน พวกเขาต้องการทดสอบความก้าวหน้าของระบบ Harness ของเอเจนต์เองแยกต่างหาก
เดือนกุมภาพันธ์ปีนี้ ในขณะที่ทุกคนยังคงดิ้นรนอยู่ในช่วงคะแนน 60 กว่าๆ บริษัทสตาร์ทอัพชื่อ Disarray ได้ส่งคำตอบที่ได้คะแนน 77.78 คะแนนอย่างกะทันหัน
แต่ไม่นานชุมชน AI ก็พบความผิดปกติ: เอเจนต์ของ Disarray กลับได้คะแนน “ข้อผิดพลาด 0.0” ในบางงาน (เช่น งานระบุตำแหน่ง GPS) และได้คะแนนที่ต่ำอย่างเหลือเชื่อในงานภาพอื่นๆ ผลลัพธ์ที่แทบจะเป็นไปไม่ได้เช่นนี้ได้จุดประกายการอภิปรายในพื้นที่สนทนา GitHub
นักวิจัยบางคนพบว่า ในระหว่างการทำงาน เอเจนต์ของ Disarray ใช้ช่องโหว่ของกลไก MLE-Bench เพื่อรับสัญญาณตอบรับแบบไบนารีจาก “ชุดทดสอบส่วนตัว” เอเจนต์รู้ทิศทางคำตอบของการสอบโดยประมาณล่วงหน้าก่อนที่จะส่งคำตอบแล้ว นอกจากนี้ มันยังเรียกใช้ข้อมูลเครือข่ายภายนอกโดยตรงในบางงานอีกด้วย

นอกเหนือจากข้อโต้แย้งแล้ว ทีม Famou ตัดสินใจลงมือ พวกเขาเปลี่ยนไปใช้โมเดลพื้นฐาน SOTA ล่าสุดในการส่งผลคะแนน สุดท้ายได้คะแนน: 64.44 คะแนน แม้ว่าคะแนนสัมบูรณ์จะไม่เกิน Disarray ที่ใช้ช่องโหว่ แต่ผลลัพธ์นี้ไม่ได้ใช้สัญญาณตอบรับจากชุดทดสอบส่วนตัว และไม่ได้ใช้ข้อมูลเครือข่ายภายนอก
วันที่ 23 มีนาคม ในที่สุด MLE-Bench อย่างเป็นทางการได้ตัดสินใจเพิ่มลู่แข่งพิเศษ (No Private LB) แยกวิธีการทั้งหมดที่สงสัยว่ามีการรั่วไหลของข้อมูล (รวมถึง Disarray) ออกไป และติดป้ายเตือน
หลังจากแยกปัจจัยรบกวนออกแล้ว Baidu Famou 2.0 ที่ยึดมั่นในหลักการทดลองและปฏิเสธทางลัด กลับมาอยู่บนตำแหน่งสูงสุดของชาร์ตหลักด้วยคะแนนที่ไม่อาจโต้แย้งได้
การเปลี่ยนแปลงอันดับบนชาร์ตครั้งนี้ ดูเหมือนจะเปรียบเปรยถึงประเด็นหลักของการทำให้ AI เป็นวิศวกรรม: ในขณะที่มีทีมวิจัยหลายทีมพยายามทำคะแนนให้สูงขึ้นอย่างต่อเนื่อง ก็มีผู้สำรวจที่กำลังปฏิบัติตามแนวคิดการทำให้ Harness เป็นวิศวกรรม ค่อยๆ บุกฝ่าอุปสรรคของงานในโลกแห่งความเป็นจริง
ทำไม Famou 2.0 ถึงชนะ?
ที่ Baidu สามารถคว้าอันดับหนึ่งในการแข่งขันของเอเจนต์อัจฉริยะระดับโลกไม่ใช่เรื่องบังเอิญ คำตอบซ่อนอยู่ในคำใหม่ที่ทั้งซิลิคอนวัลเลย์กำลังพูดคุยกันอย่างร้อนแรง: Harness Engineering (วิศวกรรมการจัดระบบ)
หลายปีที่ผ่านมา จุดสนใจของการแข่งขันในอุตสาหกรรม AI อยู่ที่โมเดลพื้นฐาน แต่ผู้คนพบว่าเมื่อต้องจัดการกับปัญหาวิศวกรรมที่ซับซ้อนในโลกแห่งความเป็นจริง แม้แต่โมเดลที่ฉลาดที่สุดหากไม่มีระบบการจัดลำดับและข้อจำกัดที่เหมาะสม ก็ยังจะสูญเสียทิศทางในงานที่มีห่วงโซ่ยาว ติดอยู่ในวงจรอุบาทว์ หรือผลิตโค้ดผิดพลาดที่ไม่สามารถนำไปใช้ได้
Harness Engineering จึงได้รับความสำคัญมากขึ้นเรื่อยๆ เป้าหมายของมันชัดเจนมาก: เปลี่ยนจากการสร้าง AI ด้วยมือไปสู่การวิวัฒนาการที่ขับเคลื่อนโดยเฟรมเวิร์ก
โดยอิงจาก “เครื่องยนต์” อย่างโมเดลขนาดใหญ่ Harness รับผิดชอบการจัดการการแบ่งงาน การจัดเก็บความจำ การตอบรับจากการลองผิดลองถูก การเรียกใช้เครื่องมือ และขอบเขตความปลอดภัย ผู้เชี่ยวชาญ AI หลายคนเชื่อว่าในการแข่งขัน AI ในอนาคต ใครที่สามารถสร้างเฟรมเวิร์ก Harness ที่ดีที่สุดได้ คนนั้นจะสามารถเปลี่ยนสติปัญญาของโมเดลขนาดใหญ่เป็นพลังการผลิตได้อย่างแท้จริง

ประเด็นล้ำสมัยนี้ก็เป็นทิศทางที่ Baidu Famou พยายามมาตลอด
Famou เป็นระบบมัลติเอเจนต์ที่ทำให้อัลกอริทึม AI วิวัฒนาการด้วยตนเองและค้นหาคำตอบที่ดีที่สุดโดยรวม มีเป้าหมายเพื่อแก้ปัญหาที่ยากลำบากด้วยประสิทธิภาพสูง มันผสานโมเดลภาษาขนาดใหญ่และอัลกอริทึมการค้นหาเชิงวิวัฒนาการ สามารถแก้ปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริงได้ ในงาน Baidu World Conference เมื่อเดือนพฤศจิกายนปีที่แล้ว เราได้เห็นเฟรมเวิร์กทางเทคนิคและผลลัพธ์การปฏิบัติของ Baidu Famou แล้ว

หลี่ หยานหง เคยกล่าวว่า “ตราบใดที่วิธีแก้ปัญหาชัดเจนและสามารถตรวจสอบได้ Famou ก็สามารถจำลองหรือแม้แต่เหนือกว่าผู้เชี่ยวชาญอัลกอริทึมระดับสูงสุดได้”
ในเวอร์ชัน 2.0 ของ Famou กลยุทธ์การวิวัฒนาการ กลไกความจำระยะยาว โครงสร้างพื้นฐานระดับล่าง และอื่นๆ ได้รับการปรับปรุงอย่างครอบคลุม
ประการแรก Famou ดำเนินการในโหมดการสำรวจแบบมัลติเอเจนต์ขนาน เมื่อเผชิญกับงานใหม่ ระบบจะสร้าง “วิธีแก้ปัญหาอัลกอริทึมเริ่มต้น” หลายชุดผ่านมัลติเอเจนต์พร้อมกัน (คูลสตาร์ท) แจกจ่ายไปยัง “เกาะ” ต่างๆ เพื่อสร้างประชากรเริ่มต้น จากนั้นเข้าสู่ขั้นตอนการวิวัฒนาการด้วยตนเอง ใช้กลไกการกลายพันธุ์และครอสโอเวอร์แบบขนานขนาดใหญ่บนคลัสเตอร์แบบกระจายเพื่อทำซ้ำอย่างต่อเนื่อง ค่อยๆ เข้าใกล้คำตอบที่ดีที่สุดโดยรวม ไม่จำเป็นต้องให้วิศวกรสร้างความสามารถทุกชั้นด้วยมือ แต่ปล่อยให้เอเจนต์ค้นหาคำตอบที่ดีที่สุดด้วยตนเองในการวิวัฒนาการ
ประการที่สอง Famou อัปเกรดกลไกความจำระยะยาว ทำให้เอเจนต์สามารถรักษาความคิดที่ชัดเจนและตรรกะที่สอดคล้องกันในงานที่มีห่วงโซ่ยาวได้เหมือนวิศวกรมนุษย์ กลไกนี้แก้ไขจุดอ่อนของโมเดลขนาดใหญ่ที่ “ลืมสิ่งที่ทำก่อนหน้าเมื่อทำสิ่งหลัง” ทำให้เอเจนต์สามารถจดจำการวิเคราะห์ การตัดสินใจ และผลลัพธ์กลางก่อนหน้าในงานวิศวกรรมที่ซับซ้อนของโลกแห่งความเป็นจริงได้
สุดท้าย ผ่านการปรับปรุงโครงสร้างพื้นฐานระดับล่าง Famou ประสบความสำเร็จในการเพิ่มประสิทธิภาพการทำซ้ำการวิวัฒนาการของอัลกอริทึมอย่างมีนัยสำคัญ ด้วยการปรับปรุง AI Cloud แบบฟูลสแตกของ Baidu Intelligent Cloud Famou ทำได้อย่างยอดเยี่ยมในด้านการจัดสรรทรัพยากรคอมพิวเตอร์ การดำเนินงานแบบขนาน การกู้คืนจากข้อผิดพลาด เป็นต้น โครงสร้างพื้นฐานระดับล่างที่แข็งแกร่ง ทำให้ระบบขนาดใหญ่ทั้งหมดสามารถ “ทำงานได้อย่างมั่นคง เร็ว และน่าเชื่อถือ”
ชาร์ตคือการตรวจสอบ อุตสาหกรรมคือคำตอบ
ผลลัพธ์บนชาร์ต MLE-Bench เป็นเพียงส่วนหนึ่งของการตรวจสอบทางเทคนิค ที่จริงแล้ว Baidu Famou ได้แก้ปัญหาอุตสาหกรรมมากมายในโลกกายภาพจริง ซึ่งมีหลายกรณีที่เราคาดไม่ถึง
ในด้านการวิจัยและพัฒนารถยนต์ ค่าสัมประสิทธิ์แรงต้านอากาศเป็นตัวชี้วัดสำคัญที่ส่งผลต่อระยะวิ่งของรถยนต์พลังงานใหม่ แต่การตรวจสอบทางอากาศพลศาสตร์เผชิญกับความท้าทายเสมอมา วิธีการดั้งเดิมอาศัยซอฟต์แวร์จำลองเพื่อแก้สมการเชิงอนุพันธ์ย่อยที่ซับซ้อน การตรวจสอบหนึ่งครั้งอาจใช้เวลาถึง 10 ชั่วโมง หลังจากนักออกแบบร่างแบบเสร็จ มักต้องรอการตอบรับจากวิศวกรอย่างเฉยเมย กระบวนการเหมือน “เปิดกล่องสุ่ม”
บริษัทออกแบบรถยนต์อิสระที่ใหญ่ที่สุดในเอเชีย IAT ได้ผสานแพลตฟอร์มหลัก AI ของตนกับ Baidu Famou อย่างลึกซึ้ง ใช้ความสามารถในการวิวัฒนาการด้วยตนเองของ Famou เพื่อฝึกระบบพยากรณ์อัจฉริยะ “Yufeng”

ระบบนี้ลดกระบวนการวิเคราะห์และตรวจสอบที่เดิมใช้เวลา 10 ชั่วโมง ให้เหลือเพียงไม่กี่นาทีในการส่งออกแผนภาพเมฆความดันที่มองเห็นได้และค่าสัมประสิทธิ์แรงต้านอากาศ โดยควบคุมข้อผิดพลาดในการพยากรณ์ไว้ภายใน 5% ความแตกต่างของความสามารถในระดับรุ่นนี้ ทำให้กระบวนการอนุกรมแบบดั้งเดิม “ออกแบบ-ตรวจสอบ-แก้ไข” เปลี่ยนเป็นโหมดความร่วมมือแบบขนาน “ออกแบบไป ตรวจสอบไป” ดังนั้น วงจรการวิจัยและพัฒนารถยนต์ทั้งคันจึงสั้นลง 25%
ในด้านการเงิน กำแพงป้องกันหลักของธนาคารดิจิทัลอยู่ที่การควบคุมความเสี่ยง และเส้นชีวิตของการควบคุมความเสี่ยงขึ้นอยู่กับ “การขุดค้นคุณลักษณะ” CITIC Baixin Bank ได้นำเอเจนต์ Famou เข้าสู่ระบบควบคุมความเสี่ยงหลักของตน ที่นี่ Famou ทำหน้าที่เป็น “ปรมาจารย์วิวัฒนาการกลยุทธ์” ที่ไม่รู้จักเหน็ดเหนื่อย ด้วยความสามารถในการรับรู้ข้อมูลหลายมิติของมัน มันขุดค้นคุณลักษณะความเสี่ยงจากข้อมูลมหาศาลตลอด 24 ชั่วโมงทุกวัน และบรรลุระดับของวิศวกรข้อมูลมืออาชีพได้ในเวลาอันสั้น
ผลลัพธ์การปฏิบัติจริงมีนัยสำคัญ: Famou ไม่เพียงแต่เพิ่มประสิทธิภาพการขุดค้นคุณลักษณะขึ้น 100% แต่ยังจับคุณลักษณะที่มีมูลค่าสูงที่นักวิเคราะห์มนุษย์มองข้ามได้อย่างแม่นยำ ทำให้ความสามารถในการแยกแยะความเสี่ยงของโมเดลควบคุมความเสี่ยงเพิ่มขึ้น 2.41% ซึ่งหมายความว่าธนาคารสามารถระบุลูกค้าที่มีคุณภาพได้อย่างแม่นยำมากขึ้นภายในขอบเขตความเสี่ยงที่ควบคุมได้ จึงขยายขอบเขตการบริการทางการเงินแบบครอบคลุมออกไป
ก้าวไปอีกขั้น ความสามารถของ Famou ในการแก้ปัญหาที่ซับซ้อนไม่เพียงแต่ใช้ในสถานการณ์อุตสาหกรรม แต่ยังส่งเสริมการปฏิรูปกระบวนทัศน์การวิจัยล้ำสมัย
มหาวิทยาลัยเทคโนโลยีปักกิ่งนำ Baidu Famou ไปใช้ในการวิจัยและพัฒนาอุปกรณ์ตรวจสอบคุณภาพอากาศขนาดเล็กของสถานีอวกาศจีน เมื่อเผชิญกับปัญหาความสม่ำเสมอของสนามการไหลของส่วนประกอบหลัก “คอลัมน์โครมาโตกราฟีแก๊ส” Famou ทำลายกรอบแนว
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/29795
