หากมีงานระดับผู้เชี่ยวชาญชั้นนำมูลค่า 1 ล้านดอลลาร์สหรัฐ AI จะสามารถทำงานเหล่านั้นได้มากแค่ไหน?
คำตอบคือ: งานมูลค่าประมาณ 480,000 ดอลลาร์สหรัฐ และค่าใช้จ่าย API ในการทำงานเหล่านี้เพียงประมาณ 100 ดอลลาร์สหรัฐเท่านั้น
ข้อสรุปนี้มาจากเกณฑ์วัดประสิทธิภาพระดับล้านดอลลาร์สหรัฐที่ชื่อ $OneMillion-Bench ซึ่งสร้างขึ้นโดยความร่วมมือระหว่าง Humanlaya Data Lab, Beijing Institute for General Artificial Intelligence (BIGAI), xbench และ M-A-P เกณฑ์วัดนี้ได้รวบรวมผู้เชี่ยวชาญอาวุโสกว่า 100 คนจากสถาบันต่างๆ เช่น Morgan Stanley, Skadden, Arps, Slate, Meagher & Flom, Peking Union Medical College Hospital, State Grid Corporation of China และ Tsinghua University ใช้เวลากว่า 2,000 ชั่วโมงในการสร้างชุดงานที่มีมูลค่าทางเศรษฐกิจเทียบเท่ากับการทำงานของผู้เชี่ยวชาญมนุษย์เป็นมูลค่าล้านดอลลาร์สหรัฐ
ในขณะที่ AI Agent กำลังเปลี่ยนจากแนวคิดไปสู่การประยุกต์ใช้ อุตสาหกรรมให้ความสนใจมากขึ้นกับความสามารถในการแทนที่มนุษย์ในการทำงานจริง แนวคิดหลักของ $OneMillion-Bench นั้นตรงไปตรงมา: กำหนดราคางานโดยใช้ “เวลาและต้นทุนของผู้เชี่ยวชาญมนุษย์” เป็นเกณฑ์ จากนั้นวัดประสิทธิภาพของโมเดลด้วย “การตอบสนองต่อข้อกำหนดการส่งมอบของผู้เชี่ยวชาญหรือไม่” พูดง่ายๆ คือ หากมอง AI เป็น “ผู้เชี่ยวชาญดิจิทัล” เมื่อเผชิญกับงานรวมมูลค่าล้านดอลลาร์สหรัฐ มันจะสามารถ “หาเงิน” ได้มากแค่ไหน?

ประสิทธิภาพของโมเดลใน $OneMillion-Bench และมูลค่าทางเศรษฐกิจที่ได้รับ
01 | จาก “เครื่องตอบคำถาม” สู่ “พนักงานดิจิทัล”: อุตสาหกรรมต้องการมาตรวัดมูลค่าทางเศรษฐกิจที่วัดได้
ตั้งแต่ปี 2025 ซึ่งเป็น “ปีแรกของ AI Agent” AI กำลังพัฒนาไปจาก “เครื่องตอบคำถาม” สู่ “พนักงานดิจิทัล” อย่างไรก็ตาม ชุดการประเมินที่มีอยู่ในปัจจุบันมักขาดการวัดมูลค่าทางเศรษฐกิจจริง มีปัญหาด้านความสามารถในการแยกแยะไม่เพียงพอ ยากต่อการทำให้เป็นอัตโนมัติ และส่วนใหญ่จำกัดอยู่เฉพาะในบริบทภาษาอังกฤษ
เพื่อแก้ไขปัญหานี้ $OneMillion-Bench มีเป้าหมายที่จะสร้างเกณฑ์วัดที่มีมูลค่าทางเศรษฐกิจสูง มีความสามารถในการแยกแยะสูง และสามารถประเมินได้อัตโนมัติ ประกอบด้วยคำถามยาก 400 ข้อ (ภาษาจีนและภาษาอังกฤษอย่างละ 200 ข้อ) ครอบคลุม 5 สาขาหลัก ได้แก่ การเงิน กฎหมาย การแพทย์ วิทยาศาสตร์ธรรมชาติ และอุตสาหกรรม รวมถึง 92 สาขาย่อยระดับที่สาม ต่างจากคำถามสอบทั่วไป โดยแต่ละข้อจำลองสถานการณ์งานผู้เชี่ยวชาญแบบเปิดในสภาพแวดล้อมการทำงานจริง และใช้วิธีการประเมินโดยผสมผสาน Rubrics (เกณฑ์การให้คะแนน) กับ LLM as Judge
เกณฑ์วัดนี้ต้องการให้โมเดลให้แผนปฏิบัติการและลำดับการตัดสินใจที่นำไปปฏิบัติได้จริง ไม่เพียงแต่ตอบว่า “คืออะไร” แต่ต้องอธิบายด้วยว่า “ทำอย่างไร ทำตามลำดับอะไร และทำไมจึงทำเช่นนั้น”

5 สาขาหลัก 37 สาขาย่อยระดับที่สอง และ 92 สาขาย่อยระดับที่สาม ที่ครอบคลุมใน $OneMillion-Bench
ชื่อ “ล้านดอลลาร์” มาจากมูลค่าสูงของงานเหล่านี้เอง เกณฑ์วัดนี้ละทิ้งวิธีการดั้งเดิมที่ประเมินเพียงความแม่นยำ หันมาใช้ “เงิน” ในการวัดมูลค่าการทำงานจริงของแต่ละคำถาม: มูลค่าทางเศรษฐกิจของงาน = เวลาที่ผู้เชี่ยวชาญอาวุโสใช้ทำงานนั้น × ค่าจ้างรายชั่วโมงของผู้เชี่ยวชาญ ข้อมูลค่าจ้างรายชั่วโมงอ้างอิงจากแหล่งข้อมูลทางการหรือแหล่งข้อมูลที่มีอำนาจในอุตสาหกรรม (เช่น สำนักงานทรัพยากรบุคคลและสังคม保障ของบางเมืองในจีน, สำนักงานสถิติแรงงานสหรัฐฯ) เวลาที่ใช้ทำงานประเมินโดยผู้เชี่ยวชาญจากหลายสาขาร่วมกัน
เมื่อรวมมูลค่าทางเศรษฐกิจของงานทั้งหมดแล้ว จำนวนรวมเกิน 1 ล้านดอลลาร์สหรัฐ ซึ่งหมายความว่าในโลกแห่งความเป็นจริง หากมอบหมายงานเหล่านี้ให้ทีมผู้เชี่ยวชาญอาวุโสทำ ต้นทุนที่ต้องการจะอยู่ในระดับล้านดอลลาร์สหรัฐ ดังนั้น การประเมินโมเดลจึงไม่หยุดอยู่ที่คะแนนเชิงนามธรรมอีกต่อไป แต่สามารถตอบได้อย่างชัดเจนมากขึ้นว่า: AI ในปัจจุบันสามารถส่งมอบ “มูลค่าที่สามารถรับรู้ได้” ที่มั่นคงได้มากแค่ไหน และยังมีช่องว่างใดบ้างที่ห่างจากการ “ปฏิบัติงาน” จริง

ตัวอย่างวิธีการคำนวณมูลค่าทางเศรษฐกิจของ $OneMillion-Bench
02 | หลักการออกแบบที่สำคัญสี่ประการ
1. งานผู้เชี่ยวชาญที่มีความสมจริงสูงและมีมูลค่าสูง
เกณฑ์วัดเริ่มจากมูลค่าทางเศรษฐกิจ มีเป้าหมายเพื่อวัดความสามารถของโมเดลในการสร้างมูลค่าที่สามารถส่งมอบได้ในโลกแห่งความเป็นจริง คำถามแบบเปิดแต่ละข้อเชิญผู้เชี่ยวชาญอาวุโสที่ทำงานในสายงานจริง แบ่งขั้นตอนการทำงานจริงออกเป็นประเด็นการทดสอบแบบละเอียด (15-35 ประเด็นต่อข้อ รวมกว่า 7,000 ประเด็น) ครอบคลุมสถานการณ์ทั่วไปของผู้ที่มีประสบการณ์ 5-15 ปี มุ่งเน้นทดสอบความสามารถในการตัดสินใจระดับผู้เชี่ยวชาญในสถานการณ์เฉพาะ
2. การนำกลไก “หักคะแนนแบบไม่สมมาตร” มาใช้ เพื่อป้องกัน Reward Hacking
เพื่อหลีกเลี่ยงไม่ให้โมเดล “เดาถูก” ประเด็นการทดสอบโดยการยัดเยียดเนื้อหา เกณฑ์วัดได้กำหนดประเด็นหักคะแนนเพิ่มเติม เช่น ตรรกะการเขียน โครงสร้าง เป็นต้น คะแนนของประเด็นการทดสอบใช้การออกแบบแบบไม่สมมาตร (+10 ~ -20) โดยลงโทษข้อผิดพลาดที่ชัดเจนหรือร้ายแรงอย่างรุนแรงมากขึ้น ซึ่งใกล้เคียงกับความรู้สึกในการทำงานจริงมากขึ้น — การทำถูกอาจไม่ได้เพิ่มคะแนนมาก แต่การทำผิดมักมีต้นทุนสูง
3. ครอบคลุม 92 สาขาย่อย แยกบริบทภาษาจีนและภาษาอังกฤษ
งานถูกแบ่งย่อยเป็นขั้นตอนการทำงานจริงของ 92 ประเภทย่อยระดับที่สาม และแบ่งออกเป็นสองชุดย่อยหลัก: ภาษาจีน (CN) และระดับโลก (Global) การออกแบบคำถามคำนึงถึงกฎระเบียบ กระบวนการ และบริบทธุรกิจที่เป็นท้องถิ่นอย่างครบถ้วน เพื่ออธิบายความแตกต่างของความสามารถของโมเดลในสถานการณ์เฉพาะพื้นที่ได้อย่างแม่นยำยิ่งขึ้น
4. สร้างกระบวนการผลิตโดยผู้เชี่ยวชาญที่สามารถขยายขนาดได้และควบคุมคุณภาพได้
เพื่อให้มั่นใจในคุณภาพข้อมูล ทีมงานลงทุนอย่างมากในการสรรหา คัดเลือก และฝึกอบรมผู้เชี่ยวชาญ อัตราการผ่านโดยรวมเฉลี่ยของผู้เชี่ยวชาญต่ำกว่า 5% อัตราการผ่านการตรวจสอบคุณภาพขั้นสุดท้ายของคำถามอยู่ที่ 38.1% ใช้กระบวนการผลิตข้อมูลแบบ Pipeline โดยผู้เชี่ยวชาญ 3-4 คนทำงานร่วมกัน รวมถึงกลไกการตรวจสอบแบบ adversarial และกลไกการตัดสิน และควบคุมความยากของคำถามด้วยกลยุทธ์การตัดปลายทั้งสองด้าน เพื่อให้มั่นใจในคุณภาพและความสม่ำเสมอ

ตัวอย่างคำถาม
03 | การตีความผลการประเมิน: คะแนนโมเดล SOTA “ผ่านเกณฑ์” แต่ยังห่างจากการส่งมอบที่มั่นคง
ปัจจุบัน โมเดลที่แข็งแกร่งที่สุดมีอัตราการผ่านงานในเกณฑ์วัดเกิน 40% ซึ่งหมายความว่าในงานมูลค่าล้านดอลลาร์สหรัฐ ผลลัพธ์ที่สามารถส่งมอบได้มีมูลค่าประมาณ 500,000 ดอลลาร์สหรัฐ ในขณะที่ค่าใช้จ่าย API ในการทำงานเหล่านี้เพียงประมาณ 100 ดอลลาร์สหรัฐเท่านั้น นี่แสดงให้เห็นว่า AI ในงานวิชาชีพที่มีความยากสูงและมีมูลค่าสูง สามารถสร้างมูลค่าทางเศรษฐกิจที่สำคัญได้แล้ว

อัตราการผ่านเฉลี่ย คะแนนเฉลี่ย และมูลค่าทางเศรษฐกิจรวมที่โมเดลสามารถสร้างได้
ข้อสังเกตที่หนึ่ง: คะแนน “ผ่านเกณฑ์” แต่ยังห่างไกลจาก “ไว้วางใจได้”
หากดูเพียงคะแนนเฉลี่ย โมเดลชั้นนำอยู่ในช่วงที่ผ่านเกณฑ์ (60%+) โมเดลระดับสองส่วนใหญ่ก็เกิน 50% ซึ่งแสดงว่า AI สามารถครอบคลุมประเด็นสำคัญของงานวิชาชีพจำนวนมากได้ อย่างไรก็ตาม ในการทำงานจริง “ผ่านเกณฑ์โดยเฉลี่ย” มักหมายถึงจำเป็นต้องมีการแก้ไขงานใหม่ ดังนั้น เกณฑ์วัดจึงได้นำตัวชี้วัดที่ใกล้เคียงกับการปฏิบัติงานจริงมากขึ้นเข้ามา นั่นคือ อัตราการผ่าน (Pass Rate): คะแนนของแต่ละข้อต้องได้ 70% ขึ้นไป จึงจะถือว่า “ผ่าน” และสามารถส่งมอบได้
จากพื้นฐานนี้ มูลค่าทางเศรษฐกิจ (Economic Value) ในรายการอันดับจะไม่คำนวณตามสัดส่วนเชิงเส้นจากคะแนนเฉลี่ย แต่คำนวณอย่างเคร่งครัดตามเกณฑ์ “สามารถส่งมอบได้” มีเพียงงานที่ผ่านเท่านั้นที่ถูกนับรวมใน “เงินที่สามารถหาได้” อาจกล่าวได้ว่า คะแนนเฉลี่ยเหมือน “คะแนนสอบ” ส่วนอัตราการผ่านคือ “ใบรับรองการปฏิบัติงาน”
จากมุมมองของอัตราการผ่าน แม้แต่โมเดลอันดับหนึ่งก็ลดลงอย่างรวดเร็วเหลือ 43.5% นั่นคือมีงานเพียงน้อยกว่า 45% ที่ผ่านการตรวจรับ โมเดลระดับสองส่วนใหญ่อยู่ในช่วง 25%~30% กล่าวอีกนัยหนึ่งคือ ณ ปัจจุบันยังไม่มีโมเดลใดที่สามารถบรรลุมาตรฐานที่สามารถส่งมอบได้อย่างมั่นคงในงานเกินครึ่งหนึ่ง AI แม้จะสามารถส่งมอบงานที่มีมูลค่าสูงบางส่วนได้แล้ว แต่ยังมีระยะทางอีกยาวไกลกว่าจะสามารถทำงานวิชาชีพได้อย่างครอบคลุมและมั่นคง
ข้อสังเกตที่สอง: การค้นหาผ่านอินเทอร์เน็ต (Web Search) เป็นดาบสองคม
ฟังก์ชันการค้นหาผ่านอินเทอร์เน็ตมักสามารถเติมเต็มจุดอ่อนของโมเดลในข้อมูลเชิงข้อเท็จจริงได้อย่างมีนัยสำคัญ โดยเฉพาะปัญหาความทันสมัยในสาขาการเงินและเศรษฐกิจ รวมถึงสาขาที่มีการพัฒนามาตรฐานอย่างต่อเนื่อง เช่น การแพทย์ อุตสาหกรรม และกฎหมาย อย่างไรก็ตาม การใช้งานก็ต้องพิจารณาอย่างรอบคอบ ความสามารถในการคัดกรองและบูรณาการข้อมูลก็มีความสำคัญเช่นกัน
แต่มันก็อาจนำสัญญาณรบกวนและ “แหล่งที่มาของความผิดพลาดที่ดูมีอำนาจ” เข้ามาด้วย ซึ่งอาจทำให้ผลลัพธ์มีความผันผวนหรือแม้กระทั่งถดถอย จุดสนใจของการแข่งขันในขั้นต่อไปไม่ใช่ “มีหรือไม่มีความสามารถในการค้นหา” อีกต่อไป แต่เป็น “สามารถใช้การค้นหาได้อย่างมีประสิทธิภาพหรือไม่” — รวมถึงสามารถคัดกรองแหล่งข้อมูลที่น่าเชื่อถือ ทำการตรวจสอบข้ามแหล่งข้อมูล บูรณาการสายโซ่หลักฐานเข้ากับกระบวนการให้เหตุผล และรักษาความสอดคล้องทางตรรกะท่ามกลางสัญญาณรบกวนของข้อมูลได้หรือไม่
ข้อสังเกตที่สาม: การให้เหตุผลที่ซับซ้อนยังเป็นจุดอ่อนทั่วไป ทิศทางถูกต้องแต่ขาดรายละเอียดที่ปฏิบัติได้
โมเดลสามารถสร้างคำอธิบายที่ดูสอดคล้องกันในระดับผิวเผิน แต่ในงานที่ต้องการความเข้าใจเชิงลึก การอนุมานหลายขั้นตอน หรือการสำรวจในพื้นที่ความเป็นไปได้ที่กว้างใหญ่ ยังคงแสดงให้เห็นถึงความลึกที่ไม่เพียงพอและความผันผวนของความแม่นยำ กรณีตัวอย่างทั่วไป เช่น ปัญหาเชิงสำรวจที่เกี่ยวข้องกับวิศวกรรมซอฟต์แวร์และการเรียนรู้ของเครื่อง: งานประเภทนี้มักต้องการการสร้างกรอบการทำงานก่อน จากนั้นจึงทำการอนุมาน พิสูจน์แย้ง และแก้ไขย้อนกลับ ในขณะที่โมเดลมักข้ามขั้นตอนกลาง หรือใช้การบรรยายที่ดูสมเหตุสมผลแทนการให้เหตุผลที่เข้มงวด
นอกจากนี้ โมเดลมีแนวโน้มที่จะให้คำตอบที่มีทิศทางถูกต้องแต่ขาดรายละเอียดที่ปฏิบัติได้ ตัวอย่างเช่น ในสถานการณ์ทางการแพทย์ โมเดลอาจพูดคุยในลักษณะกว้างๆ แต่ละเลยองค์ประกอบทางคลินิกที่สำคัญ ในงานวิทยาศาสตร์ธรรมชาติ มักเกิดปัญหาการคาดการณ์สภาพการทดลองไม่เพียงพอ การพิจารณาข้อจำกัดไม่ละเอียด ความเข้าใจในสายโซ่กลไกตื้นเขิน เป็นต้น ความผิดพลาดประเภทนี้มีอันตรายอย่างมีนัยสำคัญในการนำไปปฏิบัติจริง เนื่องจากคำตอบ “ดูเหมือนถูกต้อง” แต่ขาดข้อมูลที่สามารถนำไปปฏิบัติได้
05 | ก้าวต่อไป — ผลักดันโมเดลไปสู่ขั้นตอน “สามารถส่งมอบได้”
จากมุมมองของปี 2024 AI อาจยังดูเหมือน “ของเล่นชิ้นใหญ่” แต่เมื่อมองไปถึงปี 2026 — หลังจากที่ OpenClaw นำ智能体สู่สาธารณะ — เราเห็นภาพอีกแบบหนึ่ง: AI สามารถส่งมอบงานวิชาชีพระดับมูลค่า 500,000 ดอลลาร์สหรัฐได้แล้ว การแข่งขันในขั้นต่อไปอยู่ที่การเพิ่มมูลค่านี้อย่างต่อเนื่อง และทำให้มันมั่นคงยิ่งขึ้น ตรวจสอบซ้ำได้มากขึ้น ควบคุมได้มากขึ้น เพื่อเปลี่ยนความก้าวหน้าขอบของความฉลาดโดยตรงเป็นผลิตภาพและรายได้
ความหมายของ $OneMillion-Bench ไม่ใช่ “การสร้างรายการอันดับอีกชุดหนึ่ง” แต่เป็นการวัดขอบเขตความสามารถของ “พนักงานดิจิทัล”: ในปัจจุบันและอนาคต คุณสามารถมอบหมายงานใดให้มันได้อย่างมั่นใจ?
ลิงก์อ้างอิงเพิ่มเติม:
Humanlaya: https://lab.humanlaya.com/
BIGAI: https://www.bigai.ai
xbench: https://xbench.org
M-A-P: https://huggingface.co/m-a-p
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25088
