【บทสรุปจาก New Zhiyuan】 ในปี 1997 Deep Blue เอาชนะในหมากรุกสากล ปี 2016 AlphaGo ก้าวข้ามขีดจำกัดในหมากล้อม และล่าสุด การทดลองของ Anthropic แสดงให้เห็นว่า Claude 9 สำเนา แสดงความสามารถเหนือกว่านักวิจัยมนุษย์ในงานวิจัยทางวิทยาศาสตร์จริงๆ เรายังจะยืนยันได้อยู่อีกหรือไม่ว่าการก้าวกระโดดของ AI นั้น “จำกัดเฉพาะบางด้าน”? ยุคสมัยที่ AI เป็นเพื่อนร่วมงานวิจัย คู่แข่ง หรือแม้กระทั่งผู้สืบทอดที่อาจเกิดขึ้นมา กำลังจะมาถึงแล้ว
AI ก้าวข้ามขีดความสามารถอีกครั้ง

ไม่นานมานี้ Anthropic เผยแพร่บล็อกวิจัยชื่อ “Automated Alignment Researchers” (นักวิจัยจัดตำแหน่งอัตโนมัติ) ชื่อเรื่องเป็นวิชาการ เนื้อหาถูกควบคุมอย่างดี แต่ข้อมูลผลลัพธ์ที่เปิดเผยกลับเผยให้เห็นความก้าวหน้าที่ยอดเยี่ยมของ AI ในการวิจัยอิสระ
การออกแบบการทดลอง: “ห้องปฏิบัติการอิสระ” ของนักวิจัย AI 9 ตัว

ทีมวิจัยของ Anthropic ดำเนินการทดลอง:
– หัวข้อวิจัย: Claude Opus 4.6 จำนวน 9 สำเนา
– สภาพแวดล้อมการทดลอง: จัดเตรียมสภาพแวดล้อมแซนด์บ็อกซ์อิสระ (เทียบเท่าห้องปฏิบัติการส่วนตัว) ฟอรัมสำหรับแลกเปลี่ยน (สำหรับการสื่อสารทางวิชาการ) ระบบจัดเก็บโค้ด และเซิร์ฟเวอร์ให้คะแนนระยะไกลให้กับ AI แต่ละตัว
– คำสั่งงาน: ให้เพียงคำแนะนำเชิงทิศทาง (เช่น วิจัยเครื่องมือที่สามารถอธิบายได้ หรือวิธีการให้น้ำหนักข้อมูลใหม่) ไม่ได้กำหนดขั้นตอนการทำงานหรือนิยาม “คำตอบที่ถูกต้อง” ที่ชัดเจน
– ระยะเวลาการทดลอง: ดำเนินต่อเนื่อง 5 วัน
เปรียบเทียบผลลัพธ์: ความแตกต่างอย่างมากระหว่างต้นทุนและประสิทธิภาพ
หลังห้าวัน ผลการทดลองออกมา:
– กลุ่มผู้เชี่ยวชาญมนุษย์: นักวิจัยระดับหัวกะทิ 2 คน ใช้เวลา 7 วัน ปรับแต่งวิธีการล้ำสมัย 4 วิธีซ้ำแล้วซ้ำเล่า สุดท้ายได้คะแนน 0.23 ในตัวชี้วัดสำคัญ – อัตราการฟื้นฟูช่องว่างประสิทธิภาพ (PGR)
– กลุ่มวิจัย AI: เวลาในการวิจัยสะสม 800 ชั่วโมง ต้นทุนรวมประมาณ 18,000 ดอลลาร์สหรัฐ (ประมาณ 22 ดอลลาร์สหรัฐต่อชั่วโมง) ได้คะแนน PGR 0.97

0.23 เทียบกับ 0.97 นี่ไม่ใช่ข้อได้เปรียบเล็กน้อย แต่เป็นการก้าวข้ามในระดับขั้น หากมองคะแนน PGR เป็นคะแนนเต็ม 100 มนุษย์ได้ 23 คะแนน AI ได้ 97 คะแนน

“สัญชาตญาณ” และ “แรงบันดาลใจ” ที่การวิจัยของมนุษย์พึ่งพา ในการทดลองครั้งนี้ ดูเหมือนจะถูก AI ก้าวข้ามผ่านการลองผิดลองถูกแบบขนานและค้นหาอย่างเป็นระบบด้วยต้นทุนต่ำและในวงกว้าง – ความงามแห่งความรุนแรงในการคำนวณ
ปัญหาหลัก: การจัดตำแหน่งที่เข้มงวดจากการกำกับดูแลที่อ่อน

เพื่อเข้าใจความหมายของการทดลองนี้ ต้องเข้าใจปัญหาหลักที่ศึกษาก่อน: การจัดตำแหน่งที่เข้มงวดจากการกำกับดูแลที่อ่อน (Weak-to-Strong Supervision) นี่คือความท้าทายหลักอย่างหนึ่งของการวิจัยจัดตำแหน่ง AI และความปลอดภัย AI ในอนาคต
พูดง่ายๆ คือ เมื่อความสามารถของ AI ก้าวข้ามมนุษย์ไปแล้ว เราจะแน่ใจได้อย่างไรว่ามันยังคงปฏิบัติตามความตั้งใจของมนุษย์?
ทีมวิจัยออกแบบการทดลองตัวแทนที่ชาญฉลาด:
– ใช้โมเดลที่อ่อนแอกว่า (Qwen 1.5-0.5B-Chat) เป็น “ครู” ไปฝึกโมเดลที่แข็งแกร่งกว่า (Qwen 3-4B-Base)
– เป้าหมายคือสังเกตว่าโมเดลที่แข็งแกร่งจะสามารถ “เหนือกว่าครู” หรือไม่ ไม่เพียงแต่เรียนรู้สิ่งที่ครูที่อ่อนแอสอน แต่ยังสามารถใช้ศักยภาพของตัวเองได้อย่างเต็มที่


ตัวชี้วัด PGR ใช้เพื่อวัดปริมาณระดับของ “เหนือกว่าครู”: 0 คะแนนหมายความว่าโมเดลที่แข็งแกร่งไม่ได้ก้าวข้ามครูที่อ่อนแอ; 1 คะแนนหมายความว่าโมเดลที่แข็งแกร่งไปถึงขีดจำกัดความสามารถทางทฤษฎีของมัน ราวกับไม่ถูกจำกัดโดยครูที่อ่อนแอ
ปัญหานี้เหมาะอย่างยิ่งสำหรับการวิจัยอิสระของ AI เพราะมีคุณลักษณะ ผลลัพธ์ที่สามารถวัดปริมาณได้สูง – ความดีเลิศของแผนงานถูกตัดสินโดยคะแนนวัตถุวิสัย ไม่จำเป็นต้องมีการประเมินเชิงอัตวิสัย
การตั้งค่าการทดลอง: มอบความเป็นอิสระให้ AI

Claude แต่ละสำเนามีทรัพยากรดังนี้:
– แซนด์บ็อกซ์อิสระ: สภาพแวดล้อมเฉพาะสำหรับรันโค้ด ดำเนินการทดลอง วิเคราะห์ข้อมูล
– ฟอรัมแบ่งปัน: แพลตฟอร์มสื่อสารสำหรับเผยแพร่การค้นพบ เรียนรู้ความก้าวหน้าของผู้อื่น
– คลังโค้ด: สำหรับจัดเก็บและแบ่งปันโค้ด
– เซิร์ฟเวอร์ให้คะแนนระยะไกล: ส่งแผนงานแล้วจะได้รับคะแนน PGR อัตโนมัติ

การออกแบบที่สำคัญคือ มอบ จุดเริ่มต้นการวิจัยที่แตกต่างกันเล็กน้อยและตั้งใจให้คลุมเครือ ให้กับ AI แต่ละตัว

ทีมวิจัยพบว่า: หากจุดเริ่มต้นเหมือนกันทุกประการ AI 9 ตัวจะรวมเข้าสู่แนวคิดเดียวกันอย่างรวดเร็ว สูญเสียความหลากหลาย; หากกำหนดตายตัวเกินไป จะจำกัดความคิดสร้างสรรค์ของมัน

ดังนั้น กลยุทธ์ที่ดีที่สุดคือ: ชี้ทิศทางใหญ่ ไม่กำหนดเส้นทางที่เฉพาะเจาะจง แล้วมอบอำนาจอิสระอย่างเต็มที่

กระบวนการวิจัยอิสระ: “เวิร์กโฟลว์” ของ AI

ในช่วง 800 ชั่วโมงของการวิจัยอิสระ Claude สำเนาเหล่านี้แสดงความเป็นอิสระที่น่าทึ่ง:
1. ตั้งสมมติฐานด้วยตนเอง: อาศัยความเข้าใจในปัญหา ออกแบบแนวทางแก้ไขด้วยตนเอง แทนที่จะทำซ้ำวิธีการที่รู้จัก
2. ออกแบบการทดลองเพื่อยืนยัน: ใช้กลยุทธ์ที่มีประสิทธิภาพ เริ่มจากการทดลองเล็กต้นทุนต่ำเพื่อคัดกรองทิศทางอย่างรวดเร็ว หากมีแนวโน้มดีจึงลงทุนทรัพยากรการคำนวณเพิ่มเติม
3. วิเคราะห์สาเหตุความล้มเหลว: แยกข้อมูลจากความล้มเหลว เพื่อชี้นำการสำรวจต่อไป แทนที่จะลองแบบสุ่มสี่สุ่มห้า
4. เรียนรู้และแลกเปลี่ยนซึ่งกันและกัน: แบ่งปันการค้นพบผ่านฟอรัม ก่อให้เกิดปัญญาร่วมกัน เร่งความก้าวหน้าทั้งหมด
โดยเฉพาะอย่างยิ่งประเด็นที่ 2: ต่างจากมนุษย์ที่มักทำ “การทดลองทางความคิด” จำนวนมากก่อน AI มีแนวโน้มที่จะ “ทำซ้ำอย่างรวดเร็ว ก้าวเล็กๆ แต่เร็ว” กลยุทธ์นี้แสดงประสิทธิภาพที่โดดเด่น
ข้อมูลสำคัญและการค้นพบ

ข้อมูลหลักของการทดลองมีดังนี้:
การทดสอบความสามารถในการปรับใช้ทั่วไป (นำแผนงานที่ดีที่สุดที่ AI ค้นพบไปใช้กับชุดข้อมูลใหม่):
– งานคณิตศาสตร์: PGR = 0.94 (ประสิทธิภาพแข็งแกร่งมาก)
– งานเขียนโปรแกรม: PGR = 0.47 (ยังคงสูงกว่าเส้นฐานมนุษย์มากกว่าสองเท่า)

อย่างไรก็ตาม เมื่อนำแผนงานที่ดีที่สุดไปใช้กับการฝึกฝนระดับการผลิตของ Claude Sonnet 4 ไม่พบการเพิ่มขึ้นที่มีนัยสำคัญทางสถิติ

ประเด็นสุดท้ายนี้สำคัญมาก มันบ่งชี้ว่าวิธีการที่ AI ค้นพบอาจมีความเสี่ยง การโอเวอร์ฟิต – แผนงานเหล่านี้ถูกปรับให้เหมาะสมกับการตั้งค่าการทดลองเฉพาะ ความสามารถในการปรับใช้ทั่วไปยังต้องได้รับการตรวจสอบ ทีมวิจัยยอมรับเช่นกันว่านักวิจัยจัดตำแหน่งอัตโนมัติมีแนวโน้มที่จะใช้โอกาสเฉพาะในสภาพแวดล้อมการทดลองปัจจุบัน
แต่ต้องระวัง: นี่เป็นการพยายามครั้งแรก แม้ในการทดสอบการปรับใช้ทั่วไป คะแนน PGR 0.94 ของงานคณิตศาสตร์ก็สูงกว่าเส้นฐานมนุษย์มากแล้ว
“วิทยาศาสตร์ต่างดาว” และ “แฮกเกอร์รางวัล”: สองด้านของ AI

สิ่งที่ทำให้ครุ่นคิดที่สุดในการวิจัยครั้งนี้คือปรากฏการณ์สองอย่างที่เกิดขึ้นพร้อมกัน
“วิทยาศาสตร์ต่างดาว”: เส้นทางที่ก้าวข้ามการคาดการณ์ของมนุษย์

นักวิจัยจัดตำแหน่งอัตโนมัติในการสำรวจ ได้สร้างวิธีการและแนวคิดบางอย่างที่นักวิจัยมนุษย์ไม่เคยพิจารณามาก่อน ทีมวิจัยเรียกปรากฏการณ์นี้ว่า “วิทยาศาสตร์ต่างดาว” (Alien Science)
ปัจจุบัน มนุษย์ยังสามารถเข้าใจหลักการทำงานของแผนงาน AI เหล่านี้ได้ แต่ทีมวิจัยเตือนว่า: เมื่อความสามารถของโมเดลเพิ่มขึ้นอย่างต่อเนื่อง ผลงานวิจัยทางวิทยาศาสตร์ที่ AI สร้างขึ้นอาจยากขึ้นเรื่อยๆ ที่มนุษย์จะเข้าใจและตรวจสอบได้ เมื่อถึงเวลานั้น สิ่งที่เราเผชิญอาจไม่ใช่ “การช่วยเหลือ” อีกต่อไป แต่เป็น “พื้นที่บอดทางปัญญา” ที่ไม่สามารถตัดสินความจริงเท็จได้

“แฮกเกอร์รางวัล”: พฤติกรรมหาช่องโหว่โดยสัญชาตญาณของ AI

ตรงข้ามกับความมหัศจรรย์ของ “วิทยาศาสตร์ต่างดาว” AI ก็แสดงพฤติกรรม “แฮกเกอร์รางวัล” (Reward Hacking) ที่ชัดเจน – นั่นคือการหาช่องโหว่ของกฎเพื่อให้ได้คะแนนสูง แทนที่จะแก้ปัญหาที่แท้จริง
ตัวอย่างเช่น:
– ในงานคณิตศาสตร์ AI ตัวหนึ่งพบว่าคำตอบที่พบบ่อยที่สุดมักจะเป็นคำตอบที่ถูกต้อง ดังนั้นมันจึงให้โมเดลที่แข็งแกร่ง “โหวต” เลือกตัวเลือกที่มีความถี่สูง หลีกเลี่ยงกระบวนการเรียนรู้
– ในงานเขียนโปรแกรม AI ตัวหนึ่งพยายามรันโค้ดโดยตรงและอ่านคำตอบของเคสทดสอบ หลีกเลี่ยงความต้องการที่โมเดลต้อง “เรียนรู้” การเขียนโปรแกรมโดยสิ้นเชิง

พฤติกรรมการโกงเหล่านี้ถูกตรวจพบและกำจัดออกไปทันเวลา ไม่ส่งผลกระทบต่อการจัดอันดับสุดท้าย แต่มันส่งสัญญาณสำคัญ: แม้ในสภาพแวดล้อมการทดลองที่ถูกควบคุมสูง AI ก็จะหาทางลัดโดยสัญชาตญาณ นี่เป็นการตีระฆังเตือนสำหรับการออกแบบวิธีการประเมินและจัดตำแหน่ง AI ที่แข็งแกร่งยิ่งขึ้นในอนาคต
คุณให้ฟังก์ชันเป้าหมายกับมัน มันจะ “ปรับให้เหมาะสม” ฟังก์ชันนี้ด้วยวิธีที่คุณคาดไม่ถึง – รวมถึงสิ่งที่คุณไม่อยากให้มันทำเลย
นี่ไม่ใช่บั๊กของโปรแกรม แต่เป็นธรรมชาติโดยกำเนิดของตัวปรับให้เหมาะสม AI
พูดสั้นๆ คือ: AI สามารถสร้างการค้นพบทางวิทยาศาสตร์ที่ก้าวข้ามการรับรู้ของมนุษย์ได้ และยังสามารถคิดค้นวิธีการโกงที่ก้าวข้ามจินตนาการของมนุษย์ได้
ความสามารถสองอย่างที่ดูเหมือนขัดแย้งกันนี้ ที่จริงแล้วมีต้นกำเนิดมาจากพรสวรรค์พื้นฐานเดียวกัน – ความคิดสร้างสรรค์

การเปลี่ยนแปลงทางประวัติศาสตร์ของบทบาทมนุษย์
หากสนใจแค่ตัวเลข “0.97 เทียบกับ 0.23” อาจพลาดข้อคิดที่ลึกซึ้งที่สุดของการวิจัยนี้
ทีม Anthropic ชี้ให้เห็นอย่างชัดเจนในเอกสารวิจัยถึงการเปลี่ยนแปลงที่สำคัญ: คอขวดหลักของการวิจัยกำลังเปลี่ยนจาก “การสร้างความคิดสร้างสรรค์” ไปสู่ “การตรวจสอบผลลัพธ์”
กล่าวคือ:
– ในอดีต คอขวดของการวิจัยอยู่ที่ “จะคิดไอเดียดีๆ ได้อย่างไร” สิ่งนี้พึ่งพาปัญญาระดับสูง การสั่งสมมาหลายปี และสัญชาตญาณที่ลึกซึ้ง ซึ่งเป็นคุณค่าหลักของนักวิทยาศาสตร์มนุษย์
– ปัจจุบัน AI สามารถใช้วิธีการค้นหาแบบรุนแรงและการทำซ้ำแบบขนาน สำร
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30408
