จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร

2026年2月20日 am7:40 • การอนุมานโมเดลขนาดใหญ่ • 176 views

หากมองชีวิตเป็นเกม MMO แบบเปิดขนาดใหญ่ ณ เวลาที่เซิร์ฟเวอร์เกมเพิ่งอัปเดตครั้งใหญ่ กฎก็เปลี่ยนไป

นับตั้งแต่ ChatGPT ปรากฏตัวอย่างน่าตื่นตาตื่นใจในปี 2022 โลกได้เปลี่ยนแปลงไปอย่างลึกซึ้ง ในเวลาเพียงไม่กี่ปี ปัญญาประดิษฐ์กำลังก้าวจากการเป็นเครื่องจักรทางสถิติที่เลียนแบบภาษา สู่ระบบการคิดที่เข้าใจและจัดการตรรกะ หากโมเดลภาษาขนาดใหญ่ยุคแรกดูคล้ายกับการปะติดปะต่อคำในพื้นที่ความน่าจะเป็นหลายมิติ โมเดลการให้เหตุผลรุ่นใหม่ก็เริ่มเรียนรู้ที่จะหยุดคิดสักครู่ก่อนสร้างผลลัพธ์ ประเมินเหตุผลและชั่งน้ำหนักความเป็นไปได้ในความเงียบ

อีริค จาง อดีตรองประธานบริษัทหุ่นยนต์ 1X Technologies และนักวิจัยที่ทำงานอย่างแข็งขันในพื้นที่ตัดกันระหว่างหุ่นยนต์และปัญญาทั่วไป ชี้ไว้ในบทความล่าสุดของเขาว่า: การเปลี่ยนแปลงที่แท้จริงไม่ได้อยู่ที่ว่าโมเดลจะพูดอะไร แต่อยู่ที่พวกมันเริ่มคิดอย่างเป็นระบบ ในมุมมองของเขา เมื่อการให้เหตุผลถูกทำให้เป็นอัตโนมัติ ขยายขนาด และถูกมองเป็นทรัพยากรพลังการคำนวณที่สามารถจัดสรรได้ สังคมมนุษย์จะต้องเผชิญไม่ใช่แค่การเพิ่มประสิทธิภาพ แต่เป็นการปรับโครงสร้างเกี่ยวกับผลิตภาพ รูปแบบองค์กร และแม้แต่โครงสร้างอำนาจ

จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร

การเปลี่ยนแปลงที่สำคัญที่สุดคือ: ตอนนี้เครื่องจักรค่อนข้างเก่งในการเขียนโปรแกรมและคิดแล้ว

เหมือนกับหลายคน ในสองเดือนที่ผ่านมาผมเกือบจะใช้ Claude Code แบบจมดิ่ง ต้องเผชิญกับความเป็นจริงอย่างต่อเนื่องว่า: ผมไม่จำเป็นต้องเขียนโค้ดด้วยตัวเองอีกต่อไป เพื่อปูพื้นฐานและเรียนรู้วิธีการเขียนโปรแกรมใหม่ภายใต้ความสามารถเต็มรูปแบบของเอเจนต์เขียนโปรแกรมอัจฉริยะสมัยใหม่ ผมได้สร้าง AlphaGo ขึ้นจากศูนย์ (โค้ดรีโพสิทอรีจะเปิดตัวเร็วๆ นี้) ผมไม่เพียงแต่ให้ Claude ช่วยเขียนโค้ดโครงสร้างพื้นฐานและความคิดวิจัย แต่ยังให้มันตั้งสมมติฐาน สรุปผล และแนะนำว่าควรทำการทดลองอะไรต่อไป กระบวนการมีดังนี้:

สร้างโฟลเดอร์การทดลองที่สมบูรณ์ในตัวเอง โดยใช้คำนำหน้าตามเวลาบวกกับชื่อที่อธิบายได้
เขียนขั้นตอนการทดลองเป็นสคริปต์ Python ไฟล์เดียวและรันโดยตรง
บันทึกผลลัพธ์กลางและข้อมูลในไดเรกทอรีย่อย data/ และ figures/ โดยใช้รูปแบบที่แยกวิเคราะห์ง่าย (เช่น CSV ที่สามารถโหลดด้วย pandas ได้โดยตรง)
สังเกตผลการทดลองและสรุปผล ชี้ให้เห็นว่าปัญหาใดชัดเจนแล้ว และปัญหาอะไรยังไม่ทราบ

ผลลัพธ์สุดท้ายของการทดลองคือไฟล์ report.md

นี่คือตัวอย่างที่ผมใช้จริง:

ผมยังสามารถให้ Claude รันการทดลองตามลำดับ เพื่อปรับพารามิเตอร์ให้เหมาะสมแบบต่อเนื่อง:

ต่างจากระบบปรับพารามิเตอร์อัตโนมัติรุ่นก่อน (เช่น Vizier ของ Google ที่ใช้ Gaussian process bandit ค้นหาในพื้นที่พารามิเตอร์ที่ผู้ใช้กำหนดไว้ล่วงหน้า) เอเจนต์เขียนโปรแกรมสมัยใหม่สามารถแก้ไขโค้ดเองได้โดยตรง พื้นที่การค้นหาของพวกมันไม่เพียงแต่ไม่จำกัด แต่ยังสามารถไตร่ตรองว่าผลการทดลองสอดคล้องกันหรือไม่ เสนอทฤษฎีที่อธิบายผลลัพธ์เหล่านี้ และทำนายตามทฤษฎีนั้นก่อนจะไปตรวจสอบ เกือบจะในชั่วข้ามคืน เอเจนต์เขียนโปรแกรม + การใช้เครื่องมือคอมพิวเตอร์ ได้วิวัฒนาการเป็นนักวิทยาศาสตร์อัตโนมัติ

วิศวกรรมซอฟต์แวร์เป็นเพียงจุดเริ่มต้น สิ่งที่น่าตกใจจริงๆ คือ ตอนนี้เรามีเครื่องจักรคิดแบบทั่วไป ที่สามารถใช้คอมพิวเตอร์แก้ปัญหาดิจิทัลระยะสั้นได้เกือบทุกประเภท

อยากให้โมเดลรันชุดการทดลองวิจัยเพื่อปรับปรุงสถาปัตยกรรมของคุณ? ไม่มีปัญหา
อยากสร้างเว็บเบราว์เซอร์ที่สมบูรณ์จากศูนย์? ใช้เวลาพอสมควร แต่ทำได้
อยากพิสูจน์ปัญหาคณิตศาสตร์ที่ยังแก้ไม่ได้? ทำได้ แถมยังไม่เรียกร้องเครดิตอีกด้วย
อยากให้เอเจนต์ AI ปรับปรุง CUDA kernel ของตัวเองให้ทำงานเร็วขึ้น? ฟังดูน่ากลัวหน่อย แต่ก็ทำได้

ความสามารถในการดีบักและแก้ปัญหาที่ดี มาจากความสามารถในการให้เหตุผล และความสามารถเหล่านี้ก็ปลดล็อกความสามารถในการมุ่งมั่นสู่เป้าหมายอย่างเหนียวแน่น นี่คือเหตุผลที่เอเจนต์ REPL โค้ดถูกนำมาใช้อย่างรวดเร็ว — พวกมันดื้อรั้นอย่างยิ่งในการไล่ตามเป้าหมาย และมีความสามารถในการค้นหาสูงมาก

เรากำลังเข้าสู่ยุคทอง: ปัญหาวิทยาศาสตร์คอมพิวเตอร์เกือบทั้งหมด ดูเหมือนจะจัดการได้ — อย่างน้อยก็สามารถได้ค่าประมาณที่มีประโยชน์มากสำหรับฟังก์ชันที่คำนวณได้ใดๆ ผมจะไม่บอกว่าความซับซ้อนในการคำนวณถูกละเลยได้แล้ว แต่ถ้าย้อนมองความก้าวหน้าในทศวรรษที่ผ่านมา: หมากล้อม, การพับโปรตีน, การสร้างดนตรีและวิดีโอ, การพิสูจน์คณิตศาสตร์อัตโนมัติ เคยถูกมองว่าเป็นไปไม่ได้ในเชิงคำนวณ แต่ตอนนี้ตกอยู่ในขอบเขตพลังการคำนวณที่นักศึกษาปริญญาเอกสามารถจ่ายได้ สตาร์ทอัพ AI กำลังใช้ LLM สำรวจกฎฟิสิกส์ใหม่ ค้นพบกลยุทธ์การลงทุนใหม่ โดยมีตัวตรวจสอบเพียงเล็กน้อยและพลังการคำนวณไม่กี่ร้อยเมกะวัตต์

เมื่ออ่านบทนำของบทความวิจัยของ Scott Aaronson ด้วยความเป็นจริงในวันนี้ จะพบว่า: ตอนนี้มีหลายห้องปฏิบัติการที่กำลังค้นหาการพิสูจน์ปัญหาสำคัญรางวัลมิลเลนเนียมอย่างจริงจัง

ผมจงใจเขียนให้ตื่นเต้นเกินไปเล็กน้อย เพื่อให้คุณคิดไม่ใช่แค่ว่า AI ทำอะไรได้ในตอนนี้ แต่คิดถึงความเร็วของความก้าวหน้า และนี่หมายถึงอะไรสำหรับวิวัฒนาการของความสามารถในอีก 24 เดือนข้างหน้า แน่นอนคุณสามารถชี้ให้เห็นจุดที่โมเดลยังทำผิดพลาด และปฏิเสธทั้งหมดนี้ว่าเป็นความคลั่งไคล้ AI แต่ในอีกด้านหนึ่ง — หินกำลังคิดจริงๆ แล้ว

ในไม่ช้า ผู้ช่วยเขียนโปรแกรมจะทรงพลังถึงขั้นที่สามารถสร้างระบบดิจิทัลใดๆ ได้อย่างง่ายดาย ไม่นานหลังจากนั้น วิศวกรเพียงแค่ชี้ AI ไปที่เว็บไซต์ของบริษัท SaaS ใดๆ แล้วพูดว่า: สร้างมันใหม่ให้หมด — ฟรอนต์เอนด์ แบ็กเอนด์ อินเทอร์เฟซ API บริการทั้งหมด ให้ผมมา

การให้เหตุผลคืออะไร?

เพื่อคาดการณ์ว่าความสามารถในการคิดและให้เหตุผลจะไปทางไหน ก่อนอื่นต้องเข้าใจว่าโมเดลภาษาขนาดใหญ่ที่มีความสามารถในการคิดในปัจจุบันพัฒนามาอย่างไร

การให้เหตุผล หรือการอนุมานเชิงตรรกะ หมายถึงกระบวนการที่เริ่มจากชุดสมมติฐานภายใต้กฎที่กำหนด แล้วได้ข้อสรุปใหม่

การให้เหตุผลสามารถแบ่งคร่าวๆ ได้เป็นสองประเภท: การให้เหตุผลแบบนิรนัย และการให้เหตุผลแบบอุปนัย

การให้เหตุผลแบบนิรนัยเน้นที่การได้ข้อสรุปที่ต้องเป็นจริงภายใต้สมมติฐานที่กำหนด ผ่านกฎตรรกะที่เข้มงวด ตัวอย่างเช่น รวมข้อเท็จจริงที่ว่าสัตว์เลี้ยงลูกด้วยนมทุกชนิดมีไต และม้าทุกตัวเป็นสัตว์เลี้ยงลูกด้วยนม ก็สามารถสรุปได้ว่าม้าทุกตัวมีไต ในเกมเช่น XO คุณยังสามารถหาวิธีการเดินที่ชนะได้โดยการแจกแจงกระดานที่เป็นไปได้ทั้งหมดในอนาคตและการตอบสนองของคู่ต่อสู้

ก่อนยุคโมเดลภาษาขนาดใหญ่ ระบบการให้เหตุผลเชิงสัญลักษณ์เคยพยายามสร้างฐานข้อมูลความรู้สามัญ sense บันทึกข้อเท็จจริงพื้นฐานที่เป็นที่ยอมรับร่วมกันของความเป็นจริง แล้วเพิ่มความสัมพันธ์ใหม่ๆ ในกราฟความรู้ผ่านการค้นหาแบบนิรนัย อย่างไรก็ตาม ระบบประเภทนี้ไม่ประสบความสำเร็จในที่สุด เพราะโลกแห่งความเป็นจริงเองก็ยุ่งเหยิงและเต็มไปด้วยความไม่แน่นอน: ม้าตัวที่กล่าวถึงก่อนหน้านี้อาจมีไตเพียงข้างเดียว แต่ก็ยังเป็นสัตว์เลี้ยงลูกด้วยนม เมื่อสมมติฐานบางข้อไม่เป็นจริงทั้งหมด โซ่ตรรกะทั้งหมดก็พังทลาย

คุณอาจคิดว่าการให้เหตุผลแบบนิรนัยจะมีประโยชน์มากในสาขาที่มีตรรกะบริสุทธิ์ เช่น คณิตศาสตร์หรือเกม แต่การให้เหตุผลแบบนิรนัยเพียงอย่างเดียวก็ยากที่จะขยายขนาดเช่นกัน ในเกม XO คุณสามารถหาการเดินที่ดีที่สุดได้โดยการแจกแจงทั้งหมด เพราะมีเกมที่แตกต่างกันเพียง 255,168 เกมเท่านั้น แต่สำหรับเกมกระดานเช่นหมากรุกหรือหมากล้อม จำนวนเกมที่เป็นไปได้นั้นมหาศาลจนไม่สามารถค้นหาแบบแจกแจงทั้งหมดได้

การให้เหตุผลแบบอุปนัยเน้นที่การตัดสินใจเชิงความน่าจะเป็น สูตรเบย์ส์

เป็นเครื่องมือที่ใช้บ่อยที่สุด

ตัวอย่างเช่น:

คุณสามารถจินตนาการการสร้างกราฟความรู้ ซึ่งสำหรับประพจน์ A และ B ใดๆ จะเก็บค่าความน่าจะเป็นแบบมีเงื่อนไข

ไว้ แล้วใช้กฎของเบย์ส์อย่างต่อเนื่อง เพื่อให้เหตุผลเกี่ยวกับตัวแปรคู่ใหม่ X และ Y แต่ปัญหาคือ การอนุมานที่แม่นยำในเครือข่ายเบย์ส์เช่นนี้เป็น NP-hard เพราะคุณต้องพิจารณาค่าที่เป็นไปได้ทั้งหมดของตัวแปรกลางทั้งหมดในเส้นทางระหว่าง X กับ Y — ซึ่งคล้ายกับที่พื้นที่สถานะในหมากล้อมระเบิดแบบเอกซ์โพเนนเชียลและไม่สามารถค้นหาแบบแจกแจงทั้งหมดได้ นี่พิสูจน์อีกครั้งว่าการให้เหตุผลเชิงตรรกะล้วนๆ มีต้นทุนการคำนวณที่ทำไม่ได้ ในความเป็นจริงมักต้องพึ่งวิธีการแยกส่วนหรือการสุ่มตัวอย่างที่ชาญฉลาด

แม้จะใช้อัลกอริธึมการอนุมานที่มีประสิทธิภาพ เครือข่ายเบย์ส์ในทางปฏิบัติยังเผชิญกับปัญหาสำคัญอีกประการหนึ่ง: ความน่าจะเป็นเล็กๆ จำนวนมากจะคูณกัน ส่งผลให้มีความเชื่อมั่นต่ำและคลุมเครือต่อทุกสิ่ง ยิ่งมีขั้นตอนการให้เหตุผลมาก ผลลัพธ์ก็ยิ่งคลุมเครือมากขึ้น ในระบบขับขี่อัตโนมัติ หากคุณมองการรับรู้ การสร้างแบบจำลองฉาก การวางแผนเส้นทาง และผลลัพธ์การควบคุมเป็นตัวแปรสุ่มในเครือข่ายความน่าจะเป็นขนาดยักษ์ และเผยแพร่ความไม่แน่นอนไปตามโซ่ทั้งหมด สุดท้ายคุณจะได้ระบบการตัดสินใจที่ระมัดระวังอย่างยิ่ง

และดูเหมือนว่ามนุษย์ไม่ได้จัดการกับความไม่แน่นอนโดยการคำนวณความน่าจะเป็นของส่วนประกอบทั้งหมดทีละส่วนแล้วคูณกัน ด้วยเหตุนี้ การสร้างแบบจำลองความน่าจะแบบ end-to-end ด้วยเครือข่ายประสาทเทียมจึงมีพลังการคำนวณสูงมาก: พวกมันประมาณกระบวนการกำจัดตัวแปรและการอนุมานร่วมทั้งหมดในการส่งต่อไปข้างหน้าครั้งเดียว

AlphaGo

AlphaGo เป็นหนึ่งในระบบแรกๆ ที่รวมการค้นหาแบบนิรนัย (Deductive Search) กับการให้เหตุผลแบบอุปนัยด้วยการเรียนรู้เชิงลึก (Deep Learned Inductive Inference) ทำให้ปัญหาสามารถแก้ไขได้

ขั้นตอนนิรนัยของมันเรียบง่ายมาก: มีการเคลื่อนไหวที่ถูกกฎอะไรบ้าง? กระดานจะเป็นอย่างไรหลังจากวางหมาก?

ขั้นตอนอุปนัยก็กระชับเช่นกัน: ใช้เครือข่ายนโยบายค้นหาในพื้นที่ที่มีแนวโน้มมากที่สุดของต้นไม้เกม และใช้เครือข่ายมูลค่าทำนายโอกาสชนะผ่าน “การกวาดสายตาแบบสัญชาตญาณ” ไปที่กระดาน เครือข่ายนโยบายลดความกว้างของต้นไม้ในระหว่างการขยาย ในขณะที่เครือข่ายมูลค่าลดความลึกของต้นไม้

แม้ว่าวิธีที่ AlphaGo รวมการให้เหตุผลกับสัญชาตญาณจะถึงระดับที่เหนือมนุษย์ แต่การประยุกต์ใช้จำกัดอยู่ที่การคำนวณสองปริมาณที่พึ่งพากฎที่เรียบง่ายและตายตัวของหมากล้อมอย่างสูง:
1. ใครมีแนวโน้มชนะมากกว่า
2. การเดินแบบใดที่เพิ่มโอกาสชนะให้สูงสุด
นี่หมายความว่าเทคนิคเหล่านี้ไม่สามารถนำไปใช้กับโดเมนที่คลุมเครือและยืดหยุ่นเช่น “ภาษา” ได้โดยตรง

นี่นำไปสู่ปัญหาหลักในปัจจุบัน: โมเดลภาษาขนาดใหญ่แบบให้เหตุผล (Reasoning LLMs) รวมการให้เหตุผลแบบนิรนัยและอุปนัยได้อย่างยืดหยุ่นเช่นนี้อย่างไร จนสามารถพูดคุยเกี่ยวกับแนวคิดที่ซับซ้อนเช่นสัตว์เลี้ยงลูกด้วยนม ม้า และไตได้?

ยุคของพรอมต์ LLM

ก่อนปี 2022 LLM ทำได้แย่มากในโจทย์คณิตศาสตร์และการให้เหตุผลเชิงตรรกะ พวกมันมักจะ “ทำไปเรื่อย” ตามสัญชาตญาณ และลำบากในการดำเนินการนิรนัยตรรกะแบบโซ่ยาวหรือการคำนวณเชิงกลที่แม่นยำ (เช่น เลขคณิต) ตัวอย่างเช่น ถ้าให้ GPT-3 บวกเลขห้าหลักสองตัว มันมีโอกาสล้มเหลวสูง

ในปี 2022 การปรากฏของ “โซ่ความคิด” (หรือ “มาคิดกันทีละขั้น”) เป็นสัญญาณแรกๆ ที่ LLM สามารถสร้าง “ความคิดกลาง” ได้ ซึ่งช่วยปรับปรุงประสิทธิภาพของโมเดลในงานแก้ปัญหาบางอย่างได้อย่างมีนัยสำคัญ หลังจากนั้น วิศวกรเริ่มค้นหากลยุทธ์พรอมต์ที่ดีขึ้นอย่างแข็งขัน

ปี 2023 มี “เทคนิคแฮ็กพรอมต์” ทั้งรุ่นหนึ่ง ผู้คนพยายามชี้นำ LLM ผ่านพรอมต์ที่ออกแบบมาอย่างดี หรือใช้ LLM อื่นตรวจสอบเนื้อหาที่สร้างขึ้นผ่านการสะท้อนตนเอง แต่ในท้ายที่สุด การประเมินอย่างเข้มงวดแสดงให้เห็นว่าเทคนิคเหล่านี้ไม่ได้ทำให้โมเดลฉลาดขึ้นอย่างพื้นฐาน

ข้อจำกัดของวิศวกรรมพรอมต์

สามารถมองวิศวกรรมพรอมต์เป็นการ “ค้นหาวงจรโชคดี” — วงจรการให้เหตุผลเหล่านี้ที่เกิดขึ้นโดยบังเอิญระหว่างการฝึกก่อน อาจถูกกระตุ้นโดยพรอมต์เฉพาะเช่น “มาคิดกันทีละขั้น” อย่างไรก็ตาม เนื่องจากปัญหาอัตราส่วนการผสมข้อมูลฝึก เป็นต้น วงจรการให้เหตุผลใน GPT-4 และโมเดลรุ่นก่อนหน้านั้นอ่อนแอเกินไป จุดคอขวดที่แท้จริงอยู่ที่วิธีการฝึกวงจรการให้เหตุผลที่แข็งแกร่งขึ้น ไม่ใช่แค่การหาวิธีกระตุ้นวงจรที่มีอยู่ที่อ่อนแอ

แนวทางต่อเนื่องตามธรรมชาติคือ: ความสามารถในการให้เหตุผลสามารถฝึกฝนได้อย่างชัดเจนหรือไม่ แทนที่จะเพียงแค่กระตุ้นผ่านพรอมต์? การกำกับดูแลตามผลลัพธ์ (Outcome Supervision) จะให้รางวัลเมื่อโมเดลได้คำตอบที่ถูกต้อง แต่กระบวนการให้เหตุผลกลางที่สร้างขึ้นมัก

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง