หลิน จวิ้นหยางออกเสียงครั้งแรกหลังลาออกจาก Alibaba Qianwen: การเปลี่ยนผ่านความคิดจาก ‘ยุคโมเดลการอนุมาน’ สู่ ‘ยุคเอเจนต์อัจฉริยะ’

2026年3月27日 am10:34 • ข่าวสารอุตสาหกรรม AI • 200 views

หลิน จวิ้นหยางออกเสียงต่อสาธารณะเป็นครั้งแรกหลังจากลาออกจาก Alibaba Qwen เขาไม่ได้ตอบคำถามถึงรายละเอียดการลาออกหรือประกาศทิศทางในอนาคต แต่กลับเขียนบทความยาวเพื่อเจาะลึกการเปลี่ยนกระบวนทัศน์ในแวดวงปัญญาประดิษฐ์ จาก “การคิดในยุคโมเดลการให้เหตุผล” สู่ “การคิดในยุคเอเจนต์อัจฉริยะ”

หลิน จวิ้นหยางออกเสียงครั้งแรกหลังลาออกจาก Alibaba Qianwen: การเปลี่ยนผ่านความคิดจาก 'ยุคโมเดลการอนุมาน' สู่ 'ยุคเอเจนต์อัจฉริยะ'

บทความทั้งบทมุ่งเน้นไปที่ทิศทางอนาคตของเทคโนโลยีและ AI แต่ระหว่างบรรทัดก็เผยให้เห็นถึงการทบทวนเส้นทางเทคโนโลยีที่ผ่านมาของ Qwen ด้วยเช่นกัน

เขายอมรับอย่างตรงไปตรงมาว่า: “เราไม่ได้ทำทุกอย่างถูกต้องทั้งหมด” (We did not get everything right)

ทีม Qwen เคยมีแนวคิดที่ทะเยอทะยาน: รวมสองโหมดคือ “การคิด” (thinking) และ “การปฏิบัติตามคำสั่ง” (instruct) เข้าไว้ในโมเดลเดียว Qwen3 คือ “หนึ่งในความพยายามที่ชัดเจนที่สุดต่อสาธารณะ” ในทิศทางนี้ โดยได้นำเสนอโหมดการคิดแบบผสมผสาน

อย่างไรก็ตาม ในมุมมองของหลิน จวิ้นหยางในปัจจุบัน ความพยายามนี้ยังไม่น่าพอใจนัก เขาคิดว่าผลลัพธ์สุดท้ายของโมเดลคือ: “การคิด” กลายเป็นเรื่องยาวเหยียดและลังเลสงสัย ส่วน “การปฏิบัติตามคำสั่ง” ก็ไม่กระชับรวดเร็ว เชื่อถือได้น้อยลง และมีต้นทุนการให้เหตุผลที่สูงขึ้น

ในมุมมองของเขา การรวมที่ประสบความสำเร็จอย่างแท้จริง ไม่ใช่การยัดเยียด “บุคลิก” สองแบบเข้าไปในโมเดลเช็คพอยต์เดียวกันแบบง่ายๆ แต่คือการทำให้โมเดลมี สเปกตรัมความพยายามในการให้เหตุผลที่ต่อเนื่อง

สำหรับอนาคต เขาได้ให้ข้อสรุปที่สำคัญ: ภารกิจของยุคสองปีที่ผ่านมา ซึ่งมีแกนกลางคือ “การคิดแบบให้เหตุผล” (Reasoning Thinking) ได้สิ้นสุดลงแล้ว

o1 ของ OpenAI และ DeepSeek-R1 ของ深度求索 (DeepSeek) ได้พิสูจน์แล้วว่า ความสามารถในการให้เหตุผลที่แข็งแกร่งสามารถถูกสร้างซ้ำและขยายขนาดได้ผ่านการฝึกฝน สิ่งนี้สอนให้ทั้งอุตสาหกรรมรู้จักความเข้าใจที่สำคัญ:

เพื่อให้การเรียนเสริมแรง (Reinforcement Learning) บนโมเดลภาษามีประสิทธิภาพ จำเป็นต้องมีสัญญาณตอบรับที่ มีความแน่นอนสูงและสามารถขยายขนาดได้

ตั้งแต่ต้นปี 2025 อุตสาหกรรมเกือบทั้งหมดมุ่งเน้นศึกษาชุดปัญหาเดียวกัน: จะทำให้โมเดลใช้เวลาให้เหตุผลมากขึ้นได้อย่างไร จะฝึกโมเดลให้รางวัลที่แข็งแกร่งขึ้นได้อย่างไร จะควบคุมความเข้มข้นของการให้เหตุผลได้อย่างแม่นยำอย่างไร

ตอนนี้ คำถามที่สำคัญที่สุดคือ: ขั้นต่อไปคืออะไร?

คำตอบของหลิน จวิ้นหยางคือ: การคิดแบบเอเจนต์อัจฉริยะ (Agentic Thinking) ซึ่งคือวิธีการคิดที่คอยปรับแผนงานอย่างต่อเนื่องระหว่างการโต้ตอบกับสิ่งแวดล้อม

เขาได้ระบุความแตกต่างหลักระหว่างการคิดแบบเอเจนต์อัจฉริยะและการคิดแบบให้เหตุผล:

การตัดสินใจว่าเมื่อใดควรหยุดคิดและเริ่มลงมือทำ: โมเดลการให้เหตุผลจะจบลงเมื่อให้คำตอบออกมา แต่เอเจนต์อัจฉริยะจำเป็นต้องสลับสับเปลี่ยนระหว่างการคิดและการกระทำอย่างต่อเนื่อง
การเลือกว่าจะเรียกใช้เครื่องมือใด และด้วยลำดับใด: นี่ไม่ใช่การเรียกใช้ฟังก์ชันแบบง่ายๆ แต่เป็นปัญหาการวางแผนแบบไดนามิก
การย่อยข้อมูลรบกวนและการสังเกตบางส่วนจากสิ่งแวดล้อม: โลกแห่งความเป็นจริงจะไม่ให้ข้อมูลตอบรับที่สมบูรณ์แบบและครบถ้วน
การปรับแผนหลังจากล้มเหลว แทนที่จะเริ่มต้นใหม่ทั้งหมด: มีความสามารถในการปรับเปลี่ยนและปรับปรุงบนพื้นฐานของแผนเดิม
การรักษาความต่อเนื่องข้ามบทสนทนาหลายรอบและการเรียกใช้เครื่องมือหลายครั้ง: การรักษาสถานะและเป้าหมายให้เป็นหนึ่งเดียวในลำดับการโต้ตอบที่ซับซ้อน

เขาสรุปแก่นกลางของการเปลี่ยนแปลงนี้ด้วยประโยคเดียว:

จาก “คิดให้นานขึ้น” สู่ “คิดเพื่อการลงมือทำ”

ในมุมมองของหลิน จวิ้นหยาง ความสามารถในการแข่งขันในอนาคตไม่เพียงมาจากโมเดลที่ดีกว่าเท่านั้น แต่ยังมาจาก การออกแบบสิ่งแวดล้อมที่ดีกว่า วิศวกรรมการควบคุม (harness) ที่แข็งแกร่งขึ้น และการประสานงานร่วมกันระหว่างเอเจนต์อัจฉริยะหลายตัว

นี่คือกระบวนการวิวัฒนาการจากการฝึกโมเดล สู่การฝึกเอเจนต์อัจฉริยะ และไปสู่การฝึกระบบ

(ต่อไปนี้คือการแปลและเรียบเรียงจากต้นฉบับของหลิน จวิ้นหยาง)

จาก “การคิดแบบให้เหตุผล” สู่ “การคิดแบบเอเจนต์อัจฉริยะ”

สองปีที่ผ่านมา ได้เปลี่ยนโฉมวิธีการประเมินโมเดลและความคาดหวังที่มีต่อโมเดลของเราโดยสิ้นเชิง

o1 ของ OpenAI แสดงให้เห็นว่า “การคิด” สามารถกลายเป็นความสามารถระดับพลเมืองชั้นหนึ่ง — ความสามารถที่คุณสามารถฝึกฝนโดยเฉพาะและเปิดให้ผู้ใช้ใช้งานได้

DeepSeek-R1 พิสูจน์ให้เห็นว่า การฝึกหลัง (post-training) แบบให้เหตุผลสามารถถูกสร้างซ้ำและขยายขนาดได้สำเร็จ นอกเหนือจากห้องปฏิบัติการดั้งเดิม

OpenAI อธิบาย o1 ว่าเป็นโมเดล “คิดก่อนตอบ” ที่ฝึกผ่านการเรียนเสริมแรง ในขณะที่深度求索 (DeepSeek) กำหนดตำแหน่งของ R1 ว่าเป็นโมเดลการให้เหตุผลโอเพนซอร์สที่สามารถแข่งขันกับ o1 ได้

ช่วงเวลานั้นมีความสำคัญอย่างยิ่ง

แต่เมื่อเข้าสู่ต้นปี 2025 อุตสาหกรรมได้ทุ่มเทความพยายามส่วนใหญ่ไปที่การคิดแบบให้เหตุผล: จะทำให้โมเดลใช้ทรัพยากรคอมพิวเตอร์มากขึ้นเมื่อให้เหตุผลได้อย่างไร จะฝึกด้วยสัญญาณรางวัลที่แข็งแกร่งขึ้นได้อย่างไร จะเปิดเผยหรือควบคุมความเข้มข้นเพิ่มเติมของการให้เหตุผลเหล่านี้ได้อย่างไร

คำถามในตอนนี้คือ: ขั้นต่อไปคืออะไร?

ฉันคิดว่าคำตอบคือ การคิดแบบเอเจนต์อัจฉริยะ — การคิดเพื่อการลงมือทำ การคิดระหว่างการโต้ตอบกับสิ่งแวดล้อม และการอัปเดตแผนงานอย่างต่อเนื่องตามข้อมูลตอบรับจากโลกแห่งความเป็นจริง

1. o1 และ R1 สอนอะไรเราจริงๆ

ข้อคิดสำคัญจากโมเดลการให้เหตุผลคลื่นแรกคือ:

หากต้องการใช้การเรียนเสริมแรงบนโมเดลภาษาในระดับที่ขยายขนาดได้ เราต้องการสัญญาณตอบรับที่มีความแน่นอนสูง มีเสถียรภาพ และสามารถขยายขนาดได้

สาขาที่สามารถตรวจสอบได้ เช่น คณิตศาสตร์ โค้ด ตรรกะ ฯลฯ กลายเป็นสิ่งสำคัญยิ่ง เนื่องจากสถานการณ์เหล่านี้สามารถให้สัญญาณรางวัลที่แข็งแกร่งกว่าการกำกับดูแลความชอบทั่วไปมาก ทำให้การเรียนเสริมแรงสามารถปรับให้เหมาะสมกับ “ความถูกต้อง” แทนที่จะแค่ไล่ตาม “สิ่งที่ดูสมเหตุสมผล”

ในเวลาเดียวกัน โครงสร้างพื้นฐานกลายเป็นสิ่งสำคัญอย่างยิ่ง เมื่อโมเดลถูกฝึกให้มีความสามารถในการให้เหตุผลบนเส้นทาง (trajectory) ที่ยาวขึ้น การเรียนเสริมแรงก็ไม่ใช่แค่โมดูลเสริมเล็กน้อยของการปรับแต่งภายใต้การดูแล (supervised fine-tuning) อีกต่อไป มันกลายเป็นปัญหาด้านวิศวกรรมระบบ คุณต้องการการสุ่มตัวอย่างเส้นทางขนาดใหญ่ การตรวจสอบที่มีปริมาณงานสูง การอัปเดตนโยบายที่เสถียร และกลไกการสุ่มตัวอย่างที่มีประสิทธิภาพ

ดังนั้น การเกิดขึ้นของโมเดลการให้เหตุผล จึงเป็นทั้งเรื่องราวเกี่ยวกับสถาปัตยกรรมโมเดล และเป็นเรื่องราวเกี่ยวกับโครงสร้างพื้นฐานในระดับเดียวกัน

2. ปัญหาที่แท้จริงไม่เคยเป็นแค่ “การรวมการคิดและการปฏิบัติตามคำสั่ง”

ต้นปี 2025 ในใจของหลายคนในทีม Qwen มีภาพแผนงานอันยิ่งใหญ่

ระบบในอุดมคติควรจะรวมสองโหมดคือ “การคิด” และ “การปฏิบัติตามคำสั่ง” เข้าไว้ด้วยกัน มันควรสนับสนุนความเข้มข้นของการให้เหตุผลที่สามารถปรับได้ คล้ายกับการตั้งค่าระดับต่ำ กลาง สูง ที่ดีไปกว่านั้น โมเดลควรจะสามารถอนุมานปริมาณการให้เหตุผลที่เหมาะสมจากคำสั่งและบริบทได้เอง — ตัดสินใจได้เองว่าจะตอบตรงๆ เมื่อใด จะคิดเพิ่มอีกหน่อยเมื่อใด และจะทุ่มทรัพยากรการคำนวณจำนวนมากเมื่อใดกับปัญหาที่ยากจริงๆ

จากมุมมองเชิงแนวคิด ทิศทางนี้ถูกต้อง Qwen3 คือหนึ่งในความพยายามที่ชัดเจนที่สุดต่อสาธารณะในทิศทางนี้ มันได้นำเสนอ “โหมดการคิดแบบผสมผสาน” ซึ่งสนับสนุนทั้งพฤติกรรมการคิดและไม่คิดภายในตระกูลโมเดลเดียว เน้นย้ำถึงงบประมาณการคิดที่สามารถควบคุมได้ และออกแบบไปป์ไลน์การฝึกหลังสี่ขั้นตอนซึ่งรวมถึงขั้นตอน “การหลอมรวมโหมดการคิด”

อย่างไรก็ตาม การรวมพูดง่ายแต่ทำได้ยาก ความยากที่แท้จริงอยู่ที่ข้อมูล

เมื่อผู้คนพูดถึงการรวมการคิดและการปฏิบัติตามคำสั่ง มักจะนึกถึงความเข้ากันได้ด้านโมเดลก่อน: เช็คพอยต์หนึ่งจุดสามารถสนับสนุนสองโหมดได้หรือไม่ เทมเพลตการสนทนาชุดหนึ่งสามารถสลับระหว่างสองโหมดได้หรือไม่ สถาปัตยกรรมการบริการสามารถเปิดเผยสวิตช์ควบคุมที่ถูกต้องได้หรือไม่

แต่ปัญหาที่ลึกซึ้งกว่าคือ การกระจายข้อมูลและเป้าหมายพฤติกรรมที่อยู่เบื้องหลังสองโหมดมีความแตกต่างโดยพื้นฐาน

ในความพยายามที่จะสร้างสมดุลระหว่างการรวมโมเดลกับการยกระดับคุณภาพและความหลากหลายของข้อมูลการฝึกหลัง “เราไม่ได้ทำทุกอย่างถูกต้องทั้งหมด”

ในการทำซ้ำ (iteration) ทีมยังได้สังเกตอย่างใกล้ชิดถึงวิธีการที่ผู้ใช้ใช้งานสองโหมดนี้จริงๆ:
* โมเดลปฏิบัติตามคำสั่งที่แข็งแกร่ง มักจะได้รับรางวัลจาก ความกระชับตรงไปตรงมา รูปแบบที่เป็นมาตรฐาน ความหน่วงต่ำ — โดยเฉพาะในงานองค์กรที่ทำซ้ำๆ เป็นชุดใหญ่ เช่น การเขียนใหม่ การทำหมายเหตุ การสนับสนุนเทมเพลต การดึงข้อมูลที่มีโครงสร้าง คำถามตอบธุรการ (QA) ด้านปฏิบัติการ
* โมเดลการคิดที่แข็งแกร่ง จะได้รับรางวัลจาก การใช้โทเค็นมากขึ้นกับปัญหาที่ยาก รักษาการให้เหตุผลขั้นกลางที่ต่อเนื่อง สำรวจเส้นทางทางเลือก และสงวนการคำนวณภายในที่เพียงพอเพื่อยกระดับอัตราความถูกต้องสุดท้ายอย่างแท้จริง

รูปแบบพฤติกรรมทั้งสองแบบนี้ดึงรั้งซึ่งกันและกัน หากข้อมูลที่ใช้ในการรวมไม่ได้ถูกวางแผนมาอย่างดี ผลลัพธ์มักจะเป็นความธรรมดาทั้งสองฝ่าย: พฤติกรรม “การคิด” กลายเป็นเสียงรบกวน 臃肿 (บวมน้ำ) หรือไม่เด็ดขาด พฤติกรรม “การปฏิบัติตามคำสั่ง” กลายเป็นไม่กระชับรวดเร็ว เชื่อถือได้น้อยลง และมีต้นทุนสูงกว่าที่ผู้ใช้เชิงพาณิชย์ต้องการจริงๆ

ในทางปฏิบัติ การแยกทั้งสองออกจากกันยังคงน่าสนใจกว่ามาก ในครึ่งหลังของปี 2025 หลังจากเฟรมเวิร์กแบบผสมผสานดั้งเดิมของ Qwen3 ทีมได้เผยแพร่เวอร์ชันอัปเดต Instruct และ Thinking ที่แยกออกจากกันอย่างอิสระ ในการปรับใช้เชิงพาณิชย์ ลูกค้าจำนวนมากยังคงต้องการโมเดลปฏิบัติตามคำสั่งที่มีปริมาณงานสูง ต้นทุนต่ำ และควบคุมได้สูงสำหรับการดำเนินการแบบเป็นชุด สำหรับสถานการณ์เหล่านี้ ประโยชน์ของการรวมไม่ชัดเจน การแยกสายผลิตภัณฑ์ออกจากกันทำให้ทีมสามารถมุ่งเน้นแก้ไขความท้าทายด้านข้อมูลและการฝึกของแต่ละโหมดได้อย่างมีสมาธิมากขึ้น

ห้องปฏิบัติการอื่นเลือกเส้นทางที่แตกต่าง:
* Anthropic สนับสนุนแนวคิดโมเดลแบบบูรณาการอย่างเปิดเผย: Claude 3.7 Sonnet เปิดตัวในฐานะโมเดลการให้เหตุผลแบบผสมผสาน ผู้ใช้สามารถเลือกการตอบสนองปกติหรือการคิดแบบขยายได้ ผู้ใช้ API สามารถตั้งค่างบประมาณการคิดได้ Anthropic ระบุชัดเจนว่าพวกเขาเชื่อว่าการให้เหตุผลควรเป็นความสามารถที่บูรณาการ ไม่ใช่โมเดลอิสระ
* GLM-4.5 ก็กำหนดตำแหน่งตัวเองเป็นโมเดลการให้เหตุผลแบบผสมผสานที่มีทั้งโหมดคิดและไม่คิด รวมความสามารถด้านการให้เหตุผล การเขียนโปรแกรม และเอเจนต์อัจฉริยะเข้าไว้ด้วยกัน
* DeepSeek ต่อมาก็เดินไปในทิศทางคล้ายกันใน “Think & Non-Think” แบบผสมผสานของ V3.1

ปัญหาสำคัญคือ การรวมนี้เป็น แบบอินทรีย์ (organic) หรือไม่ หากการคิดและการปฏิบัติตามคำสั่งเพียงแค่ถูกยัดเยียดเข้าไปในเช็คพอยต์เดียวกัน แต่ยังคงทำงานเหมือนบุคลิกสองแบบที่ถูกต่อกันอย่างงุ่มง่าม ประสบการณ์ผลิตภัณฑ์ก็ยังคงไม่เป็นธรรมชาติ

การรวมที่ประสบความสำเร็จอย่างแท้จริง ต้องการ สเปกตรัมต่อเนื่องของความเข้มข้นในการให้เหตุผลที่ลื่นไหล โมเดลควรสามารถแสดงระดับความเข้มข้นในการให้เหตุผลหลายระดับ และในอุดมคติแล้วควรมีความสามารถในการเลือกปรับตัวได้ สิ่งนี้ชี้ไปยัง กลยุทธ์เกี่ยวกับการจัดสรรพลังการคำนวณ ไม่ใช่สวิตช์เปิดปิดง่ายๆ แบบไม่คิดก็คิด

3. ทำไมทิศทางของ Anthropic จึงเป็นการแก้ไขที่ประโยชน์

การแสดงออกต่อสาธารณะของ Anthropic รอบ Claude 3.7 และเวอร์ชันต่อๆ มามีความระมัดระวังและเป็นไปตามความเป็นจริง

พวกเขาเน้นย้ำถึงการบูรณาการการให้เหตุผล งบประมาณการคิดที่ผู้ใช้ควบคุมได้ งานในโลกแห่งความเป็นจริง คุณภาพโค้ด และความสามารถในการใช้เครื่องมือระหว่างกระบวนการคิดแบบขยาย Claude 3.7 ถูกกำหนดตำแหน่งเป็นโมเดลการให้เหตุผลแบบผสมผสานที่มีงบประมาณควบคุมได้ Claude 4 ก้าวไปไกลกว่านั้น โดยอนุญาตให้กระบวนการให้เหตุผลสลับกับการใช้เครื่องมือได้ ในเวลาเดียวกัน

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง