มัสก์ทุ่ม 1 หมื่นล้านซื้อข้อมูล: จุดสำคัญของการแข่งขันโมเดล AI เขียนโค้ด ทำไมต้องสร้างผลิตภัณฑ์โค้ดดิ้งของตัวเอง?

1 hour ago • ข่าวสารอุตสาหกรรม AI • 11 views

ต้นเดือน คู่แข่งสำคัญสองรายของ OpenAI อย่าง Anthropic และ Elon Musk ในที่สุดก็ยอมทิ้งความขัดแย้งและจับมือเป็นพันธมิตรอย่างเป็นทางการ ก่อนหน้านี้ ความสัมพันธ์ระหว่างทั้งสองฝ่ายตึงเครียด: ในเดือนกุมภาพันธ์ปีนี้ Musk โพสต์ในบัญชี X กล่าวหา Anthropic ว่า “ตื่นตัว” “ชั่วร้าย” “ต่อต้านมนุษย์” และ “เกลียดชังอารยธรรม”

มัสก์ทุ่ม 1 หมื่นล้านซื้อข้อมูล: จุดสำคัญของการแข่งขันโมเดล AI เขียนโค้ด ทำไมต้องสร้างผลิตภัณฑ์โค้ดดิ้งของตัวเอง?

เมื่อมองย้อนกลับไป การโจมตีครั้งนี้ไม่ได้เป็นเพียงเพราะนิสัยส่วนตัวของ Musk แต่เป็นเพราะการกระทำบางอย่างของ Anthropic ไปแตะเส้นตายของเขา ก่อนหน้านี้ ภายใน xAI ใช้ Cursor ทำงาน แต่เมื่อต้นปี พนักงานพบว่าโมเดล Claude ไม่สามารถใช้งานได้ในบัญชีองค์กร Cursor ของ xAI โดยฉับพลัน ในขณะนั้น Wu Yuhuai ผู้ร่วมก่อตั้งที่ยังอยู่ที่ xAI เขียนในจดหมายถึงพนักงานทุกคนว่า “Anthropic อัปเดตนโยบาย โดยกำหนดให้ Cursor ไม่สามารถให้บริการเรียกใช้โมเดล Claude แก่คู่แข่งหลักได้” ต่อมา ทีมผู้ร่วมก่อตั้งทั้งหมดของ xAI ถูกยุบ และองค์กรได้รวมเข้ากับ SpaceX กลายเป็น “SpaceXAI” แต่ในตอนนั้น Wu Yuhuai ได้เขียนประโยคหนึ่งที่ชวนให้คิดในจดหมายว่า “นี่เป็นทั้งข่าวร้ายและข่าวดี ผลผลิตของเราจะได้รับผลกระทบ แต่นี่ก็ผลักดันให้เราพัฒนาผลิตภัณฑ์และโมเดลสำหรับเขียนโค้ดของเราเอง” เหตุใดผู้บริหารระดับสูงของ xAI จึงคิดว่าการสร้างผลิตภัณฑ์เขียนโค้ดด้วยตนเองมีความสำคัญอย่างยิ่ง?

การพัฒนาที่ตามมาเป็นที่รู้กันดี: ทีมผู้ร่วมก่อตั้งทั้งหมดของ xAI ลาออก Musk โกรธจัดและใช้ “พลังเงิน” กับ Cursor ปลายเดือนที่แล้ว SpaceX และ Cursor ประกาศร่วมกันว่าจะเริ่มความร่วมมือเชิงกลยุทธ์ที่ไม่เคยมีมาก่อนในการฝึกอบรมโมเดล AI ด้านการเขียนโปรแกรมและความรู้ SpaceX ยังได้รับสิทธิ์ในการซื้อ Cursor ในราคา 60,000 ล้านดอลลาร์ หรือจ่ายค่าความร่วมมือ 10,000 ล้านดอลลาร์ สังเกตคำสำคัญ “การเขียนโปรแกรม” ซึ่งจะถูกกล่าวถึงอีกครั้งในภายหลัง

เมื่อเร็วๆ นี้ ฉันได้ชมวิดีโอของ Theo Browne นักลงทุน早期ของ Cursor นักวิจารณ์ Anthropic และผู้ก่อตั้ง T3 เดิมทีคิดว่าเขาจะโจมตีการกระทำของ Anthropic และ SpaceX แต่กลับพบการวิเคราะห์ที่แปลกใหม่แต่สมเหตุสมผลอย่างยิ่งเกี่ยวกับความร่วมมือ SpaceX+Cursor: ไม่พูดถึงการซื้อกิจการ 60,000 ล้าน แต่พูดถึงค่าความร่วมมือ 10,000 ล้านเท่านั้น — Theo กล่าวในวิดีโอว่าเขาคิดว่า “แม้จะแค่แลกเปลี่ยนข้อมูลผู้ใช้ของ Cursor 10,000 ล้านนี้ก็คุ้มค่าแล้ว”

แล้วมันคือข้อมูลอะไร? ถ้าคุณดูวิดีโอของ Theo เขาจะอธิบายให้ชัดเจน แต่เพื่อประหยัดเวลา เราจะสรุปสั้นๆ: การสนทนาของเรากับ AI เป็นแบบโต้ตอบ — คุณถาม/เสนอความต้องการ มันให้คำตอบ; coding agent ก็เช่นกัน เพียงแต่ส่งคืนเป็นโค้ด

การสนทนาคุณภาพสูงหนึ่งครั้ง รวมถึงพรอมต์ผู้ใช้ การคิดของโมเดล การวางแผนของ agent การส่งออกโค้ด การตรวจสอบ — ทั้งหมดนี้รวมกันเป็น Agentic Loop ที่สมบูรณ์ — กลายเป็นข้อมูลฝึกอบรมที่มีมูลค่าสูง จากนั้นป้อนกลับไปยังโมเดลเพื่อการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ซึ่งจะช่วยปรับปรุงประสิทธิภาพของโมเดลในสถานการณ์จริง

สิ่งที่ Cursor มี และ SpaceX ต้องการ ก็คือข้อมูลเหล่านี้ ข้อมูลเหล่านี้มาจากไหน? คำตอบง่ายๆ: ในฐานะผู้ผลิตโมเดล แหล่งที่มาโดยตรงที่สุดของข้อมูลคุณภาพสูงนี้คือผลิตภัณฑ์ coding agent ที่พัฒนาขึ้นเอง — เช่น Claude Code ของ Anthropic, Codex ของ OpenAI, Kimi Code ของ Kimi ตอนนี้คุณคงเข้าใจแล้วว่าทำไมหลังจากถูก Anthropic “แบน” Wu Yuhuai จึงเขียนในจดหมายถึงพนักงานทุกคนเกี่ยวกับการพัฒนาผลิตภัณฑ์และโมเดลเขียนโค้ดของ xAI เอง xAI ในตอนนั้นมองเห็นแล้วว่า: หากไม่มีผลิตภัณฑ์เขียนโค้ดของตัวเอง ก็จะไม่มีข้อมูลการเรียนรู้แบบเสริมกำลังคุณภาพสูง หากไม่มีข้อมูลคุณภาพสูง ก็ไม่สามารถฝึกโมเดลเขียนโค้ดที่มีความสามารถในการใช้งานจริงได้ แม้จะดูรุนแรงไปหน่อย แต่เราสามารถสรุปได้ว่า: หากผู้ผลิตโมเดลต้องการสร้างโมเดลการเขียนโปรแกรมที่ใช้งานได้จริง การสร้างผลิตภัณฑ์ coding agent ด้วยตนเองเป็นหนทางเดียว

โมเดลภาษาขนาดใหญ่ (LLM) เปรียบเสมือนลูกแก้ววิเศษ ฝึกด้วยข้อมูลจากทั่วทั้งอินเทอร์เน็ต ดูเหมือนจะตอบคำถามทุกอย่างได้ แต่ก็ไม่ได้ให้คำตอบคุณภาพสูงในทุกปัญหา การฝึกด้วยรายการโค้ดนับพันล้านรายการบน GitHub ก็สามารถฝึกโมเดลเขียนโค้ดได้เช่นกัน นี่คือตรรกะของ “การเรียนรู้ผลลัพธ์” ซึ่งก็ไม่มีปัญหา — เพราะผลลัพธ์ของงานเขียนโค้ดสามารถตรวจสอบได้: โค้ดทำงานได้หรือไม่ การทดสอบผ่านหรือไม่ ผลลัพธ์อยู่ตรงนั้น แต่กระบวนการที่นำไปสู่ผลลัพธ์นั้นเป็นห่วงโซ่ที่ซับซ้อนซึ่งเกี่ยวข้องกับการตัดสินใจหลายขั้นตอน การแก้ไขข้อผิดพลาด และการจัดแนวความตั้งใจ การยอมรับ การปฏิเสธ การเติมเต็ม การเลิกทำ การถามต่อของผู้ใช้แต่ละครั้ง หรือแม้แต่การด่าทอเมื่อโมเดลทำผิดซ้ำแล้วซ้ำเล่า — ล้วนเป็นสัญญาณกระบวนการในห่วงโซ่นี้

การเรียนรู้แบบเสริมกำลังมีสองวิธีในการกำกับดูแล: การกำกับดูแลผลลัพธ์ (Outcome Supervision) ซึ่งสนใจเพียงว่าสุดท้ายแล้วทำงานได้หรือไม่ แต่การกำกับดูแลผลลัพธ์สามารถก่อให้เกิดปรากฏการณ์ “Reward Hacking” — โมเดลอาจเขียนโค้ดที่ซ้ำซ้อน เปราะบาง หรือมีช่องโหว่ทางตรรกะเพื่อให้ทำงานได้ แต่เนื่องจากการทดสอบผ่าน โมเดลจึงเข้าใจผิดว่ามันเรียนรู้ถูกต้องแล้ว อีกวิธีหนึ่งคือการกำกับดูแลกระบวนการ (Process Supervision) ซึ่งให้คะแนนแต่ละขั้นตอนบนเส้นทางการอนุมาน สัญญาณกระบวนการดังกล่าวสามารถเกิดขึ้นได้ในสภาพแวดล้อมการทำงานของ coding agent เท่านั้น คลัง GitHub มีเพียงผลลัพธ์ แม้จะดูประวัติการคอมมิตหรือ PR ก็ไม่พบสัญญาณกระบวนการที่มีประสิทธิภาพ ในกรณีที่ขาดสัญญาณกระบวนการที่มีประสิทธิภาพและได้มาโดยอิสระ ผู้ผลิตโมเดลบางรายใช้วิธีการ “กลั่น” (Distillation) ซึ่งทุกคนน่าจะรู้กันดีแล้ว ตรรกะของการกลั่นนั้นง่าย: เมื่อให้อินพุตเดียวกัน โมเดลครู (teacher model) ส่งออกอะไร โมเดลนักเรียน (student model) ก็เรียนรู้ที่จะส่งออกตามนั้น แต่ผ่านการกลั่น แม้จะได้ห่วงโซ่ความคิด (Chain of Thought) ก็ตาม สิ่งที่ได้มาก็เหมือนผลลัพธ์มากกว่า ไม่ใช่การกระจายความน่าจะเป็นภายในของโมเดลครูที่ถูกกลั่น เมื่อนักเรียนเบี่ยงเบนไปจากเส้นทางของครูในระหว่างการอนุมาน แม้เพียง token เดียวที่ไม่ตรงกัน ก็อาจเกิดการเบี่ยงเบนได้

เบื้องหลังนี้คือข้อจำกัดพื้นฐานของการเรียนรู้แบบเสริมกำลัง: ทฤษฎีบทการไล่ระดับนโยบาย (Policy Gradient Theorem) กำหนดว่าตัวอย่างที่ใช้ในการปรับให้เหมาะสมควรถูกสร้างขึ้นโดยโมเดลที่กำลังถูกปรับให้เหมาะสมในปัจจุบัน ข้อมูลประเภทนี้เรียกว่าข้อมูล on-policy ในขณะที่การกลั่นโมเดลของผู้อื่น หรือการใช้ข้อมูลที่สร้างขึ้นในผลิตภัณฑ์ของผู้อื่นเพื่อฝึกโมเดลของตนเอง ล้วนเป็นข้อมูล off-policy โมเดลสามารถเรียนรู้สิ่งต่างๆ ได้ แต่ไม่สามารถเรียนรู้ข้อมูลการกระจายความน่าจะเป็นภายในของโมเดลครูได้ และบริษัทอย่าง Cursor ซึ่งเป็นผลิตภัณฑ์ coding agent เอง ก็มีข้อมูลฝึกอบรมที่แท้จริง มีประสิทธิภาพ และมีคุณภาพสูงที่สุด ผลิตภัณฑ์ Cursor เอง ก็เป็นสนามฝึกที่ดีที่สุดสำหรับโมเดลเขียนโค้ดในสภาพแวดล้อมจริง เราสามารถพิสูจน์ตรรกะนี้ได้จากเหตุการณ์ “พลิกคว่ำ” ของ Cursor เมื่อต้นปี

ผู้อ่าน APPSO น่าจะจำได้ว่า ต้นปี Cursor เปิดตัว Composer 2 ซึ่งอ้างว่าเป็น “โมเดลการเขียนโปรแกรมเฉพาะทางรุ่นถัดไป” รายงานทางเทคนิคค่อนข้างอนุรักษ์นิยม เรียกมันว่าโมเดลใหม่ โดยไม่ได้ให้ข้อมูลพื้นฐานของโมเดลที่แน่นอน

ผลปรากฏว่าไม่นานนัก ชาวเน็ตพบ ID โมเดลของ Kimi ในโค้ดสาธารณะ ภาพหน้าจอแพร่กระจายไปทั่วชุมชนนักพัฒนา บีบให้ Lee Robinson รองประธานของ Cursor ต้องออกมาชี้แจง: “Composer 2 เริ่มต้นจากฐานโอเพนซอร์สจริงๆ โมเดลสุดท้ายใช้พลังคำนวณจากฐานเพียงประมาณ 1/4 ส่วนที่เหลืออีก 3/4 เราฝึกเอง” ไม่กี่ชั่วโมงต่อมา Aman Sanger ผู้ร่วมก่อตั้ง Cursor ก็โพสต์ขอโทษ: “การไม่พูดถึงฐาน Kimi ตั้งแต่แรกเป็นความผิดพลาด”

ห้าวันต่อมา Cursor ปล่อยรายงานทางเทคนิค Composer 2 ฉบับสมบูรณ์ ซึ่งแสดงให้เห็นว่าฐานคือ Kimi K2.5 โดยผู้ให้อนุญาตคือ Firworks AI ขั้นตอนโดยประมาณคือฝึกบน K2.5 จากนั้นทำการเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่ต่อไป แต่ประเด็นสำคัญคือ RL ของ Composer 2 ทำงานในเซสชัน Cursor จริง โดยใช้เครื่องมือและ harness เดียวกันกับการปรับใช้ในการผลิต Cursor เรียกกระบวนการนี้ว่า “Real-time RL” ซึ่งหมายถึงการปรับใช้ checkpoint ของโมเดลโดยตรงในสภาพแวดล้อมการผลิตของ Cursor สังเกตการตอบสนองของผู้ใช้ รวบรวมข้อมูล รวมสัญญาณรางวัล ทำซ้ำเวอร์ชันโมเดลทุกๆ 5 ชั่วโมง จากนั้นปรับใช้ใน Cursor อีกครั้ง วนซ้ำไปเรื่อยๆ กรณีที่โดดเด่นที่สุดคือฟังก์ชันเติมโค้ดอัตโนมัติ Tab ของ Cursor ซึ่งประมวลผลคำขอมากกว่า 400 ล้านครั้งต่อวัน ทุกครั้งที่ผู้ใช้พิมพ์ตัวอักษรหรือเลื่อนเคอร์เซอร์ โมเดลจะทำนายการกระทำถัดไป หากความเชื่อมั่นในการทำนายสูง ก็จะแสดงคำแนะนำ เมื่อผู้ใช้กด Tab ก็ยอมรับการเติมเต็มอัตโนมัติ ฟังก์ชันนี้ใช้การเรียนรู้แบบเสริมกำลังออนไลน์ ซึ่งมีลักษณะเฉพาะในอุตสาหกรรม Cursor สามารถอัปเดตความสามารถของโมเดล Tab ให้กับผู้ใช้ด้วยความถี่สูงมาก (เร็วที่สุดทุกๆ 1.5 ถึง 2 ชั่วโมง) และรวบรวมข้อมูล on-policy สำหรับการฝึกโดยตรงภายในผลิตภัณฑ์ วงจรป้อนกลับความถี่สูงและเกือบจะเรียลไทม์นี้ทำให้ Tab สามารถเรียนรู้ความตั้งใจที่ละเอียดอ่อนมากของผู้ใช้ Cursor เปิดเผยว่าวิธีนี้ทำให้อัตราการปฏิเสธคำแนะนำ Tab ลดลง 21% และอัตราการยอมรับเพิ่มขึ้น 28% กลับมาที่โมเดล Composer เอง เมื่อเรื่องกระจ่างแล้ว พนักงาน Kimi บางคนลบทวีตที่เคยวิจารณ์ออก บัญชีทางการของ Kimi แสดงความยินดี บริษัทระดับแอปพลิเคชัน coding agent ที่มีมูลค่า 60,000 ล้านดอลลาร์ (ตามตัวเลขที่ Musk ให้ไว้) และไม่ได้สร้างฐานโมเดลของตัวเอง ก็ยังสามารถใช้ Data Flywheel ของผลิตภัณฑ์เอง เพื่อ RL ให้ได้โมเดลการเขียนโปรแกรมเฉพาะทางที่เหนือกว่าโมเดลฐาน ดังนั้น แทนที่จะบอกว่า Cursor พลิกคว่ำ กลับกัน นี่เป็นตัวอย่างที่ยอดเยี่ยมของความสำคัญของผลิตภัณฑ์ coding agent

Cursor เขียนในบทความอีกเรื่องเกี่ยวกับ Real-time RL ว่า: “ความยากที่สุด (ในการฝึกโมเดลเขียนโปรแกรม) คือการสร้างแบบจำลองผู้ใช้ ในสภาพแวดล้อมการผลิตของ Composer ไม่เพียงแต่มีคอมพิวเตอร์ที่รันคำสั่ง แต่ยังมีมนุษย์ที่คอยควบคุมและแนะนำมัน การจำลองคอมพิวเตอร์เป็นเรื่องง่าย แต่การจำลองมนุษย์ที่ใช้มันนั้นยาก” ประโยคนี้กำลังกลายเป็นฉันทามติระหว่างผู้ผลิตโมเดลชั้นนำด้านการเขียนโปรแกรม หากคุณดูอันดับ Benchmark และความคิดเห็นทั่วไปของผู้ใช้ จะพบว่าผู้ผลิตรายใหญ่ต่างทุ่มเทพัฒนา coding agent/ผลิตภัณฑ์การเขียนโปรแกรมของตนเอง ความแตกต่างอยู่ที่ว่าใครอยู่ใกล้ผู้ใช้มากกว่า ยกตัวอย่าง Benchmark ที่ค่อนข้างน่าเชื่อถือ เช่น SWE-bench, LLM-Stats โมเดลอย่าง Claude, GPT, Gemini, Kimi มักจะครองสิบอันดับแรก ล้วนเป็นผู้ผลิตโมเดลที่มีผลิตภัณฑ์ coding agent ของตนเอง (รวมถึง CLI, IDE, ไคลเอนต์เดสก์ท็อปที่มี coding agent ในตัว) ในบางอันดับอาจมีข้อยกเว้นเล็กน้อย เช่น Meta (Muse Spark), Minimax, DeepSeek ซึ่งไม่ได้พัฒนา coding agent ของตนเอง แต่คุณจะพบว่าโมเดลข้อยกเว้นเหล่านี้มักจะไม่ติดอันดับใน Benchmark ที่ใกล้เคียงกับสถานการณ์จริงและหลีกเลี่ยงการปนเปื้อน ยกตัวอย่าง DeepSeek มันได้คะแนน 70% ใน SWE-bench bash only อยู่อันดับที่ 9 แต่คะแนนใน SWE-bench Pro กลับตกลงไปที่ประมาณ 15% ข้อมูลการใช้งานจริงจาก OpenRouter สามารถอธิบายความแตกต่างนี้ได้: รายงานปี 2025 ของแพลตฟอร์มแสดงให้เห็นว่า Claude ใช้ token มากกว่า 80% สำหรับงานเขียนโปรแกรมและเทคนิค ในขณะที่การใช้ token ของ DeepSeek ส่วนใหญ่เน้นไปที่การสนทนาทั่วไปและการสวมบทบาท ผู้ผลิตที่ไม่มีผลิตภัณฑ์เขียนโค้ดของตนเอง อาจแทรกเข้าไปในกลุ่มผู้นำใน Benchmark งานเขียนโค้ดบางประเภท แต่ใน Benchmark วิศวกรรมจริงที่ยากกว่า และในการใช้งานจริงที่ผู้ใช้ลงคะแนนด้วยการใช้ token พวกเขาจะถูกเปิดโปง ไม่ใช่แค่ Cursor Anthropic ก็เปิดเผยอย่างชัดเจนในบทความที่ตีพิมพ์เมื่อเดือนพฤศจิกายน 2025 ว่ากำลังทำสิ่งเดียวกัน: “เราฝึกในสภาพแวดล้อมการผลิตการเขียนโปรแกรมจริงของ Anthropic เอง” นั่นคือ Anthropic นำข้อมูลปฏิสัมพันธ์ของพนักงานที่ใช้ Claude Code มาป้อนกลับให้กับโมเดล Claude เพื่อใช้ในการฝึก

ในวิวัฒนาการของ AI ความหมายของปัจจัยการผลิตได้เปลี่ยนแปลงไปอย่างลึกซึ้ง ปัจจัยหลักสามประการดั้งเดิม — พลังคำนวณ การวิจัย และข้อมูลฝึกอบรม — แม้ปริมาณรวมจะเพิ่มขึ้นอย่างต่อเนื่อง แต่โครงสร้างกลับเกิดความไม่สมดุลอย่างรุนแรง ทุกวันนี้ ยักษ์ใหญ่ AI ต่างเพิ่มรายจ่ายด้านทุน (CapEx) ด้านพลังคำนวณอย่างมีนัยสำคัญ ทำให้โครงสร้างพื้นฐานด้านพลังคำนวณกลายเป็นธีมหลัก แต่ในความเป็นจริง โดยเฉพาะในขอบเขตการเขียนโปรแกรม เมื่อข้อมูลโค้ดสาธารณะบนอินเทอร์เน็ต เช่น คลัง GitHub, StackOverflow ถูกใช้ประโยชน์อย่าง “สิ้นเปลือง” โดยผู้ผลิตโมเดลพื้นฐาน ขอบเขตของโมเดลในการสร้างโค้ดและการใช้เหตุผลเชิงตรรกะก็เริ่มปรากฏให้เห็นชัดเจนขึ้น นี่คือสาเหตุที่ฉันทามติในอุตสาหกรรมค่อยๆ หันไปสู่พื้นที่ยุทธศาสตร์ใหม่ที่กำลังเติบโต: สำหรับผู้ผลิตโมเดลใดๆ ที่หวังจะเชี่ยวชาญความสามารถด้านโค้ดระดับสูงสุด การสร้างผลิตภัณฑ์ coding agent ของตนเองนั้นไม่ใช่แค่เส้นทางธุรกิจที่เลือกได้อีกต่อไป แต่เป็นเส้นชีวิตหลักที่รับประกันวิวัฒนาการอย่างต่อเนื่องของโมเดลพื้นฐาน ดังที่ APPSO ได้โต้แย้งไว้ก่อนหน้านี้ การเรียนรู้เพียงข้อมูลสาธารณะก็เท่ากับการเรียนรู้เฉพาะผลลัพธ์ของผู้ที่ประสบความสำเร็จ แต่ไม่สามารถเข้าใจเส้นทางสู่ความสำเร็จได้ ซึ่งไม่ใช่ศาสตร์แห่งความสำเร็จที่ถูกต้อง ในสภาพแวดล้อมการเขียนโปรแกรมจริง การรู้ว่าเกิดข้อผิดพลาดอะไร เกิดขึ้นได้อย่างไร เข้าใจและปฏิบัติตามความต้องการอย่างมีประสิทธิภาพได้อย่างไร — การเข้าใจคุณค่าของกระบวนการที่ถูกต้องนั้นมีค่ามากกว่าการได้ผลลัพธ์ที่ถูกต้องเพียงอย่างเดียว

เฉพาะเมื่อมีผลิตภัณฑ์เขียนโค้ดของตนเองเท่านั้น ผู้ผลิตโมเดลจึงจะได้รับสัญญาณ “การกำกับดูแลกระบวนการ” คุณภาพสูง ซึ่งจะช่วยให้มั่นใจได้ถึงคูเมืองทางเทคนิคในการแข่งขันขั้นต่อไปของความสามารถในการเขียนโค้ด/การใช้เหตุผล — มิฉะนั้นก็จะต้องจ่ายเงินเพื่อร่วมมือกับบริษัทผลิตภัณฑ์ coding agent เช่นเดียวกับ SpaceXAI อย่างไรก็ตาม ไม่ใช่ผู้ผลิตโมเดลทุกรายจะร่ำรวยเท่า Musk การแบ่งขั้วอำนาจ การเป็นพันธมิตร และการแย่งชิงอาณาเขตของยักษ์ใหญ่ที่จะเริ่มต้นในปี 2026 จะยิ่งรุนแรงขึ้น เมื่อผู้ผลิตโมเดลที่ขาดผลิตภัณฑ์เขียนโค้ดของตนเองรู้ตัว ก็อาจไม่มีพันธมิตรให้เลือกเพียงพอ และราคาความร่วมมือก็จะสูงขึ้นตามไปด้วย สถานการณ์ของผู้ผลิตโมเดลยักษ์ใหญ่ในสหรัฐฯ เป็นที่รู้จักกันดี จึงไม่ต้องกล่าวถึงซ้ำ APPSO ยังสังเกตเห็นว่าในบรรดาผู้ผลิตโมเดลกระแสหลักและยักษ์ใหญ่ AI ในประเทศจีน ส่วนใหญ่ได้วางแผนในด้านผลิตภัณฑ์ coding agent ไว้แล้ว บริษัทยักษ์ใหญ่ในจีนส่วนใหญ่ดำเนินการตามแนวทาง IDE AI ดั้งเดิมหรือปลั๊กอิน IDE: ByteDance วางแผน TRAE ตั้งแต่ต้นปีที่แล้ว Alibaba มี Qoder, Tencent มี CodeBuddy, Baidu มี Wenxin Kuaima Comate เป็นต้น ในกลุ่มบริษัท AI ขนาดเล็ก Mooncake (Kimi) เป็นบริษัทแรกที่พัฒนาผลิตภัณฑ์ coding agent อิสระ โดยส่วนใหญ่เป็น Kimi Code ในรูปแบบ CLI — อย่างไรก็ตาม Kimi เคยเปิดเผยว่าในผลิตภัณฑ์การเขียนโปรแกรมดั้งเดิม CLI จะไม่ใช่จุดจบ

อีกแนวทางหนึ่งคือผู้ผลิตโมเดลให้บริการ API และ Coding Plan ด้วยตนเอง ด้วยวิธีนี้ ไม่ว่าผู้ใช้จะใช้สภาพแวดล้อมการพัฒนา AI แบบใด ผู้ผลิตโมเดลก็สามารถรับข้อมูลกระบวนการที่ใกล้เคียงกับผลิตภัณฑ์ coding agent ดั้งเดิมมากที่สุดผ่านบันทึก API ฝั่งเซิร์ฟเวอร์ แต่นี่เป็นเพียงการใกล้เคียง ไม่ใช่เหมือนกันทุกประการ ประเด็นสำคัญคือ บันทึกคำขอ-ตอบกลับของ API ฝั่งเซิร์ฟเวอร์ ยังคงห่างไกลจากร่องรอยปฏิสัมพันธ์ของผลิตภัณฑ์ที่ฝังลึก ผู้ผลิตที่มีผลิตภัณฑ์ของตนเอง (เช่น Cursor, Claude Desktop, Codex) มีสัญญาณตอบรับที่ชัดเจนโดยตรง ในขณะที่ฝั่ง API เป็นการอนุมานโดยนัยที่ค่อนข้างคลุมเครือ พูดง่ายๆ คือ ฝั่ง API สามารถเห็นคำขอและการตอบกลับของผู้ใช้ แต่ไม่รู้ว่าผู้ใช้จะนำโค้ดนี้ไปใช้ในที่สุดหรือไม่ โค้ดทำงานได้หรือไม่ ก่อให้เกิดบั๊กอะไร ฝั่ง API ไม่รู้เรื่องเหล่านี้เลย พวกเขาไม่สามารถเข้าใจป้ายกำกับสำคัญของพฤติกรรมสุดท้ายของผู้ใช้ จึงไม่สามารถบรรลุการเรียนรู้แบบเสริมกำลังคุณภาพสูงสุดได้ ในเชิงนามธรรม ภาษาคือโลก โค้ดคือวิธีแก้ปัญหา โค้ดสามารถแสดงถึงงานส่วนใหญ่ในโลก และโค้ดจะกลายเป็นตัวขยายผลสำหรับผู้มีความสามารถระดับสูง ทำให้ผู้มีความสามารถระดับสูงสุดมีประสิทธิภาพเพิ่มขึ้นหลายเท่า มีเพียงโมเดลเขียนโค้ดที่เก่งที่สุดเท่านั้นที่คู่ควรกับผู้มีความสามารถระดับสูงสุด หากผู้ผลิตโมเดลชั้นนำไม่ให้ความสำคัญกับการเขียนโค้ด พวกเขาจะหลุดจากกลุ่มแรกอย่างแน่นอน แน่นอนว่าในความเป็นจริง ผู้ผลิตโมเดลทุกรายให้ความสำคัญกับการเขียนโค้ด — แต่ภายใต้กระบวนทัศน์ใหม่ ผู้ผลิตที่ไม่มีผลิตภัณฑ์ coding agent ดั้งเดิมที่ควบคุมได้เอง มีแนวโน้มสูงที่จะตามหลังผู้ที่มีผลิตภัณฑ์ดังกล่าว เมื่อไม่กี่วันก่อน MiniMax ก็ได้เปิดตัวการอัปเดตครั้งใหญ่สำหรับผลิตภัณฑ์ไคลเอนต์เดสก์ท็อป: ฟังก์ชัน Mavis พร้อมสถาปัตยกรรมการจัดเรียง multi-agent ใหม่ทั้งหมด และทำให้ไคลเอนต์ปรับปรุงการรองรับงานเขียนโค้ดอย่างมีนัยสำคัญ ก่อนหน้านี้ MiniMax เปิดตัวเฉพาะเดสก์ท็อป แต่ไม่ได้เพิ่มฟังก์ชัน coding และ agent ดั้งเดิม

ต่อมาในวันที่ 15 พฤษภาคม Alibaba ได้เปิดตัว Qoder 1.0 อย่างเป็นทางการ — ผลิตภัณฑ์นี้ได้รับการอัปเกรดจากรูปแบบ IDE เป็นผลิตภัณฑ์ Agent ที่สมบูรณ์ (Alibaba เรียกอย่างเป็นทางการว่า แพลตฟอร์มการพัฒนาอิสระอัจฉริยะ)

ในเวลาเดียวกัน Grok Build CLI ของ xAI ก็เปิดตัวอย่างเป็นทางการในที่สุด ใช่แล้ว นี่คือ coding agent ที่ xAI สร้างขึ้นเองหลังจากถูก Anthropic และ Cursor แบนเมื่อต้นปี

นี่ไง ก็มีกรณีตัวอย่างเพิ่มขึ้นอีกหลายกรณี ดูเหมือนว่าทุกคนเห็นพ้องว่า Cursor, Codex และ Claude Desktop กำลังเดินอยู่บนเส้นทางที่ถูกต้อง

เมื่อขยายหัวข้อจากการเขียนโค้ดไปยัง agent เอง สถานการณ์ก็เช่นเดียวกัน ข้อมูลเส้นทางของงานเขียนโค้ดยังพอหาได้ในคลังข้อมูลสาธารณะ (เช่น บันทึกการคอมมิต/PR บน GitHub แม้จะมีคุณภาพไม่สูง) แต่ข้อมูลเส้นทางของงาน agent รวมถึงการเลื่อนและคลิกเมาส์ การควบคุมหน้าจอสัมผัส การกรอกช่องป้อนข้อมูล ฯลฯ ไม่สามารถหาได้ในคลังข้อมูลสาธารณะ ดังนั้นเราจะเห็นว่า แม้แต่ในเส้นทางการดำเนินการที่เล็กที่สุดของ agent — ปลั๊กอินเบราว์เซอร์ ซึ่งดูเหมือนไม่ใช่ของสูงส่งนัก ผู้ผลิตโมเดลเกือบทุกรายก็จะทำของตัวเอง OpenAI สร้าง Operator ตั้งแต่เดือนมกราคม 2025 — แทนที่จะบอกว่ามันเป็นผลิตภัณฑ์ “AI ที่ควบคุมเบราว์เซอร์อัตโนมัติ” โดยพื้นฐานแล้วมันคืออุปกรณ์รวบรวมข้อมูลขนาดใหญ่ ผู้ใช้ที่ทดลองใช้ Operator ทุกคน กำลังให้ข้อมูล on-policy แก่ OpenAI ฟรี ต่อมา OpenAI ยัง衍生出 ChatGPT Agent และ Codex Desktop เวอร์ชันใหม่; Anthropic ก็เช่นกัน; เมื่อเร็วๆ นี้ Kimi ก็สร้างโครงการที่ชื่อว่า WebBridge อย่างเงียบๆ ซึ่งก็คือปลั๊กอินเบราว์เซอร์

แม้แต่ยักษ์ใหญ่โมเดลจีนที่ระมัดระวังที่สุดอย่าง DeepSeek ในช่วงสองปีที่ผ่านมา ก็เริ่มแสดงความสนใจใน Agent เมื่อเร็วๆ นี้ CEO Liang Wenfeng เคยกล่าวในการสัมภาษณ์ว่า: คณิตศาสตร์และโค้ดเป็นสนามทดสอบตามธรรมชาติของ AGI คล้ายกับหมากล้อม เป็นระบบปิดที่ตรวจสอบได้ และอาจบรรลุความฉลาดสูงได้ผ่านการเรียนรู้ด้วยตนเอง ความหมายโดยนัยของประโยคนี้คือ DeepSeek มอง coding และ Agent เป็นสนามทดสอบวิจัยมาโดยตลอด ไม่ใช่ทิศทางเชิงพาณิชย์ แต่ในเดือนมีนาคมปีนี้ DeepSeek ปล่อยตำแหน่งงานที่เกี่ยวข้องกับ Agent กว่าสิบตำแหน่งในคราวเดียว รวมถึงตำแหน่งผู้จัดการผลิตภัณฑ์กลยุทธ์โมเดล (ฝั่ง Agent) ที่ปรากฏเป็นครั้งแรก รายละเอียดงานในขณะนั้นครอบคลุม “การนำระบบการประเมิน Agent และการออกแบบแผนข้อมูลฝึกอบรม” โดยมีข้อกำหนดรวมถึง “การใช้ Claude Code, Manus อย่างลึกซึ้ง” APPSO สังเกตว่า เมื่อเร็วๆ นี้ DeepSeek ได้เผยแพร่ข้อมูลการรับสมัครตำแหน่งผู้จัดการผลิตภัณฑ์ Agent, ผู้จัดการผลิตภัณฑ์ Harness เป็นต้น — เห็นได้ชัดว่า DeepSeek กำลังจะสร้างผลิตภัณฑ์ Coding/Agent ที่เป็นอิสระและเป็นธรรมชาติ

ข้อมูลก่อนหน้านี้แสดงให้เห็นว่าในระหว่างการฝึก DeepSeek V3.2 มีการนำสภาพแวดล้อมการฝึก Agent สังเคราะห์เกือบสองพันแห่งและคำสั่งที่ซับซ้อนกว่าแปดหมื่นรายการเข้ามา แต่ดูเหมือนว่าการพึ่งพาข้อมูลฝึกอบรมสังเคราะห์สามารถพา DeepSeek มาได้เพียงเท่านี้ ส่วนที่เหลือเป็นส่วนที่ไม่สามารถสังเคราะห์ได้: ความสำเร็จและความล้มเหลวจริงของผู้ใช้จริงในสภาพแวดล้อมจริง ซึ่งต้องได้มาจากผลิตภัณฑ์ agent ของตนเองเท่านั้น DeepSeek ดำเนินการโมเดลและผลิตภัณฑ์โมเดลอย่างยับยั้งชั่งใจอย่างยิ่งเป็นเวลาสามปี (เพิ่งเพิ่มความสามารถ multimodal ในเว็บไซต์ทางการเมื่อเดือนที่แล้ว) แต่วันนี้ ในงานประเภทเขียนโค้ด DeepSeek ทำ SOTA ได้ยากขึ้นเรื่อยๆ แม้จะเคยทำได้ก็จะถูกแซงอย่างรวดเร็ว เมื่อผู้ช่วยไม่สามารถรองรับวงล้อด้วยเส้นทางการวิจัยได้อีกต่อไป ในที่สุด DeepSeek ก็ลงมือ

สุดท้ายนี้ เรากลับมาที่เรื่องราวตอนต้น ตามรายงานของ The Information ที่อ้างอิงแหล่งข่าวที่เกี่ยวข้อง ในขณะที่ยอมรับข้อเสนอซื้อ 60,000 ล้าน/ความร่วมมือ 10,000 ล้านดอลลาร์ของ Musk Cursor ระบุว่าจะไม่ร่วมมือกับ xAI ในการพัฒนาโมเดลใหม่ แต่จะยังคงมุ่งเน้นที่การปรับปรุงโมเดล Composer ของตนเอง ซึ่งหมายความว่า แม้จะถูก Musk ซื้อหรือซื้อกิจการ Cursor ก็ยังคงต้องการรักษาความเป็นตัวตนของ Data Flywheel ของตนเอง การเป็นเจ้าของข้อมูล ถือเป็นจุด博弈ที่ซ่อนเร้นที่สำคัญที่สุด เมื่อผู้ผลิตโมเดลชั้นนำทุกรายสร้างผลิตภัณฑ์ของตนเอง และผลิตภัณฑ์ชั้นนำทุกราย也开始ฝึกโมเดลของตนเอง เส้นแบ่งที่คลุมเครือระหว่าง “บริษัทโมเดล” และ “บริษัทผลิตภัณฑ์” ดูเหมือนจะไม่มีอยู่อีกต่อไป… การ博弈นี้เพิ่งจะเริ่มต้นเท่านั้น

ข้อความ | Du Chen

เอกสารอ้างอิง:
Theo – t3.gg: www.youtube.com/watch?v=3pkz-Ie_k_c
รายงานทางเทคนิค Composer 2: cursor.com/cn/blog/composer-2-technical-report
บทความของ Anthropic: arxiv.org/abs/2511.18397
การกำกับดูแลผลลัพธ์ vs การกำกับดูแลกระบวนการ: www.emergentmind.com/topics/process-vs-outcome-supervision
สัญญาณข้อผิดพลาดของการเรียนรู้แบบเสริมกำลัง: https://openreview.net/pdf?id=TDfrN1TbGH
การอภิปรายเกี่ยวกับการสร้างหรือซื้อข้อมูลกระบวนการ: https://www.reddit.com/r/AI_Agents/comments/1snc116/the_overlooked_trend_of_building_custom_ai_agents/
รูปภาพบางส่วนสร้างโดย AI