ข้อโต้แย้งเรื่อง Cursor ใช้ Kimi เป็นฐานยังคงดำเนินต่อไป
เมื่อเร็วๆ นี้ Cursor ได้เผยแพร่รายงานทางเทคนิคของ Composer 2 พยายามพิสูจน์ว่าตนไม่ได้เพียงแค่ใช้เป็นฐานแบบง่ายๆ แต่ได้ดำเนินการวิจัยและพัฒนาอย่างมีเนื้อหาทางเทคนิคและเป็นขั้นเป็นตอน
รายงานเน้นย้ำว่าแกนกลางของวิธีการยังคงเป็นเส้นทางทางเทคนิคที่กล่าวถึงก่อนหน้านี้ ซึ่งเป็นการผสมผสานระหว่างการฝึกล่วงหน้าและการเรียนรู้แบบเสริมแรง
สิ่งที่แตกต่างจากก่อนหน้านี้คือ Cursor ได้ระบุแหล่งที่มาของโมเดลพื้นฐานอย่างชัดเจนในรายงานว่าเป็นKimi K2.5
การระบุชื่อที่รวดเร็วและชัดเจนนี้แสดงให้เห็นถึงการเปลี่ยนแปลงในทัศนคติ และแม้แต่ถูกมองจากภายนอกว่าได้บรรลุข้อตกลงบางอย่างกับฝ่ายทางการของ Kimi แล้ว
อย่างไรก็ตาม ผู้ใช้อินเทอร์เน็ตจำนวนมากไม่ยอมรับเรื่องนี้
เส้นทางทางเทคนิคของ Cursor: การฝึกสองขั้นตอนบนพื้นฐาน Kimi K2.5
ในตอนต้นของรายงาน Cursor ได้ประเมินและยืนยันความสามารถพื้นฐานของ Kimi K2.5 ก่อน โดยระบุว่ามีประสิทธิภาพโดยรวมดีที่สุดในบรรดาโมเดลพื้นฐานโอเพนซอร์สที่มีศักยภาพหลายตัว และมีข้อได้เปรียบในด้านประสิทธิภาพการปฏิบัติงาน เป็นต้น
ต่อมา รายงานได้อธิบายอย่างละเอียดเกี่ยวกับกระบวนการฝึกอิสระสองขั้นตอนบนพื้นฐาน Kimi K2.5: การฝึกล่วงหน้าอย่างต่อเนื่องและการเรียนรู้แบบเสริมแรงแบบอะซิงโครนัส
1. การฝึกล่วงหน้าอย่างต่อเนื่อง
ขั้นตอนนี้มีวัตถุประสงค์เพื่อเพิ่มความสามารถพื้นฐานของโมเดลในด้านการเขียนโค้ด เพื่อเตรียมพร้อมสำหรับการฝึกการเรียนรู้แบบเสริมแรงในภายหลัง แบ่งออกเป็นสามขั้นตอนย่อยหลัก:
– ลงทุนทรัพยากรการคำนวณหลักในการฝึกด้วยความยาวลำดับโทเค็น 32K
– ดำเนินการฝึกขยายบริบทระยะสั้น เพื่อเพิ่มความยาวลำดับเป็น 256K
– ปรับโมเดลให้เหมาะกับงานโค้ดเฉพาะทางผ่านการปรับแต่งคำสั่งด้วยตัวอย่างจำนวนน้อย
นอกจากนี้ เพื่อเพิ่มความเร็วในการอนุมาน โมเดลได้นำเลเยอร์การทำนายหลายโทเค็นมาใช้ และรวมเข้ากับกลยุทธ์การถอดรหัสแบบเก็งกำไรและการกลั่นตัวเองเพื่อรับประกันความเร็วในการลู่เข้า ข้อมูลการฝึกแสดงให้เห็นว่าค่าความสูญเสียของโมเดลในคลังโค้ดที่พัฒนาด้วยตนเองลดลงแบบลอการิทึมเชิงเส้น และความสับสนของคลังโค้ดมีความสัมพันธ์เชิงบวกกับประสิทธิภาพการเรียนรู้แบบเสริมแรงขั้นต่อไป ซึ่งพิสูจน์ถึงประสิทธิผลของการฝึกล่วงหน้า

2. การเรียนรู้แบบเสริมแรงแบบอะซิงโครนัส
สภาพแวดล้อมการฝึกจำลองสถานการณ์การสนทนา Cursor จริงอย่างสูง คลอบคลุมงานหลักต่างๆ ของวิศวกรรมซอฟต์แวร์ กรอบการฝึกใช้การไล่ระดับนโยบายขนาดใหญ่เป็นพื้นฐาน ใช้อัลกอริทึมการไล่ระดับนโยบายแบบตัวอย่างเดียวหลายตัวอย่าง และกำหนดขนาดกลุ่มตัวอย่างคงที่เพื่อรักษาความเสถียร
– คำสั่งแต่ละคำสั่งมีส่วนร่วมในการฝึกเพียงครั้งเดียว ใช้ตัวเพิ่มประสิทธิภาพ Adam เพื่ออัปเดตพารามิเตอร์ทั้งหมด
– ปรับปรุงอัลกอริทึม GRPO โดยลบรายการมาตรฐานความยาวออกเพื่อหลีกเลี่ยงอคติ และนำเอนโทรปี KL มาใช้สำหรับการทำให้เป็นมาตรฐาน
การศึกษาชี้ให้เห็นว่าประสิทธิภาพโดยเฉลี่ยและประสิทธิภาพการสุ่มตัวอย่างที่ดีที่สุดของโมเดลสุดท้ายเพิ่มขึ้นพร้อมกัน ซึ่งบ่งชี้ว่าการเรียนรู้แบบเสริมแรงไม่เพียงแต่ให้น้ำหนักใหม่กับเส้นทางการอนุมาน แต่ยังขยายขอบเขตของโซลูชันที่ถูกต้องอีกด้วย

Composer 2 ยังได้นำกลไกรางวัลเสริมชุดหนึ่งมาใช้ รวมถึงรางวัลสำหรับสไตล์โค้ด การแสดงออกแบบโต้ตอบ การลงโทษสำหรับการเรียกใช้เครื่องมือที่ไม่เหมาะสม และปรับกฎเกณฑ์แบบไดนามิกตามพฤติกรรมที่เกิดขึ้นระหว่างการฝึก
เกณฑ์มาตรฐานการประเมินที่พัฒนาด้วยตนเอง: CursorBench
เพื่อการประเมิน Cursor ได้เปิดตัวชุดประเมินภายในที่พัฒนาด้วยตนเอง นั่นคือCursorBench งานทั้งหมดของเกณฑ์มาตรฐานนี้มีต้นกำเนิดจากสถานการณ์การใช้งานเอเจนต์อัจฉริยะจริง มิติการประเมินไม่เพียงแต่รวมความถูกต้องของฟังก์ชันเท่านั้น แต่ยังครอบคลุมคุณภาพโค้ด ประสิทธิภาพการดำเนินงาน การโต้ตอบของเอเจนต์ และด้านอื่นๆ
ข้อมูลแสดงให้เห็นว่างานใน CursorBench มีการปรับเปลี่ยนโค้ดมากกว่า (ค่ามัธยฐาน 181 บรรทัด) ในขณะที่คำแนะนำคำสั่งกระชับกว่า (ค่ามัธยฐาน 390 ตัวอักษร) ซึ่งใกล้เคียงกับการใช้งานจริงมากขึ้น

ในผลการทดสอบ Composer 2 มีอัตราความแม่นยำ61.3% ใน CursorBench-3 ซึ่งเพิ่มขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับเวอร์ชัน 1.5 และเวอร์ชัน 1.0 ของตัวเอง และยังก้าวหน้าอย่างมากเมื่อเทียบกับโมเดลพื้นฐาน Kimi K2.5

รายงานสรุปว่า Composer 2 บรรลุความเหมาะสมแบบพาเรโตในด้านต้นทุนและความแม่นยำ ต้นทุนการอนุมานเทียบเท่ากับโมเดลขนาดเล็กกว่า ในขณะที่ความแม่นยำสามารถเทียบเคียงกับโมเดลแนวหน้าที่มีขนาดใหญ่กว่า และประสิทธิภาพการใช้โทเค็นก็อยู่ในระดับเดียวกับโมเดลขั้นสูงอื่นๆ
หยาง จื้อหลิน พูดถึงทิศทางในอนาคตของการพัฒนารุ่นภาษาใหญ่
ในขณะที่ Cursor เผยแพร่รายงาน หยาง จื้อหลิน ผู้ก่อตั้ง Kimi ได้แบ่งปันความคิดล่าสุดเกี่ยวกับรุ่นภาษาใหญ่และกระบวนทัศน์การฝึกในสุนทรพจน์ที่งาน Zhongguancun Forum
เขาเชื่อว่าจิตวิญญาณของรุ่นภาษาใหญ่คือการเปลี่ยนพลังงานเป็นความฉลาด และกุญแจสำคัญอยู่ที่การบรรลุการขยายขนาด การขยายขนาดที่มีประสิทธิภาพไม่ใช่การเพิ่มพลังการคำนวณอย่างสุ่มสี่สุ่มห้า แต่ต้องให้ความสำคัญกับวิธีการและประสิทธิภาพ

กลยุทธ์การขยายขนาดของ Kimi มุ่งเน้นไปที่สามประเด็น:
1. เพิ่มประสิทธิภาพโทเค็น: มุ่งมั่นที่จะเรียนรู้ความฉลาดมากขึ้นด้วยข้อมูลที่มีจำกัด
2. ขยายความยาวบริบท: เพิ่มความสามารถในการประมวลผลบริบทยาวอย่างพื้นฐานผ่านโครงสร้างเครือข่ายที่เป็นนวัตกรรม (เช่น Kimi Linear) และข้อมูลการฝึก
3. แนะนำคลัสเตอร์เอเจนต์: เสนอใน Kimi K2.5 โดยให้เอเจนต์หลายตัวทำงานร่วมกันเพื่อแก้ไขปัญหาที่ซับซ้อน บรรลุการขยายขนาดของอินพุต เอาต์พุต การดำเนินการ และการจัดเตรียม

ในเวลาเดียวกัน หยาง จื้อหลิน เน้นย้ำถึงความสำคัญของโครงสร้างเครือข่ายพื้นฐาน ตัวอย่างเช่น โครงสร้างเรซิดวลแอตเทนชันโอเพนซอร์สของพวกเขา สามารถมองได้ว่าเป็นรูปแบบแปรผันของ LSTM ของกลไกความสนใจในความลึกของเครือข่าย ซึ่งสามารถใช้ข้อมูลจากแต่ละเลเยอร์ได้อย่างมีประสิทธิภาพมากขึ้น เขาชี้ให้เห็นว่าในบริบทปัจจุบันที่มีพลังการคำนวณที่แข็งแกร่งกว่าและการวิจัยที่เน้นวิศวกรรมมากขึ้น คำตอบมาตรฐานทางเทคนิคในอดีตสามารถถูกท้าทายและปรับปรุงใหม่ได้

เกี่ยวกับโอเพนซอร์ส หยาง จื้อหลิน กล่าวว่าจะดำเนินการต่อไปอย่างต่อเนื่อง:
โมเดลโอเพนซอร์สกำลังกลายเป็นมาตรฐานใหม่ โมเดลโอเพนซอร์สที่เป็นตัวแทนของ Kimi K2.5 ได้กลายเป็นเกณฑ์มาตรฐานสำหรับผู้ผลิตชิปทั่วโลกในการทดสอบประสิทธิภาพฮาร์ดแวร์ และยังถูกนำไปใช้โดยสถาบันวิจัยจำนวนมาก เราหวังว่าจะลดอุปสรรคในการเข้าถึงความฉลาดผ่านโอเพนซอร์ส และในที่สุดก็สร้างระบบนิเวศโอเพนซอร์สร่วมกัน เพื่อส่งเสริมการพัฒนา AI
สุดท้าย เขายืนยันว่าการฝึกรุ่นภาษาใหญ่ได้เข้าสู่ระยะที่สามแล้ว:

- ระยะแรก (2023-2024): ใช้ข้อมูลธรรมชาติเป็นหลัก ข้อมูลที่ติดป้ายกำกับด้วยมนุษย์เป็นส่วนเสริม
- ระยะที่สอง (2025): ให้ความสำคัญกับการคัดเลือกงานคุณภาพสูงด้วยมนุษย์มากขึ้น และสร้างระบบการเรียนรู้แบบเสริมแรงขนาดใหญ่
- ระยะที่สาม (เริ่มตั้งแต่ปี 2026): กระบวนการวิจัยและพัฒนา AI เปลี่ยนแปลงไปอย่างพื้นฐาน หัวข้อหลักของการวิจัยและพัฒนาจะเปลี่ยนจากมนุษย์เป็น AI AI จะสังเคราะห์งาน สร้างสภาพแวดล้อมการฝึก และแม้แต่สำรวจโครงสร้างใหม่ได้อย่างอิสระ นักวิจัยจะจัดหาทรัพยากรพลังการคำนวณและโทเค็นมากขึ้น AI จะค่อยๆ เปลี่ยนจากผู้ถูกฝึกฝนไปเป็นผู้มีส่วนร่วมและผู้นำในการวิจัยและพัฒนา ผลักดันให้ความเร็วในการพัฒนาสาขานี้เพิ่มขึ้นอย่างรวดเร็ว
แหล่งข้อมูลอ้างอิง
[1] https://x.com/cursor_ai/status/2036566134468542651
[2] https://cursor.com/resources/Composer2.pdf
[3] https://mp.weixin.qq.com/s/GjN_dx380VnUmRWHGRajiA
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/27651
