快手 OneSearch-V2: การเสริมสร้างการให้เหตุผลในพื้นที่แฝง นวัตกรรมใหม่ในการค้นหาอีคอมเมิร์ซ

5 hours ago • ข่าวสารอุตสาหกรรม AI • 12 views

เพื่อแก้ไขปัญหาคอขวดในทางปฏิบัติของการค้นหาเชิงสร้างสรรค์ในสถานการณ์อีคอมเมิร์ซ เช่น ความเข้าใจคำค้นหาที่ซับซ้อนไม่เพียงพอ การค้นหาเจตนาแฝงของผู้ใช้ได้ยาก และระบบรางวัลที่ปรับให้เข้ากับความชอบแคบๆ ในอดีตมากเกินไป ทีมเทคนิคของ Kuaishou ได้เผยแพร่เอกสารวิจัยการอัปเกรดอย่างเป็นระบบบนพื้นฐานของเฟรมเวิร์กการค้นหาเชิงสร้างสรรค์ระดับอุตสาหกรรม OneSearch ที่ปรับใช้ในวงกว้างแล้ว โดยเปิดตัวเฟรมเวิร์กรุ่นใหม่ OneSearch-V2 อย่างเป็นทางการ

เอกสารวิจัยนี้อธิบายรายละเอียดเกี่ยวกับแผนการพัฒนาแบบ end-to-end ที่เน้นการเสริมการให้เหตุผลในพื้นที่แฝง (latent space) และการกลั่นตัวเอง (self-distillation) โดยเสนอแนวคิดใหม่ๆ เช่น ความเข้าใจคำค้นหาที่ซับซ้อนแบบเสริมความคิด (Thought-augmented complex query understanding) กระบวนการฝึกกลั่นตัวเองที่ทำให้การให้เหตุผลเป็นภายใน (Reasoning-internalized self-distillation) และระบบปรับแนวความชอบที่เหมาะสมที่สุดตามความคิดเห็นจากพฤติกรรมผู้ใช้จริง (Preference alignment optimization based on real user behavior feedback) ซึ่งออกแบบมาโดยธรรมชาติ

ปัจจุบัน ระบบนี้ได้เปิดตัวอย่างสมบูรณ์บนแพลตฟอร์มการค้นหาอีคอมเมิร์ซของ Kuaishou โดยไม่ต้องเพิ่มต้นทุนการอนุมานหรือเวลาแฝงในการให้บริการใดๆ สามารถเพิ่มอัตราการคลิกสินค้าได้ 3.98% จำนวนผู้ซื้อเพิ่มขึ้น 2.07% และจำนวนคำสั่งซื้อเพิ่มขึ้น 2.11% ซึ่งเป็นผลประโยชน์ทางธุรกิจที่ชัดเจน และยังช่วยบรรเทาปัญหาฟองข้อมูล (information cocoon) และปัญหาสินค้าหางยาวที่เบาบาง (long-tail sparsity) ที่มีมายาวนานในระบบค้นหาได้อย่างมีประสิทธิภาพ

ชื่อเอกสาร: 《OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework》
ที่อยู่เอกสาร: https://arxiv.org/abs/2603.24422
ที่อยู่โค้ด: https://github.com/benchen4395/onesearch-family

1. ความเป็นมา

1.1 ทบทวนและผลลัพธ์ของ OneSearch V1

OneSearch V1 ใช้สถาปัตยกรรมแบบ end-to-end generative ซึ่งช่วยลดต้นทุนการอนุมานได้อย่างมาก พร้อมทั้งเพิ่มประสิทธิภาพออนไลน์และอัตราการแปลงสำหรับคำค้นหาความถี่ปานกลางถึงสูงอย่างมาก โดยเฉพาะอย่างยิ่งในด้านความสามารถในการให้เหตุผลสำหรับคำค้นหาความถี่ปานกลางถึงสูงและความชอบของผู้ใช้กลุ่มกลางถึงหางยาว (OneSearch: การสร้างแบบจำลองเชิงสร้างสรรค์แบบ end-to-end สำหรับการค้นหาอีคอมเมิร์ซ)

1.2 คอขวดหลักที่ยังคงมีอยู่ใน V1

เมื่อความชอบของผู้ใช้มีความหลากหลายมากขึ้น และคำค้นหามีความซับซ้อนมากขึ้น เราจึงระบุข้อจำกัดสำคัญสามประการที่ขัดขวางการปรับปรุง OneSearch เพิ่มเติม:

ความเข้าใจคำค้นหาที่ซับซ้อนไม่เพียงพอ: คำค้นหาสั้นจำนวนมากไม่ได้ระบุสินค้าเฉพาะเจาะจง (เช่น “อุปกรณ์ออกกำลังกายในร่ม” อาจหมายถึงลู่วิ่งหรือดัมเบล แต่ไม่ควรหมายถึงจักรยานเสือภูเขา) ส่วนคำค้นหาหางยาวมีความแตกต่างทางคำศัพท์อย่างมีนัยสำคัญ (เช่น แบบปฏิเสธ “บรรเทาความเหนื่อยล้า ไม่เอาอาหารเสริม” หรือแบบถามตอบ “ต้องเตรียมอะไรบ้างสำหรับการว่ายน้ำ”) คำค้นหาที่ซับซ้อนประเภทนี้คิดเป็นประมาณ 1/3 ของจำนวนการดูหน้าเว็บทั้งหมดบนแพลตฟอร์ม แต่มีส่วนทำให้เกิด Conversion เพียง 8% เท่านั้น V1 ไม่สามารถจัดการกับเจตนาทั่วไปหรือเจตนาที่อ่อนแอประเภทนี้ได้ดี
การให้เหตุผลเจตนาเฉพาะบุคคลตามบริบทผู้ใช้ไม่เพียงพอ: โมเดลพึ่งพารูปแบบการเกิดร่วมในประวัติศาสตร์และการ fitting กับ log มากเกินไป ส่งผลให้เกิดการจับคู่แบบตื้น ตัวอย่างเช่น ผู้ใช้ที่แพ้เกสรดอกไม้ค้นหา “ดอกไม้ตามฤดูกาล” โมเดลไม่สามารถให้เหตุผลได้ว่าควรหลีกเลี่ยงพันธุ์ที่ก่อให้เกิดอาการแพ้
ระบบรางวัลที่เปราะบางและความเบี่ยงเบนของการกระจาย: เฟรมเวิร์กการจัดอันดับแบบผสมที่อัปเดตหลายขั้นตอน (ซึ่งอาศัยโมเดลรางวัลอิสระ) อัปเดตช้า มีแนวโน้มที่จะได้รับผลกระทบจากความเบี่ยงเบนในการสุ่มตัวอย่าง และปรับให้เข้ากับความชอบแคบๆ ในอดีตมากเกินไป

1.3 แนวคิดหลักของ OneSearch V2

เพื่อตอบสนองต่อคอขวดข้างต้น OneSearch V2 เสนอเฟรมเวิร์ก Latent Reasoning Enhanced Self-distillation:

ความเข้าใจคำค้นหาแบบเสริมความคิด (Thought-augmented Query Understanding): ใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อสร้างห่วงโซ่ความคิด (CoT) ระดับคีย์เวิร์ดที่กระชับ ซึ่งช่วยเพิ่มความหนาแน่นของข้อมูลในขณะที่หลีกเลี่ยงค่าใช้จ่ายของข้อความยาว ใช้เป็นข้อมูลสำหรับการปรับแต่งแบบมีผู้สอน (SFT) และเป็นอินพุตสิทธิพิเศษของ “ฝ่ายครู” สำหรับการกลั่นในภายหลัง
การกลั่นตัวเองที่ทำให้การให้เหตุผลเป็นภายใน (Reasoning-internalized Self-distillation): โดยไม่ต้องเพิ่มพารามิเตอร์เพิ่มเติม ผ่านกลไกการกลั่นตัวเองแบบอสมมาตรข้อมูล (information-asymmetric self-distillation) ความสามารถในการให้เหตุผลอย่างชัดแจ้งจะถูกเข้ารหัสลงในน้ำหนักของโมเดลโดยตรง เปลี่ยนเป็น “สัญชาตญาณ”
การปรับแนวความชอบตามความคิดเห็นพฤติกรรม (Behavior Feedback Preference Alignment): ยกเลิกโมเดลรางวัลอิสระ นำความคิดเห็นจากการโต้ตอบของผู้ใช้โดยตรงมาใช้ เสนอ Token-Position Marginal Advantage (TPMA-GRPO) ซึ่งกำหนดเครดิตอย่างแม่นยำตามตำแหน่งการสร้าง โดยปรับให้เข้ากับโครงสร้างเชิงสาเหตุแบบลำดับชั้นของลำดับ SID

2. แผนการทดลอง

2.1 รูปแบบการเข้ารหัส (沿用 V1)

OneSearch-V2 ใช้รูปแบบการเข้ารหัส KHQE+RQ-OPQ แบบเดียวกับ V1

งานวิจัยล่าสุดแบ่งวิธีการเข้ารหัส SID ออกเป็นสองประเภท: โหมดเดียว (single-modal) และหลายโหมด (multi-modal) แตกต่างจากระบบแนะนำ เครื่องมือค้นหาจำเป็นต้องจัดแนวคำค้นหาและสินค้าภายใต้ระบบการแบ่งคำศัพท์แบบเดียวกัน เพื่อให้แน่ใจว่าข้อจำกัดทางความหมายมีความทนทาน ซึ่งต้องมีการสร้างแบบจำลองอย่างละเอียดสำหรับความแตกต่างของการแสดงลักษณะระหว่างคำค้นหาแบบโหมดเดียวกับสินค้าแบบหลายโหมด (ซึ่งรวมถึงข้อความ รูปภาพหลายมุมมอง วิดีโออธิบาย) V1 ใช้ Qwen-VL เพื่อดึงคีย์เวิร์ดหลักของสินค้าจากข้อมูลหลายแหล่ง สร้างการแสดงข้อความแบบรวมศูนย์ วิธีการอื่นๆ พยายามป้อนข้อมูลร่วมกันหรือเข้ารหัสหลายโหมดแยกกันแล้วต่อ拼接 แต่รูปภาพหลายรูปมักแสดงคุณสมบัติที่แยกจากกัน (เช่น สีที่แตกต่างกันของชุดเดรส) และคุณสมบัติที่ซ้ำซ้อน (เช่น จำนวน/ตำแหน่งของกระดุมเสื้อยืด) สามารถนำมาซึ่งความเอนเอียง ทำให้คุณสมบัติหลักถูกกลบ ดังนั้น V2 จึงทำการทดลองอย่างกว้างขวางเพื่อประเมินความเหมาะสมของรูปแบบการเข้ารหัสต่างๆ ในบริบทของการค้นหาเชิงสร้างสรรค์ในอีคอมเมิร์ซ

เพื่อเปรียบเทียบผลกระทบของการฝังแบบหลายโหมดและโหมดเดียวอย่างครอบคลุม เราได้ทำการทดลองเปรียบเทียบภายใต้การกำหนดค่าโมเดลต่างๆ รวมถึง:

การเข้ารหัสแบบโหมดเดียวโดยใช้เฉพาะคำอธิบายข้อความ
การเข้ารหัสแบบหลายโหมด ซึ่งรวมถึงการเข้ารหัสแบบรวมศูนย์ (ประมวลผลร่วมกัน) และการเข้ารหัสแยกกันแล้วต่อ拼接
แผนการจัดลำดับชั้นคีย์เวิร์ด KHQE ของ OneSearch (ใช้การแสดงแบบโหมดเดียวสำหรับข้อมูลหลายโหมด)

เพื่อให้การทดลองง่ายขึ้น เราได้รวบรวมคู่ <คำค้นหา, สินค้า> ประมาณ 5 ล้านคู่จากการคลิกออนไลน์ โดยอินพุตสินค้าประกอบด้วยชื่อและรูปหลักสองรูปเท่านั้น การฝังทั้งหมดใช้การแบ่งคำ RQ-OPQ แบบเดียวกัน ผลลัพธ์แสดงให้เห็นว่า: วิธีการแบบโหมดเดียวดีกว่าวิธีการแบบหลายโหมดอย่างมีนัยสำคัญ (เช่น bge-base ขนาดเล็กดีกว่า Qwen3-VL ขนาดใหญ่) สาเหตุหลักคือความแตกต่างของการแสดงลักษณะข้ามโหมดและคุณสมบัติที่ซ้ำซ้อนทำให้ประสิทธิภาพของการเข้ารหัสหลายโหมดลดลง กลยุทธ์ “แยกก่อนแล้วต่อ拼接” ให้ผลลัพธ์แย่ที่สุด ซึ่งยืนยันความท้าทายนี้เพิ่มเติม KHQE ให้ผลลัพธ์ดีที่สุด โดยมีความสามารถในการดึงคุณสมบัติหลักที่แข็งแกร่งและการแสดงลำดับชั้น และโมเดลมีน้ำหนักเบา รองรับการประมวลผลคำค้นหาแบบเรียลไทม์ สร้างสมดุลที่ดีระหว่างประสิทธิภาพและประสิทธิผล สรุปได้ว่า: การเข้ารหัสการค้นหาอีคอมเมิร์ซต้องมุ่งเน้นสองประเด็นสำคัญ: การบรรเทาความแตกต่างข้ามโหมดและการเสริมข้อมูลสำคัญ

2.2 ความเข้าใจคำค้นหาแบบเสริมความคิด (Thought-augmented Query Understanding)

2.2.1 แรงจูงใจ

เครื่องมือค้นหาอีคอมเมิร์ซประมวลผลคำค้นหาจำนวนมหาศาลต่อวัน โดยเจตนาของผู้ใช้มีความซับซ้อน: คำค้นหาส่วนหัว (เช่น “อุปกรณ์ออกกำลังกายในร่ม”) แสดงออกอย่างคลุมเครือ เจตนากระจาย ส่งผลให้ขอบเขตของตัวเลือกกว้างเกินไป คำค้นหาหางยาวมีหลายประเภท (ถามตอบ/แนะนำ/จัดอันดับ/ความรู้/ปฏิเสธ/หาสินค้าทดแทน ฯลฯ) มีข้อจำกัดทางความหมายที่แข็งแกร่ง สัญญาณพฤติกรรมเบาบาง ทำให้การระบุเจตนาและการจับคู่สินค้าทำได้ยาก ในร้านค้า Kuaishou คำค้นหาที่ซับซ้อนประเภทนี้คิดเป็นประมาณ 1/3 ของจำนวนการดูหน้าเว็บ แต่มีอัตราการแปลงเพียง 8% ซึ่งมีประสิทธิภาพต่ำ OneSearch-V1 บรรเทาช่องว่างทางความหมายผ่านการจัดแนวและการเสริมการแสดงลักษณะ แต่การเพิ่มขึ้นของอัตราการคลิกเป็นรูป “U กลับหัว” โดยการปรับปรุงในส่วนหัวและส่วนหางมีจำกัด คอขวดของส่วนหัวคือ “ค้นหาอันไหน” และของส่วนหางคือ “สามารถค้นหาอะไรได้บ้าง” ห่วงโซ่ความคิดแบบชัดแจ้ง (Explicit CoT) แม้จะเพิ่มความสามารถในการอธิบาย แต่ผลลัพธ์ยาว โมเดลเล็กทำซ้ำได้ยาก SID และห่วงโซ่ความคิดแบบข้อความมีความแตกต่างกันสูง และอีคอมเมิร์ซต้องการคีย์เวิร์ดที่เน้นการจัดแนวเจตนามากกว่าการให้เหตุผลแบบเต็มกระบวนการ จำเป็นต้องมีวิธีการเสริมความหมายที่เบา มีประสิทธิภาพ และเน้นเจตนา

2.2.2 กระบวนการเสริมความคิด

เราสร้างห่วงโซ่ความคิดที่แม่นยำภายใต้ข้อจำกัดทางความหมายโดยใช้ Qwen3-32B ดึงคีย์เวิร์ดที่มีความหนาแน่นของข้อมูลสูง (เพื่อให้แน่ใจว่าเจตนา หมวดหมู่ และคุณสมบัติสอดคล้องกัน) เป็นสัญญาณความหมายเสริมในขั้นตอนการฝึก ปรับปรุงการระบุเจตนาคำค้นหาและการปรับเทียบความชอบของผู้ใช้ ในขณะเดียวกัน การใช้ห่วงโซ่ความคิดที่ขับเคลื่อนด้วยคีย์เวิร์ดช่วยลดค่าใช้จ่ายในการให้เหตุผลลงอย่างมาก โดยรวมแล้วใช้กระบวนการให้เหตุผลสามขั้นตอน

ขั้นตอนแรก การวิเคราะห์คำค้นหา ประกอบด้วยสี่ส่วน:

ความเข้าใจเจตนา ระบุเป้าหมายการค้นหาหลัก (เช่น สินค้า ร้านค้า หรือผู้ถ่ายทอดสด)
การระบุหมวดหมู่ จับคู่หมวดหมู่แบบลำดับชั้นจากหยาบไปละเอียด

2.2.2 โมดูลฟังก์ชันหลัก

การระบุคุณสมบัติ: ดึงประเภทคุณสมบัติและค่าตัวเลขที่เกี่ยวข้องอย่างแม่นยำจากคำค้นหาที่ผู้ใช้ป้อน
การแนะนำหัวข้อ: ทำนายและสร้างหัวข้อตัวเลือกที่สามารถตอบสนองความต้องการแฝงของผู้ใช้

ขั้นตอนที่ 2: การดึงคีย์เวิร์ด

สำหรับคำค้นหาที่มีเจตนาค้นหาสินค้า ระบบจะดึงคีย์เวิร์ดจากผลการวิเคราะห์ กระบวนการนี้จะใช้ข้อจำกัดความสอดคล้องของเจตนา หมวดหมู่ และคุณสมบัติ จากนั้น ผ่านการรวมคำพ้องความหมายและการตัดข้อมูลซ้ำซ้อน ในที่สุดจะแสดงผลลัพธ์ตามลำดับความนิยมของสินค้าจากมากไปน้อย สำหรับคำค้นหาที่มีเจตนาอื่น ระบบจะจัดการโดยเอ็นจิ้นเฉพาะ ซึ่งในกรณีนี้ Pipeline หลักจะสิ้นสุดลงทันที

ขั้นตอนที่ 3: การปรับเทียบความชอบ

ระบบใช้โปรไฟล์ผู้ใช้และพฤติกรรมในอดีต (เช่น คำค้นหา ลำดับสินค้าที่โต้ตอบ) ร่วมกับ LLM เพื่อรับรู้ความชอบของผู้ใช้แบบไดนามิก จากนั้นจะกรองหรือเพิ่มคีย์เวิร์ดชุดนั้นเป็นรายบุคคล ในขั้นตอนการฝึก สินค้าที่โต้ตอบแล้วในเซสชันปัจจุบันจะถูกฉีดเป็นสัญญาณที่แข็งแกร่งเข้าไปในโมเดล เพื่อให้แน่ใจว่าคีย์เวิร์ดที่เกี่ยวข้องกับสินค้าที่มีป้ายกำกับจริงจะถูกเก็บรักษาหรือถูกนำเข้ามาอย่างชัดเจน

2.2.3 รูปแบบการปรับใช้

ขั้นตอนที่สองและสามข้างต้นใช้เพื่อสร้างคลังข้อมูลฝึก < query, keywords > และ < query, user, keywords > เราออกแบบงาน CoT 4 งาน และรวมเข้ากับขั้นตอนแรกของ SFT (การจัดแนวความหมาย) ของ OneSearch-V1 ซึ่งช่วยให้โมเดลสามารถก้าวข้ามการเรียนรู้จาก log อย่างง่าย เข้าใจความรู้ของคำค้นหาอย่างลึกซึ้ง และรวมกับความชอบของผู้ใช้เพื่อค้นหาหัวข้อสินค้าที่ผู้ใช้สนใจ ซึ่งจะช่วยเพิ่มความสามารถในการให้เหตุผลที่ซับซ้อนและเป็นส่วนตัว

ในการปรับใช้ออนไลน์ กระบวนการสร้าง CoT ที่ขับเคลื่อนด้วยคีย์เวิร์ดจะดำเนินการแบบอะซิงโครนัส และผลลัพธ์จะถูกใช้สำหรับการฝึกแบบสตรีมและการอนุมานแบบ near-line สำหรับคำค้นหาเดียวกันหรือชุดค่าผสม < query, user > เดียวกัน ผลลัพธ์สามารถใช้แคชซ้ำได้ ซึ่งช่วยลดค่าใช้จ่ายในการคำนวณได้อย่างมากและทำให้เกิดความหน่วงเป็นศูนย์

หมายเหตุ: สัญลักษณ์ “+” หมายถึงการเพิ่มส่วนประกอบใหม่บนพื้นฐานของโมเดลในแถวก่อนหน้า (เพิ่มทีละขั้น) ในขณะที่ “+” หมายถึงการเพิ่มส่วนประกอบแยกต่างหากบนโมเดลหลังจากงาน CoT เสร็จสมบูรณ์

ผลการทดลองแสดงให้เห็นว่า: เมื่อขนาดโมเดลเท่ากัน แผนการแบบโหมดเดียวดีกว่าแผนการแบบหลายโหมดอย่างมีนัยสำคัญ แม้แต่โมเดล bge-base ที่มีขนาดเล็กกว่าก็ยังทำงานได้ดีกว่าโมเดล Qwen3-VL ที่มีขนาดใหญ่กว่า สาเหตุหลักมาจากความแตกต่างของการแสดงลักษณะข้ามโหมดและการมีอยู่ของคุณสมบัติที่ซ้ำซ้อน กลยุทธ์ “แยกก่อนแล้วต่อ拼接” ให้ผลลัพธ์แย่ที่สุด ซึ่งยืนยันความท้าทายข้างต้นเพิ่มเติม KHQE ให้ผลลัพธ์ที่ดีที่สุด แสดงให้เห็นถึงความสามารถในการดึงคุณสมบัติหลักที่ยอดเยี่ยมและการแสดงลำดับชั้น ขนาดโมเดลที่เล็กกว่ายังรองรับการประมวลผลคำค้นหาแบบเรียลไทม์ สร้างสมดุลที่ดีระหว่างประสิทธิภาพและประสิทธิผล นอกจากนี้ยังยืนยันประเด็นสำคัญสองประการของการเข้ารหัสการค้นหาอีคอมเมิร์ซ: การบรรเทาความแตกต่างข้ามโหมดและการเสริมข้อมูลสำคัญ

2.3 Reasoning-internalized Self-distillation (การกลั่นตัวเองที่ทำให้การให้เหตุผลเป็นภายใน)

2.3.1 แรงจูงใจ: รักษาประโยชน์จากการให้เหตุผล กำจัดค่าใช้จ่ายในการให้เหตุผล

แผนการที่ใช้งานง่าย (OneSearch สร้างคีย์เวิร์ดการให้เหตุผลก่อน แล้วจึงสร้าง SID) เป็นการยากที่โมเดลขนาดเล็กจะสร้างแบบจำลองได้ เนื่องจากการแสดงลักษณะที่แตกต่างกันอย่างมากระหว่าง SID แบบไม่ต่อเนื่องและคีย์เวิร์ดข้อความ การทดลองแสดงให้เห็นว่า การให้เหตุผลแบบ CoT อย่างชัดแจ้งกลับลดประสิทธิภาพลงอย่างมีนัยสำคัญ แย่กว่าแผนการพื้นฐานเสียอีก อีกทางเลือกหนึ่ง (การใช้คีย์เวิร์ดเป็นข้อมูลเสริมของคำค้นหา + RAG) แม้จะสามารถปรับปรุงผลการค้นคืนและการจัดอันดับได้ แต่จำเป็นต้องเรียกใช้โมดูล thought-augmented query understanding แบบออนไลน์ ซึ่งทำให้เกิดความหน่วงที่ยอมรับไม่ได้ ไม่สามารถตอบสนองข้อกำหนดด้านเวลาจริงที่เข้มงวดของการค้นหาอีคอมเมิร์ซ นอกจากนี้ ขอบเขตของคีย์เวิร์ดยังมีจำกัด ทำให้โมเดลมีแนวโน้มที่จะมุ่งเน้นเฉพาะสินค้าที่คีย์เวิร์ดครอบคลุมอย่างชัดเจน ความสามารถในการสรุปทั่วไปจึงมีจำกัด

ปัญหาหลัก: เป็นไปได้หรือไม่ที่จะรักษาหรือเพิ่มประสิทธิภาพที่ได้จากการให้เหตุผล ในขณะที่ไม่ต้องรับภาระค่าใช้จ่ายจากการให้เหตุผล?

2.3.2 กลไกหลักของการกลั่นตัวเอง

เราเสนอกลไกการกลั่นตัวเองที่ทำให้การให้เหตุผลเป็นภายใน (Reasoning-internalized Self-distillation) ซึ่งแนวคิดหลักคือการเข้ารหัสความสามารถในการให้เหตุผลแบบ CoT ที่ขับเคลื่อนด้วยคีย์เวิร์ดและใช้ความคิดอย่างลึกซึ้งลงในพารามิเตอร์ของโมเดลโดยตรง เปลี่ยนเป็นความสามารถในการให้เหตุผลแบบสัญชาตญาณที่รวดเร็ว กระบวนการนี้ไม่จำเป็นต้องแก้ไขสถาปัตยกรรมโมเดล ไม่เพิ่มจำนวนพารามิเตอร์ และไม่เพิ่ม token การให้เหตุผล เพียงแค่ฉีดความสามารถในการให้เหตุผลเข้าไปในน้ำหนักของโมเดลดั้งเดิมผ่านกระบวนการกลั่นที่ออกแบบมาโดยเฉพาะ

สูตรการกลั่นตัวเองแบบอสมมาตรข้อมูล

วิธีการกลั่นตัวเองนี้อิงตามหลักการอสมมาตรข้อมูล: โมเดลครูสามารถสังเกตข้อมูลอินพุตที่สมบูรณ์กว่าโมเดลนักเรียน ในขณะที่โมเดลนักเรียนถูกฝึกภายใต้ข้อเสียเปรียบด้านข้อมูลให้จับคู่การกระจายเอาต์พุตของโมเดลครู ประเด็นสำคัญคือ ครูและนักเรียนมีน้ำหนักโมเดลร่วมกัน ไม่จำเป็นต้องมีเครือข่ายครูแยกต่างหาก

โดยเฉพาะ โมเดลครูรับอินพุตที่สมบูรณ์ซึ่งรวมถึง CoT ระดับคีย์เวิร์ด:

โมเดลนักเรียนรับอินพุตเดียวกันโดยไม่มีคีย์เวิร์ด:

ทั้งสองสร้าง logits เอาต์พุตสำหรับลำดับป้ายกำกับเป้าหมาย

เนื่องจากการแบ่งปันน้ำหนัก ความแตกต่างระหว่างเอาต์พุตของโมเดล O_teacher และ O_student เกิดจากการมีหรือไม่มีข้อมูลคีย์เวิร์ดในอินพุตเท่านั้น เป้าหมายการกลั่นมีจุดมุ่งหมายเพื่อส่งเสริมให้นักเรียนลดช่องว่างนี้:

โดยที่,

คือชุดตำแหน่ง token ที่มีประสิทธิภาพ (ไม่ใช่ padding) τ คืออุณหภูมิการกลั่น logits ของครูจะถูกแยกออกจากกราฟคำนวณ (torch.no_grad()) การไล่ระดับของ KL divergence จะอัปเดตเฉพาะเส้นทางไปข้างหน้าของโมเดลนักเรียน เป้าหมายการฝึกพื้นฐานจะรวมการสูญเสีย cross-entropy มาตรฐานกับสัญญาณการกลั่น:

เพื่อตรวจสอบความเหนือกว่าของการกลั่นตัวเองเมื่อเทียบกับแผนการทำให้การให้เหตุผลเป็นภายในอื่นๆ เราเปรียบเทียบกลยุทธ์ทางเลือกสี่แบบ:

*   **การกลั่นด้วย token พิเศษ**: แทรก token มาร์กเกอร์เฉพาะในอินพุตของนักเรียน
*   **การจัดแนวสถานะแฝงแบบ CODI**: จัดแนวการแสดงชั้นแฝงผ่านเวกเตอร์ความคิดต่อเนื่องและการสูญเสีย L1
*   **โหมดครู EMA**: น้ำหนักครูคือค่าเฉลี่ยเคลื่อนที่แบบเอ็กซ์โปเนนเชียลของน้ำหนักนักเรียน
*   **โหมดการฝึกแบบร่วม**: ครูและนักเรียนเรียนรู้ซึ่งกันและกันแบบสองทิศทาง อัปเดตร่วมกัน

บรรเทาความไม่เสถียรของการแสดงลักษณะ

ความไม่สมมาตรของข้อมูลระหว่างครูและนักเรียนทำให้เกิดความท้าทายพื้นฐาน: นักเรียนต้องสร้างการทำนายที่มั่นใจเท่าเทียมกันจากอินพุตที่มีข้อมูลน้อยกว่าอย่างเคร่งครัด สิ่งนี้บังคับให้พื้นผิวการสูญเสียมีความคมชัดในบริเวณใกล้เคียงของอินพุตที่ไม่มีคีย์เวิร์ด: การรบกวนเล็กน้อยในพื้นที่ฝังอาจทำให้เกิดการเปลี่ยนแปลงอย่างไม่สมส่วนในเอาต์พุต เราได้ระบุรูปแบบความล้มเหลวสองรูปแบบที่เสริมกัน และใช้วิธีการทำให้เป็นมาตรฐานแบบเจาะจงเพื่อรับมือ:

*   **ความสอดคล้องของการทำนาย: R-Drop** เมื่อไม่มีคำแนะนำจากคีย์เวิร์ด การแสดงลักษณะภายในของนักเรียนสำหรับคำค้นหาที่มีความกำกวมทางความหมายจะไวต่อการรบกวนแบบสุ่มของ dropout มากขึ้น การแพร่กระจายไปข้างหน้าสองครั้งของอินพุตเดียวกันอาจสร้างการกระจายที่ไม่สอดคล้องกัน เราทำการแพร่กระจายไปข้างหน้าสองครั้งภายใต้ mask dropout อิสระ

และลดความแตกต่างให้เหลือน้อยที่สุด:

*   **ความทนทานของอินพุต: การรบกวนแบบ FGM** เพื่อเสริมบทบาทการทำให้เป็นมาตรฐานของ R-Drop ในพื้นที่เอาต์พุต เราใช้ FGM กับพื้นที่ฝังอินพุต หลังจาก backpropagation ครั้งแรก ให้รบกวนชั้นฝังที่ใช้ร่วมกันตามทิศทางการไล่ระดับ:

บนการฝังที่ถูกรบกวน

ให้ทำ forward-backward propagation ครั้งที่สองเพื่อให้ได้การไล่ระดับ สะสมแล้วกู้คืนการฝังดั้งเดิม e เพื่อแยกการมีส่วนร่วมของแต่ละองค์ประกอบและสังเกตผลเสริมฤทธิ์กับการกลั่นตัวเอง เราเพิ่ม R-Drop, FGM และ Focal Loss ทีละรายการบนโมเดล baseline และโมเดลกลั่นตัวเองตามลำดับ

เป้าหมายการเพิ่มประสิทธิภาพโดยรวม

นอกจากนี้ เราใช้ focal loss แทนการสูญเสีย cross-entropy มาตรฐาน เพื่อบรรเทาปัญหาความไม่สมดุลของหมวดหมู่หางยาวในพจนานุกรม SID

2.3.3 ข้อสรุปการทดลองที่สำคัญ

การกลั่นตัวเองเป็นตัวขับเคลื่อนประสิทธิภาพหลัก: นำมาซึ่งการปรับปรุงรายการที่ใหญ่ที่สุด (Order HR@10 +1.17%, Click HR@10 +1.67%)
Self-Distill (S) ดีกว่า Base (T): แม้ว่าจะไม่เคยสังเกตคีย์เวิร์ดในระหว่างการอนุมาน โมเดลนักเรียนที่ผ่านการกลั่นตัวเองยังคงดีกว่าโมเดลครูที่ใช้การฝึกและการประเมินแบบเสริมคีย์เวิร์ดอย่างต่อเนื่อง ซึ่งยืนยันว่าความสามารถในการให้เหตุผลถูกเข้ารหัสลงในน้ำหนักของโมเดลสำเร็จ
โหมด self-mode ดีกว่าแผนการทางเลือกทั้งหมด: เมื่อเทียบกับแผนการต่างๆ เช่น special-token, การจัดแนวสถานะแฝงแบบ CODI, EMA-mode, joint-mode การแบ่งปันน้ำหนักอย่างสมบูรณ์บวกกับความไม่สมมาตรของข้อมูลในชั้นอินพุตเป็นกระบวนทัศน์ที่มีประสิทธิภาพมากที่สุด
การทำให้เป็นมาตรฐานสามแบบเสริมฤทธิ์กัน: ผลรวมของชุดค่าผสม R-Drop, FGM และ focal loss เกินกว่าผลรวมของการมีส่วนร่วมแต่ละอย่าง ซึ่งบ่งชี้ว่าความไม่เสถียรของการแสดงลักษณะที่เกิดจากความไม่สมมาตรของข้อมูลนั้นมีหลายมิติ

2.4 Behavior Feedback Preference Alignment (การปรับแนวความชอบตามความคิดเห็นพฤติกรรม)

2.4.1 แรงจูงใจ: แทนที่ Reward Model อิสระ ใช้ความคิดเห็นพฤติกรรมผู้ใช้โดยตรง

OneSearch-V2 ใช้ความคิดเห็นพฤติกรรมโดยตรงแทน Reward Model อิสระ สร้างระบบปรับแนวความชอบ:

ออกแบบรางวัลแบบผสม: คำนึงถึงความเกี่ยวข้องของ query-item และเป้าหมาย Conversion หลายระดับ
แนะนำกลไก Token-Position Marginal Advantage (TPMA): กำหนดเครดิตตามความแตกต่างของตำแหน่งในลำดับ SID เพื่อปรับให้เข้ากับโครงสร้างเชิงสาเหตุแบบลำดับชั้นจากหยาบไปละเอียด
รองรับการอัปเดตแบบสตรีมและการแทรกแซงทางธุรกิจที่ยืดหยุ่น

2.4.2 การออกแบบรางวัลแบบผสม

เวอร์ชันเขียนใหม่เชิงลึกและลดความซ้ำซ้อน

สำหรับแต่ละ rollout ที่สร้างขึ้น (เช่น ลำดับ SID) ระบบจะคำนวณรางวัลสเกลาร์ ซึ่งรวมสัญญาณเสริมสามอย่าง:

รางวัลความเกี่ยวข้อง: ใช้ระบบประเมินความเกี่ยวข้องที่มีอยู่ แบ่งสินค้าที่สร้างออกเป็นสี่ระดับ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/34604

Like (0)

0 0

Fast-dVLM: การแพร่กระจายแบบบล็อกพลิกโฉมการถดถอยอัตโนมัติ เพิ่มความเร็วการอนุมาน VLM ถึง 6 เท่า แบนด์วิดท์หน่วยความจำไม่เป็นอุปสรรคอีกต่อไป

Previous 5 hours ago

การถอดรหัสแบบเก็งกำไรในสภาวะที่มีการเข้าถึงพร้อมกันสูงล้มเหลว? อาลีเสนอ ECHO: เปลี่ยนการจัดสรรงบประมาณการตรวจสอบเป็นการเพิ่มปริมาณงาน 14.4%

Next 5 hours ago

ข่าวสารอุตสาหกรรม AI

AI ชุบชีวิตเกมในตำนาน 30 ปี! Claude วิศวกรรมย้อนกลับภาษาสคริปต์ที่กำหนดเอง สร้าง MMO ต้นแบบใหม่ในวันหยุดสุดสัปดาห์

Claude “ฟื้นคืนชีพ” เกมในตำนานเมื่อ 30 ปีก่อน: วิศวกรรมย้อนกลับภาษาสคริปต์กำหนดเองภายในสุดสัปดาห์เดียว การแบ่งปันเทคนิคหนึ่งในชุมชน Reddit ได้จุดกระแสการอภิปรายอย่างร้อ…

2026年4月12日
123000
ข่าวสารอุตสาหกรรม AI

ทีม Tsinghua เปิดตัว Motus: โลกแบบจำลองแรกที่รวมห้าพาราไดม์หลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

ทีมจากมหาวิทยาลัยชิงหวาเปิดตัว Motus: แบบจำลองโลกเชิงกายภาพแบบรวมแรกที่รวมห้าแนวทางหลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40% Motus ซึ่งเป็นแบบจำลองโลกแบบรวมที่เปิดตัวโดย Shengshu Te…

2026年2月6日
299000
ข่าวสารอุตสาหกรรม AI

Meta ลงนามสัญญาระยะยาว 5 ปีกับ Broadcom สำหรับชิป AI ตั้งเป้าสร้างซูเปอร์อัจฉริยะส่วนบุคคลสำหรับหลายพันล้านคน

【บทนำ】 Meta ลงนามข้อตกลงความร่วมมือระยะเวลา 5 ปีกับยักษ์ใหญ่ด้านชิป Broadcom โดยมีเป้าหมายเพื่อสร้างโครงสร้างพื้นฐานการคำนวณ AI ขนาดใหญ่ ผนวกกับการพัฒนาชิปเอง ศูนย์ข้อมูลระดับกิกะว…

2026年4月15日
105000
ข่าวสารอุตสาหกรรม AI

AI Token พุ่งกระฉูด: พนักงานดิสนีย์ใช้ Claude ทุก 1.7 วินาที Meta ทุ่ม 9 พันล้านดอลลาร์ ซิลิคอนแวลลีย์คลั่งคลื่น Tokenmaxxing

AI Token พุ่งกระฉูด: พนักงานดิสนีย์ใช้ Claude ทุก 1.7 วินาที Meta ทุ่ม 9 พันล้านดอลลาร์ ซิลิคอนแวลลีย์คลั่งคลื่น Tokenmaxxing ส่วนที่ 1: จากดิสนีย์ถึงซิลิคอนแวลลีย์ ยุค Tokenmaxxin…

2026年5月4日
66000
ข่าวสารอุตสาหกรรม AI

AI แทนที่มนุษย์เป็นประเด็นร้อน: Block ลดพนักงาน 40% หุ้นพุ่ง 25% ผู้คน 47 ล้านคนติดตาม

ฉันมีความรู้สึกเลือนลางว่า จดหมายปลดพนักงานฉบับนี้จะถูกบันทึกไว้ในประวัติศาสตร์… ในอนาคต มันอาจถูกจดจำในฐานะเหตุการณ์สำคัญที่ ‘มนุษย์เข้าสู่ยุค XXX อย่างเป็นทางการ&#821…

2026年2月27日
314000

快手 OneSearch-V2: การเสริมสร้างการให้เหตุผลในพื้นที่แฝง นวัตกรรมใหม่ในการค้นหาอีคอมเมิร์ซ

2.2.2 โมดูลฟังก์ชันหลัก

ขั้นตอนที่ 2: การดึงคีย์เวิร์ด

ขั้นตอนที่ 3: การปรับเทียบความชอบ

2.2.3 รูปแบบการปรับใช้

2.3 Reasoning-internalized Self-distillation (การกลั่นตัวเองที่ทำให้การให้เหตุผลเป็นภายใน)

2.3.1 แรงจูงใจ: รักษาประโยชน์จากการให้เหตุผล กำจัดค่าใช้จ่ายในการให้เหตุผล

2.3.2 กลไกหลักของการกลั่นตัวเอง

2.3.3 ข้อสรุปการทดลองที่สำคัญ

2.4 Behavior Feedback Preference Alignment (การปรับแนวความชอบตามความคิดเห็นพฤติกรรม)

2.4.1 แรงจูงใจ: แทนที่ Reward Model อิสระ ใช้ความคิดเห็นพฤติกรรมผู้ใช้โดยตรง

2.4.2 การออกแบบรางวัลแบบผสม

เวอร์ชันเขียนใหม่เชิงลึกและลดความซ้ำซ้อน

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

AI ชุบชีวิตเกมในตำนาน 30 ปี! Claude วิศวกรรมย้อนกลับภาษาสคริปต์ที่กำหนดเอง สร้าง MMO ต้นแบบใหม่ในวันหยุดสุดสัปดาห์

ทีม Tsinghua เปิดตัว Motus: โลกแบบจำลองแรกที่รวมห้าพาราไดม์หลัก ประสิทธิภาพเหนือกว่า Pi-0.5 ถึง 40%

Meta ลงนามสัญญาระยะยาว 5 ปีกับ Broadcom สำหรับชิป AI ตั้งเป้าสร้างซูเปอร์อัจฉริยะส่วนบุคคลสำหรับหลายพันล้านคน

AI Token พุ่งกระฉูด: พนักงานดิสนีย์ใช้ Claude ทุก 1.7 วินาที Meta ทุ่ม 9 พันล้านดอลลาร์ ซิลิคอนแวลลีย์คลั่งคลื่น Tokenmaxxing

AI แทนที่มนุษย์เป็นประเด็นร้อน: Block ลดพนักงาน 40% หุ้นพุ่ง 25% ผู้คน 47 ล้านคนติดตาม