เมื่อระบบแนะนำพบกับกระบวนทัศน์โมเดลขนาดใหญ่ (LLM) เพดานของการสร้างรายได้จากโฆษณาก็ถูกทำลายอีกครั้ง Kuaishou ได้เสนอ GR4AD ซึ่งเป็นการนำระบบแนะนำแบบเจเนอเรทีฟไปใช้เต็มรูปแบบครั้งแรกในจีนสำหรับสถานการณ์โฆษณาขนาดใหญ่ ทำให้รายได้จากโฆษณาเพิ่มขึ้น 4.2% และให้บริการผู้ใช้กว่า 400 ล้านคน

หนึ่ง บทนำ: กระบวนทัศน์ใหม่ของ “การแนะนำควรทำอย่างไร”
ในช่วงทศวรรษที่ผ่านมา โมเดลแนะนำด้วยการเรียนรู้เชิงลึก (DLRM) ครองระบบแนะนำในอุตสาหกรรมเกือบทั้งหมด ตั้งแต่การดึงคืน การจัดอันดับ การผสมข้ามคุณลักษณะ ไปจนถึงการสร้างแบบจำลองลำดับ พวกมันสร้างสแต็กเทคโนโลยีที่成熟และมั่นคง อย่างไรก็ตาม เมื่อคลื่นลูกใหญ่ของโมเดลภาษาขนาดใหญ่ (LLM) พัดเข้ามา คำถามพื้นฐานก็ถูกตั้งขึ้น: เป็นไปได้หรือไม่ที่จะ “สร้าง” ผลการแนะนำโดยตรง เหมือนกับการสร้างข้อความ?
นี่คือแนวคิดหลักของการแนะนำแบบเจเนอเรทีฟ (Generative Recommendation) งานหลายชิ้น เช่น TIGER, OneRec ได้พิสูจน์ความได้เปรียบของกระบวนทัศน์นี้ในสถานการณ์แนะนำตามธรรมชาติแล้ว แต่เมื่อสนามรบย้ายไปสู่ระบบโฆษณาขนาดใหญ่ ซึ่งเป็นพื้นที่ที่มีข้อกำหนดสูงสุดในด้านเวลาแฝง รายได้ และคุณค่าทางธุรกิจ ความท้าทายก็ไม่ตรงไปตรงมาอย่างนั้น
บทความวิจัยของ Kuaishou นี้คือคำตอบสำหรับปัญหาระดับอุตสาหกรรมนี้ พวกเขาเสนอ GR4AD (Generative Recommendation for ADvertising) ซึ่งเป็นระบบแนะนำโฆษณาแบบเจเนอเรทีฟที่ออกแบบร่วมกันในสามระดับ: การแสดงลักษณะ การเรียนรู้ และการให้บริการ และได้ถูกปรับใช้เต็มรูปแบบบนแพลตฟอร์มโฆษณาของ Kuaishou ให้บริการผู้ใช้กว่า 400 ล้านคน
สอง ปัญหาและความท้าทาย: ความท้าทายสามประการในสถานการณ์โฆษณา
บทความระบุชัดเจนตั้งแต่ต้นว่า การย้ายกระบวนทัศน์การฝึกอบรมและการอนุมานของ LLM ไปใช้กับการแนะนำโฆษณาโดยตรงนั้นใช้ไม่ได้ โดยเฉพาะอย่างยิ่ง สถานการณ์โฆษณามีความท้าทายหลักสามประการที่เป็นเอกลักษณ์:
ความท้าทายที่หนึ่ง: การแปลงโฆษณาเป็นโทเค็น (Tokenization) – การเข้ารหัสข้อมูลหลากหลายให้เป็นหนึ่งเดียว
โฆษณาไม่ใช่คลิปวิดีโอสั้นธรรมดา โฆษณาหนึ่งรายการผสมผสานข้อมูลหลายรูปแบบและหลายระดับ เช่น ความคิดสร้างสรรค์วิดีโอ รายละเอียดสินค้า ข้อมูลเมตาของผู้ลงโฆษณา ที่ซับซ้อนยิ่งขึ้นคือ แพลตฟอร์มยังรวมสัญญาณธุรกิจที่สำคัญ เช่น ประเภทการแปลง (conversion type) บัญชีโฆษณา ซึ่งสัญญาณเหล่านี้มีคุณค่าทางธุรกิจสูง แต่แทบไม่มี “เนื้อหาทางความหมาย” เลย จะออกแบบระบบโทเค็นแบบรวมศูนย์สำหรับวัสดุโฆษณาที่สามารถจับความหมายและเข้ารหัสข้อมูลธุรกิจได้อย่างไร?
ความท้าทายที่สอง: กระบวนทัศน์การเรียนรู้ – การปรับให้เหมาะสมในระดับรายการ (list-level) สำหรับคุณค่าทางธุรกิจ
เป้าหมายการปรับให้เหมาะสมของการแนะนำโฆษณาไม่ใช่แค่การ “ทำนายการคลิกของผู้ใช้” แต่เป็นการเพิ่มมูลค่าทางธุรกิจให้สูงสุดภายใต้ตัวชี้วัดระดับรายการ เช่น การจัดอันดับ eCPM, NDCG วิธีการแนะนำแบบเจเนอเรทีฟที่มีอยู่ส่วนใหญ่ยังคงใช้วิธีการฝึกอบรมแบบหลายขั้นตอนของ LLM ซึ่งไม่เหมาะสมบูรณ์กับการเรียนรู้ออนไลน์อย่างต่อเนื่องในสถานการณ์แนะนำขนาดใหญ่ และขาดการออกแบบการเรียนรู้ระดับรายการสำหรับการจัดอันดับ
ความท้าทายที่สาม: การให้บริการแบบเรียลไทม์ – ปัญหาความสามารถในการคำนวณสำหรับการสร้างผู้สมัครหลายรายการ
ต่างจากรูปแบบการแชทของ LLM ที่ “สร้างการตอบกลับเดียวและยอมรับความล่าช้าที่สูงกว่าได้” ระบบโฆษณาต้องการสร้างผู้สมัครคุณภาพสูงจำนวนมากพร้อมกันผ่าน Beam Search ภายใต้ QPS สูงมากและเวลาแฝงต่ำมาก (<100ms) นี่เป็นปัญหาการปรับให้เหมาะสมที่แตกต่างอย่างสิ้นเชิงจากการอนุมาน LLM มาตรฐาน
สาม วิธีการ: หนทางแก้ไขด้วยการออกแบบร่วมกันตลอดทั้งสายงาน
วิธีวิทยาของ GR4AD สามารถสรุปได้ว่าเป็นการออกแบบดั้งเดิมสำหรับการแนะนำแบบ “สามประสาน” คือ “การแสดงลักษณะ-การเรียนรู้-การอนุมาน”

3.1 รหัสประจำตัวความหมายโฆษณาแบบรวมศูนย์ (UA-SID): ให้ “บัตรประจำตัว” แก่โฆษณา
แนวคิดหลัก: ใช้โมเดลขนาดใหญ่หลายรูปแบบ (MLLM) ที่ปรับแต่งปลายทางถึงปลายทาง (end-to-end fine-tuning) เพื่อสร้างการฝังตัว (embedding) แบบรวมศูนย์สำหรับโฆษณาแต่ละรายการ จากนั้นเข้ารหัสเป็น Semantic ID แบบไม่ต่อเนื่องผ่านวิธีการหาปริมาณ (quantization)

ขั้นตอนที่หนึ่ง: การฝังตัวโฆษณาแบบรวมศูนย์ (UAE)
* การปรับแต่งด้วยคำสั่ง (Instruction Tuning): สำหรับรูปแบบโฆษณาทั่วไป 6 ประเภทของ Kuaishou (เช่น ถ่ายทอดสด สินค้า การส่งเสริมโดยผู้มีอิทธิพล) ได้ออกแบบเทมเพลตพร้อมท์ 6 ชุด เพื่อชี้นำ MLLM ให้เข้าใจเนื้อหาโฆษณาจากมุมมองที่ต่างกัน ตัวอย่างเช่น สำหรับโฆษณาประเภทถ่ายทอดสด ชี้นำโมเดลให้วิเคราะห์โปรไฟล์ของสตรีมเมอร์และลักษณะภูมิภาค สำหรับโฆษณาที่ลงนอกแพลตฟอร์ม จะเน้นที่อุตสาหกรรมผลิตภัณฑ์และข้อมูลแบรนด์
* การเรียนรู้ร่วมเกิด (Co-occurrence Learning): ความสัมพันธ์ร่วมเกิดในพฤติกรรมของผู้ใช้มีสัญญาณร่วมกันที่อุดมสมบูรณ์ บทความใช้วิธี Swing เพื่อประมาณความเข้มของการร่วมเกิดของวัสดุ และใช้เป้าหมายการเรียนรู้แบบเปรียบเทียบ InfoNCE เพื่อฉีดสัญญาณเหล่านี้เข้าไปในการแสดงลักษณะ

ขั้นตอนที่สอง: การหาปริมาณ MGMR RQ-Kmeans
นี่คือนวัตกรรมสำคัญของ UA-SID บทความเสนอกลยุทธ์การหาปริมาณ RQ-Kmeans แบบหลายระดับความละเอียด-หลายความละเอียด (Multi-Granularity-Multi-Resolution):
* หลายความละเอียด (MR): ระดับต่ำใช้ codebook ขนาดใหญ่เพื่อจับปัจจัยความหมายหลัก ระดับสูงใช้ codebook ขนาดเล็กเพื่อสร้างแบบจำลองค่าความคลาดเคลื่อน (residual) ที่เอนโทรปีต่ำ เพิ่มประสิทธิภาพการใช้ codebook ได้อย่างมีประสิทธิภาพ
* หลายระดับความละเอียด (MG): ในชั้นสุดท้าย ใช้การแมปแฮชตามคุณลักษณะที่ไม่ใช่ความหมายแทนการหาปริมาณเวกเตอร์ – เข้ารหัสสัญญาณธุรกิจ เช่น ประเภทการแปลง รหัสบัญชี ลงใน SID โดยตรง แก้ไขปัญหาการชนกันของ SID ที่เกิดจาก “เนื้อหาเดียวกัน แต่กลยุทธ์การลงโฆษณาต่างกัน” ได้ในทีเดียว
ในที่สุด วัสดุโฆษณาแต่ละรายการจะถูกแมปเป็นลำดับ UA-SID แบบไม่ต่อเนื่อง

3.2 LazyAR: ปัญญาอันยิ่งใหญ่ของดีโคเดอร์ขี้เกียจ
การแนะนำแบบเจเนอเรทีฟจำเป็นต้องสร้างลำดับ SID ของผู้สมัครหลายรายการผ่าน Beam Search ในระหว่างการอนุมาน การดีโค้ดแบบออโตรีเกรสซีฟมาตรฐานต้องการให้แต่ละเลเยอร์ขึ้นอยู่กับเอาต์พุตของขั้นตอนก่อนหน้า ซึ่งจะสร้างคอขวดการคำนวณขนาดใหญ่เมื่อจำนวน Beam มีขนาดใหญ่
ข้อสังเกตสำคัญของบทความคือ: SID ชั้นแรกเรียนรู้ยากที่สุด มีการสูญเสียมากที่สุด แต่ Beam ของมันมีเพียง 1 (เริ่มจาก BOS) ชั้นต่อมาทำนายได้ง่ายกว่า แต่ Beam ขยายตัวแบบเอกซ์โพเนนเชียล การคำนวณส่วนใหญ่ถูก浪費ไปกับ “สิ่งที่ง่าย”

การดำเนินการหลักของ LazyAR: “เลื่อน” การพึ่งพาโทเค็นขั้นตอนก่อนหน้าไปฉีดในเลเยอร์กลางบางเลเยอร์ (เลเยอร์ที่ K):
* เลเยอร์ K แรก (เลเยอร์ขนาน): ไม่ขึ้นกับโทเค็นขั้นตอนก่อนหน้า คำนวณเฉพาะตามการเข้ารหัสตำแหน่งและบริบท X ทุกระดับและทุก Beam สามารถคำนวณแบบขนานและแชร์กันได้
* เลเยอร์ L-K หลัง (เลเยอร์ออโตรีเกรสซีฟ): ฉีดการฝังตัว SID ของขั้นตอนก่อนหน้าแล้วทำการดีโค้ดออโตรีเกรสซีฟมาตรฐาน
ทำไม LazyAR ถึงได้ผล?
1. กระบวนการดีโค้ด SID ชั้นแรกไม่ได้รับผลกระทบเลย (จาก BOS ผ่านเลเยอร์ L ทั้งหมด)
2. เลเยอร์ K แรกทำการอนุมานในพื้นที่แฝง (latent space) สามารถเข้ารหัสสัญญาณที่มีประโยชน์เกี่ยวกับโทเค็นผู้สมัคร
3. นำการสูญเสียเสริม MTP มาใช้ บังคับให้เลเยอร์ K แรกสามารถเรียนรู้ข้อมูลที่เพียงพอได้แม้ไม่มีโทเค็นขั้นตอนก่อนหน้า
4. K เป็นไฮเปอร์พารามิเตอร์ที่ปรับได้ ให้การแลกเปลี่ยนความแม่นยำ-ประสิทธิภาพที่ยืดหยุ่น ในการทดลอง
เพิ่มปริมาณงานการอนุมานเป็นสองเท่าในขณะที่รักษาคุณภาพการแนะนำ
บทความระบุเป็นพิเศษ: การออกแบบนี้เป็นแบบดั้งเดิมสำหรับการแนะนำ ไม่เหมาะสำหรับการดีโค้ด LLM มาตรฐาน เนื่องจากโดยปกติการดีโค้ด LLM ไม่ใช้ Beam Search และความยากในการทำนายโทเค็นต่อๆ ไปไม่จำเป็นต้องลดลง
3.3 การเรียนรู้ภายใต้การดูแลที่รับรู้คุณค่า (VSL)
ในสถานการณ์โฆษณา ตัวอย่างต่างๆ มีความแตกต่างอย่างมีนัยสำคัญในคุณค่าทางธุรกิจ VSL ทำสามสิ่งรอบๆ การ “รับรู้คุณค่า”:
① การทำนายร่วมกันของ SID + eCPM: นอกเหนือจากการสูญเสียเอนโทรปีข้ามมาตรฐานของ SID แล้ว ให้แยก eCPM ออกเป็นถัง (bucket) และเพิ่มเป็นโทเค็นการทำนายเพิ่มเติม
② การให้น้ำหนักตัวอย่างที่รับรู้คุณค่า: น้ำหนักของแต่ละตัวอย่าง
ผู้ใช้ที่มีมูลค่าโฆษณาสูงและพฤติกรรมการโต้ตอบลึก (เช่น การซื้อ) ได้รับน้ำหนักที่สูงกว่า
③ การสูญเสียเสริม MTP: ร่วมกับ LazyAR บังคับให้คุณภาพการแสดงลักษณะของการดีโค้ดขนานของเลเยอร์ K แรก
เป้าหมาย VSL สุดท้าย:
3.4 การเรียนรู้แบบเสริมกำลังที่ชี้นำโดยการจัดอันดับ (RSPO): จาก “การเรียนรู้การกระจาย” สู่ “การปรับให้เหมาะสมการจัดอันดับ”
VSL สามารถปรับให้เข้ากับการกระจายข้อมูลประวัติได้ แต่มันไม่ได้ปรับให้เหมาะสมเป้าหมายการจัดอันดับขั้นปลายโดยตรง และไม่สนับสนุนการสำรวจการกระจายป้ายกำกับที่ไม่รู้จัก บทความจึงแนะนำ RSPO (Ranking-Guided Softmax Preference Optimization) ซึ่งเป็นอัลกอริธึม RL สำหรับการปรับให้เหมาะสม NDCG ระดับรายการ
การสูญเสียหลักของ RSPO:
โดยที่
ปฏิบัติตามกรอบ Lambda บทความพิสูจน์ว่า RSPO เป็นขอบเขตบนของ NDCGcost ซึ่งรับประกันการปรับให้เหมาะสมตัวชี้วัดการจัดอันดับโดยตรงจากทฤษฎี
การออกแบบทางวิศวกรรมที่ประณีตหลายประการ:
สี่ การปรับใช้ออนไลน์: การออกแบบระบบวงจรปิดเต็มรูปแบบระดับอุตสาหกรรม
GR4AD (พารามิเตอร์ 0.16B) ได้รับการปรับใช้เต็มรูปแบบในระบบโฆษณาของ Kuaishou แล้ว สร้างวงจรอุตสาหกรรมที่สมบูรณ์ตั้งแต่ “การประมาณรางวัล → การเรียนรู้ออนไลน์ → ดัชนีเรียลไทม์ → การให้บริการเรียลไทม์”

4.1 โมดูลหลักสี่ประการ
- ระบบรางวัล: ฝึกโมเดลรางวัลแยกต่างหาก เพื่อให้คะแนน eCPM แก่โฆษณาผู้สมัครที่สร้างโดย GR4AD ระบบนี้ทำการสำรวจ Beam Search ที่กว้างขึ้นในสภาพแวดล้อมที่มีข้อจำกัดความล่าช้าที่ผ่อนคลาย เพื่อให้สัญญาณคุณภาพสูงสำหรับการฝึกการเรียนรู้แบบเสริมกำลัง
- โมดูลการเรียนรู้ออนไลน์: สร้างสัญญาณการฝึกสองประเภทคือ VSL และ RL แบบเรียลไทม์ ดำเนินการอัปเดตพารามิเตอร์แบบแบตช์เล็กอย่างต่อเนื่อง และส่งพารามิเตอร์โมเดลที่อัปเดตแล้วไปยังเซิร์ฟเวอร์บริการอนุมานแบบเรียลไทม์
- โมดูลดัชนีเรียลไทม์: ใช้ SID แทนดัชนีเวกเตอร์ฝังตัวแบบดั้งเดิม เมื่อวัสดุใหม่มาถึง เพียงแค่คำนวณ UA-SID ของมันและอัปเดตดัชนีสองทาง “UA-SID ↔ รหัสวัสดุ” ก็สามารถมีผลในระดับวินาทีได้ ปรับปรุงอัตราครอบคลุมและความทันเวลาของวัสดุที่เริ่มต้นเย็นได้อย่างมาก
- เครื่องยนต์ให้บริการเรียลไทม์: รับผิดชอบการประมวลผลคำขอผู้ใช้ และส่งคืนรายการโฆษณาที่จัดอันดับแล้ว
4.2 การปรับให้เหมาะสมประสิทธิภาพการอนุมาน: การจัดกำหนดการแบบไดนามิกและการเร่งความเร็วทางวิศวกรรม
บริการ Beam แบบไดนามิกเป็นหัวใจสำคัญในการเพิ่มประสิทธิภาพการอนุมาน
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28508
