Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

เมื่อระบบแนะนำพบกับกระบวนทัศน์โมเดลขนาดใหญ่ (LLM) เพดานของการสร้างรายได้จากโฆษณาก็ถูกทำลายอีกครั้ง Kuaishou ได้เสนอ GR4AD ซึ่งเป็นการนำระบบแนะนำแบบเจเนอเรทีฟไปใช้เต็มรูปแบบครั้งแรกในจีนสำหรับสถานการณ์โฆษณาขนาดใหญ่ ทำให้รายได้จากโฆษณาเพิ่มขึ้น 4.2% และให้บริการผู้ใช้กว่า 400 ล้านคน

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

หนึ่ง บทนำ: กระบวนทัศน์ใหม่ของ “การแนะนำควรทำอย่างไร”

ในช่วงทศวรรษที่ผ่านมา โมเดลแนะนำด้วยการเรียนรู้เชิงลึก (DLRM) ครองระบบแนะนำในอุตสาหกรรมเกือบทั้งหมด ตั้งแต่การดึงคืน การจัดอันดับ การผสมข้ามคุณลักษณะ ไปจนถึงการสร้างแบบจำลองลำดับ พวกมันสร้างสแต็กเทคโนโลยีที่成熟และมั่นคง อย่างไรก็ตาม เมื่อคลื่นลูกใหญ่ของโมเดลภาษาขนาดใหญ่ (LLM) พัดเข้ามา คำถามพื้นฐานก็ถูกตั้งขึ้น: เป็นไปได้หรือไม่ที่จะ “สร้าง” ผลการแนะนำโดยตรง เหมือนกับการสร้างข้อความ?

นี่คือแนวคิดหลักของการแนะนำแบบเจเนอเรทีฟ (Generative Recommendation) งานหลายชิ้น เช่น TIGER, OneRec ได้พิสูจน์ความได้เปรียบของกระบวนทัศน์นี้ในสถานการณ์แนะนำตามธรรมชาติแล้ว แต่เมื่อสนามรบย้ายไปสู่ระบบโฆษณาขนาดใหญ่ ซึ่งเป็นพื้นที่ที่มีข้อกำหนดสูงสุดในด้านเวลาแฝง รายได้ และคุณค่าทางธุรกิจ ความท้าทายก็ไม่ตรงไปตรงมาอย่างนั้น

บทความวิจัยของ Kuaishou นี้คือคำตอบสำหรับปัญหาระดับอุตสาหกรรมนี้ พวกเขาเสนอ GR4AD (Generative Recommendation for ADvertising) ซึ่งเป็นระบบแนะนำโฆษณาแบบเจเนอเรทีฟที่ออกแบบร่วมกันในสามระดับ: การแสดงลักษณะ การเรียนรู้ และการให้บริการ และได้ถูกปรับใช้เต็มรูปแบบบนแพลตฟอร์มโฆษณาของ Kuaishou ให้บริการผู้ใช้กว่า 400 ล้านคน

สอง ปัญหาและความท้าทาย: ความท้าทายสามประการในสถานการณ์โฆษณา

บทความระบุชัดเจนตั้งแต่ต้นว่า การย้ายกระบวนทัศน์การฝึกอบรมและการอนุมานของ LLM ไปใช้กับการแนะนำโฆษณาโดยตรงนั้นใช้ไม่ได้ โดยเฉพาะอย่างยิ่ง สถานการณ์โฆษณามีความท้าทายหลักสามประการที่เป็นเอกลักษณ์:

ความท้าทายที่หนึ่ง: การแปลงโฆษณาเป็นโทเค็น (Tokenization) – การเข้ารหัสข้อมูลหลากหลายให้เป็นหนึ่งเดียว
โฆษณาไม่ใช่คลิปวิดีโอสั้นธรรมดา โฆษณาหนึ่งรายการผสมผสานข้อมูลหลายรูปแบบและหลายระดับ เช่น ความคิดสร้างสรรค์วิดีโอ รายละเอียดสินค้า ข้อมูลเมตาของผู้ลงโฆษณา ที่ซับซ้อนยิ่งขึ้นคือ แพลตฟอร์มยังรวมสัญญาณธุรกิจที่สำคัญ เช่น ประเภทการแปลง (conversion type) บัญชีโฆษณา ซึ่งสัญญาณเหล่านี้มีคุณค่าทางธุรกิจสูง แต่แทบไม่มี “เนื้อหาทางความหมาย” เลย จะออกแบบระบบโทเค็นแบบรวมศูนย์สำหรับวัสดุโฆษณาที่สามารถจับความหมายและเข้ารหัสข้อมูลธุรกิจได้อย่างไร?

ความท้าทายที่สอง: กระบวนทัศน์การเรียนรู้ – การปรับให้เหมาะสมในระดับรายการ (list-level) สำหรับคุณค่าทางธุรกิจ
เป้าหมายการปรับให้เหมาะสมของการแนะนำโฆษณาไม่ใช่แค่การ “ทำนายการคลิกของผู้ใช้” แต่เป็นการเพิ่มมูลค่าทางธุรกิจให้สูงสุดภายใต้ตัวชี้วัดระดับรายการ เช่น การจัดอันดับ eCPM, NDCG วิธีการแนะนำแบบเจเนอเรทีฟที่มีอยู่ส่วนใหญ่ยังคงใช้วิธีการฝึกอบรมแบบหลายขั้นตอนของ LLM ซึ่งไม่เหมาะสมบูรณ์กับการเรียนรู้ออนไลน์อย่างต่อเนื่องในสถานการณ์แนะนำขนาดใหญ่ และขาดการออกแบบการเรียนรู้ระดับรายการสำหรับการจัดอันดับ

ความท้าทายที่สาม: การให้บริการแบบเรียลไทม์ – ปัญหาความสามารถในการคำนวณสำหรับการสร้างผู้สมัครหลายรายการ
ต่างจากรูปแบบการแชทของ LLM ที่ “สร้างการตอบกลับเดียวและยอมรับความล่าช้าที่สูงกว่าได้” ระบบโฆษณาต้องการสร้างผู้สมัครคุณภาพสูงจำนวนมากพร้อมกันผ่าน Beam Search ภายใต้ QPS สูงมากและเวลาแฝงต่ำมาก (<100ms) นี่เป็นปัญหาการปรับให้เหมาะสมที่แตกต่างอย่างสิ้นเชิงจากการอนุมาน LLM มาตรฐาน

สาม วิธีการ: หนทางแก้ไขด้วยการออกแบบร่วมกันตลอดทั้งสายงาน

วิธีวิทยาของ GR4AD สามารถสรุปได้ว่าเป็นการออกแบบดั้งเดิมสำหรับการแนะนำแบบ “สามประสาน” คือ “การแสดงลักษณะ-การเรียนรู้-การอนุมาน”

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

3.1 รหัสประจำตัวความหมายโฆษณาแบบรวมศูนย์ (UA-SID): ให้ “บัตรประจำตัว” แก่โฆษณา
แนวคิดหลัก: ใช้โมเดลขนาดใหญ่หลายรูปแบบ (MLLM) ที่ปรับแต่งปลายทางถึงปลายทาง (end-to-end fine-tuning) เพื่อสร้างการฝังตัว (embedding) แบบรวมศูนย์สำหรับโฆษณาแต่ละรายการ จากนั้นเข้ารหัสเป็น Semantic ID แบบไม่ต่อเนื่องผ่านวิธีการหาปริมาณ (quantization)

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

ขั้นตอนที่หนึ่ง: การฝังตัวโฆษณาแบบรวมศูนย์ (UAE)
* การปรับแต่งด้วยคำสั่ง (Instruction Tuning): สำหรับรูปแบบโฆษณาทั่วไป 6 ประเภทของ Kuaishou (เช่น ถ่ายทอดสด สินค้า การส่งเสริมโดยผู้มีอิทธิพล) ได้ออกแบบเทมเพลตพร้อมท์ 6 ชุด เพื่อชี้นำ MLLM ให้เข้าใจเนื้อหาโฆษณาจากมุมมองที่ต่างกัน ตัวอย่างเช่น สำหรับโฆษณาประเภทถ่ายทอดสด ชี้นำโมเดลให้วิเคราะห์โปรไฟล์ของสตรีมเมอร์และลักษณะภูมิภาค สำหรับโฆษณาที่ลงนอกแพลตฟอร์ม จะเน้นที่อุตสาหกรรมผลิตภัณฑ์และข้อมูลแบรนด์
* การเรียนรู้ร่วมเกิด (Co-occurrence Learning): ความสัมพันธ์ร่วมเกิดในพฤติกรรมของผู้ใช้มีสัญญาณร่วมกันที่อุดมสมบูรณ์ บทความใช้วิธี Swing เพื่อประมาณความเข้มของการร่วมเกิดของวัสดุ และใช้เป้าหมายการเรียนรู้แบบเปรียบเทียบ InfoNCE เพื่อฉีดสัญญาณเหล่านี้เข้าไปในการแสดงลักษณะ

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

ขั้นตอนที่สอง: การหาปริมาณ MGMR RQ-Kmeans
นี่คือนวัตกรรมสำคัญของ UA-SID บทความเสนอกลยุทธ์การหาปริมาณ RQ-Kmeans แบบหลายระดับความละเอียด-หลายความละเอียด (Multi-Granularity-Multi-Resolution):
* หลายความละเอียด (MR): ระดับต่ำใช้ codebook ขนาดใหญ่เพื่อจับปัจจัยความหมายหลัก ระดับสูงใช้ codebook ขนาดเล็กเพื่อสร้างแบบจำลองค่าความคลาดเคลื่อน (residual) ที่เอนโทรปีต่ำ เพิ่มประสิทธิภาพการใช้ codebook ได้อย่างมีประสิทธิภาพ
* หลายระดับความละเอียด (MG): ในชั้นสุดท้าย ใช้การแมปแฮชตามคุณลักษณะที่ไม่ใช่ความหมายแทนการหาปริมาณเวกเตอร์ – เข้ารหัสสัญญาณธุรกิจ เช่น ประเภทการแปลง รหัสบัญชี ลงใน SID โดยตรง แก้ไขปัญหาการชนกันของ SID ที่เกิดจาก “เนื้อหาเดียวกัน แต่กลยุทธ์การลงโฆษณาต่างกัน” ได้ในทีเดียว

ในที่สุด วัสดุโฆษณาแต่ละรายการจะถูกแมปเป็นลำดับ UA-SID แบบไม่ต่อเนื่อง

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

3.2 LazyAR: ปัญญาอันยิ่งใหญ่ของดีโคเดอร์ขี้เกียจ
การแนะนำแบบเจเนอเรทีฟจำเป็นต้องสร้างลำดับ SID ของผู้สมัครหลายรายการผ่าน Beam Search ในระหว่างการอนุมาน การดีโค้ดแบบออโตรีเกรสซีฟมาตรฐานต้องการให้แต่ละเลเยอร์ขึ้นอยู่กับเอาต์พุตของขั้นตอนก่อนหน้า ซึ่งจะสร้างคอขวดการคำนวณขนาดใหญ่เมื่อจำนวน Beam มีขนาดใหญ่

ข้อสังเกตสำคัญของบทความคือ: SID ชั้นแรกเรียนรู้ยากที่สุด มีการสูญเสียมากที่สุด แต่ Beam ของมันมีเพียง 1 (เริ่มจาก BOS) ชั้นต่อมาทำนายได้ง่ายกว่า แต่ Beam ขยายตัวแบบเอกซ์โพเนนเชียล การคำนวณส่วนใหญ่ถูก浪費ไปกับ “สิ่งที่ง่าย”

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

การดำเนินการหลักของ LazyAR: “เลื่อน” การพึ่งพาโทเค็นขั้นตอนก่อนหน้าไปฉีดในเลเยอร์กลางบางเลเยอร์ (เลเยอร์ที่ K):
* เลเยอร์ K แรก (เลเยอร์ขนาน): ไม่ขึ้นกับโทเค็นขั้นตอนก่อนหน้า คำนวณเฉพาะตามการเข้ารหัสตำแหน่งและบริบท X ทุกระดับและทุก Beam สามารถคำนวณแบบขนานและแชร์กันได้
* เลเยอร์ L-K หลัง (เลเยอร์ออโตรีเกรสซีฟ): ฉีดการฝังตัว SID ของขั้นตอนก่อนหน้าแล้วทำการดีโค้ดออโตรีเกรสซีฟมาตรฐาน

ทำไม LazyAR ถึงได้ผล?
1. กระบวนการดีโค้ด SID ชั้นแรกไม่ได้รับผลกระทบเลย (จาก BOS ผ่านเลเยอร์ L ทั้งหมด)
2. เลเยอร์ K แรกทำการอนุมานในพื้นที่แฝง (latent space) สามารถเข้ารหัสสัญญาณที่มีประโยชน์เกี่ยวกับโทเค็นผู้สมัคร
3. นำการสูญเสียเสริม MTP มาใช้ บังคับให้เลเยอร์ K แรกสามารถเรียนรู้ข้อมูลที่เพียงพอได้แม้ไม่มีโทเค็นขั้นตอนก่อนหน้า
4. K เป็นไฮเปอร์พารามิเตอร์ที่ปรับได้ ให้การแลกเปลี่ยนความแม่นยำ-ประสิทธิภาพที่ยืดหยุ่น ในการทดลอง Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน เพิ่มปริมาณงานการอนุมานเป็นสองเท่าในขณะที่รักษาคุณภาพการแนะนำ

บทความระบุเป็นพิเศษ: การออกแบบนี้เป็นแบบดั้งเดิมสำหรับการแนะนำ ไม่เหมาะสำหรับการดีโค้ด LLM มาตรฐาน เนื่องจากโดยปกติการดีโค้ด LLM ไม่ใช้ Beam Search และความยากในการทำนายโทเค็นต่อๆ ไปไม่จำเป็นต้องลดลง

3.3 การเรียนรู้ภายใต้การดูแลที่รับรู้คุณค่า (VSL)
ในสถานการณ์โฆษณา ตัวอย่างต่างๆ มีความแตกต่างอย่างมีนัยสำคัญในคุณค่าทางธุรกิจ VSL ทำสามสิ่งรอบๆ การ “รับรู้คุณค่า”:
การทำนายร่วมกันของ SID + eCPM: นอกเหนือจากการสูญเสียเอนโทรปีข้ามมาตรฐานของ SID แล้ว ให้แยก eCPM ออกเป็นถัง (bucket) และเพิ่มเป็นโทเค็นการทำนายเพิ่มเติม
Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน
การให้น้ำหนักตัวอย่างที่รับรู้คุณค่า: น้ำหนักของแต่ละตัวอย่าง Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน ผู้ใช้ที่มีมูลค่าโฆษณาสูงและพฤติกรรมการโต้ตอบลึก (เช่น การซื้อ) ได้รับน้ำหนักที่สูงกว่า
การสูญเสียเสริม MTP: ร่วมกับ LazyAR บังคับให้คุณภาพการแสดงลักษณะของการดีโค้ดขนานของเลเยอร์ K แรก
เป้าหมาย VSL สุดท้าย:
Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

3.4 การเรียนรู้แบบเสริมกำลังที่ชี้นำโดยการจัดอันดับ (RSPO): จาก “การเรียนรู้การกระจาย” สู่ “การปรับให้เหมาะสมการจัดอันดับ”
VSL สามารถปรับให้เข้ากับการกระจายข้อมูลประวัติได้ แต่มันไม่ได้ปรับให้เหมาะสมเป้าหมายการจัดอันดับขั้นปลายโดยตรง และไม่สนับสนุนการสำรวจการกระจายป้ายกำกับที่ไม่รู้จัก บทความจึงแนะนำ RSPO (Ranking-Guided Softmax Preference Optimization) ซึ่งเป็นอัลกอริธึม RL สำหรับการปรับให้เหมาะสม NDCG ระดับรายการ

การสูญเสียหลักของ RSPO:
Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน
โดยที่ Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน ปฏิบัติตามกรอบ Lambda บทความพิสูจน์ว่า RSPO เป็นขอบเขตบนของ NDCGcost ซึ่งรับประกันการปรับให้เหมาะสมตัวชี้วัดการจัดอันดับโดยตรงจากทฤษฎี

การออกแบบทางวิศวกรรมที่ประณีตหลายประการ:

สี่ การปรับใช้ออนไลน์: การออกแบบระบบวงจรปิดเต็มรูปแบบระดับอุตสาหกรรม

GR4AD (พารามิเตอร์ 0.16B) ได้รับการปรับใช้เต็มรูปแบบในระบบโฆษณาของ Kuaishou แล้ว สร้างวงจรอุตสาหกรรมที่สมบูรณ์ตั้งแต่ “การประมาณรางวัล → การเรียนรู้ออนไลน์ → ดัชนีเรียลไทม์ → การให้บริการเรียลไทม์”

Kuaishou GR4AD: การแนะนำแบบสร้างสรรค์ถูกนำมาใช้เต็มรูปแบบในฉากโฆษณาเป็นครั้งแรก เพิ่มรายได้ 4.2% ให้บริการผู้ใช้ 400 ล้านคน

4.1 โมดูลหลักสี่ประการ

  • ระบบรางวัล: ฝึกโมเดลรางวัลแยกต่างหาก เพื่อให้คะแนน eCPM แก่โฆษณาผู้สมัครที่สร้างโดย GR4AD ระบบนี้ทำการสำรวจ Beam Search ที่กว้างขึ้นในสภาพแวดล้อมที่มีข้อจำกัดความล่าช้าที่ผ่อนคลาย เพื่อให้สัญญาณคุณภาพสูงสำหรับการฝึกการเรียนรู้แบบเสริมกำลัง
  • โมดูลการเรียนรู้ออนไลน์: สร้างสัญญาณการฝึกสองประเภทคือ VSL และ RL แบบเรียลไทม์ ดำเนินการอัปเดตพารามิเตอร์แบบแบตช์เล็กอย่างต่อเนื่อง และส่งพารามิเตอร์โมเดลที่อัปเดตแล้วไปยังเซิร์ฟเวอร์บริการอนุมานแบบเรียลไทม์
  • โมดูลดัชนีเรียลไทม์: ใช้ SID แทนดัชนีเวกเตอร์ฝังตัวแบบดั้งเดิม เมื่อวัสดุใหม่มาถึง เพียงแค่คำนวณ UA-SID ของมันและอัปเดตดัชนีสองทาง “UA-SID ↔ รหัสวัสดุ” ก็สามารถมีผลในระดับวินาทีได้ ปรับปรุงอัตราครอบคลุมและความทันเวลาของวัสดุที่เริ่มต้นเย็นได้อย่างมาก
  • เครื่องยนต์ให้บริการเรียลไทม์: รับผิดชอบการประมวลผลคำขอผู้ใช้ และส่งคืนรายการโฆษณาที่จัดอันดับแล้ว

4.2 การปรับให้เหมาะสมประสิทธิภาพการอนุมาน: การจัดกำหนดการแบบไดนามิกและการเร่งความเร็วทางวิศวกรรม

บริการ Beam แบบไดนามิกเป็นหัวใจสำคัญในการเพิ่มประสิทธิภาพการอนุมาน


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/28508

Like (0)
Previous 6 hours ago
Next 2026年3月8日 am8:53

相关推荐