เมื่อประสิทธิภาพการคำนวณของ H100 เพิ่มขึ้น 200 เท่า: จุดสมดุลของการสร้างแบบจำลองข้อมูลที่มีโครงสร้างควรถูกกำหนดใหม่หรือไม่?

6 days ago • วิศวกรรมโมเดลขนาดใหญ่ • 61 views

H100 หนึ่งตัวเทียบเท่ากับ Hadoop instance กี่ตัว?

เริ่มต้นด้วยคำถามที่ชวนให้คิด: ในมุมมองของปี 2026 กำลังประมวลผล (FP16) ของ GPU H100 หนึ่งตัวเทียบเท่ากับ Hadoop instance กี่ตัว?

คำตอบคือ: ประมาณ 200 ตัว (จากการเปรียบเทียบระหว่าง H100 หนึ่งตัวกับ CPU instance ขนาด 96 คอร์)

ตัวเลขนี้เผยให้เห็นปรากฏการณ์ที่น่าสนใจ: ในช่วงไม่กี่ปีที่ผ่านมา การพัฒนาอย่างรวดเร็วของ AI ได้ขับเคลื่อนการเติบโตแบบทวีคูณของกำลังประมวลผล แต่ในด้านการสร้างแบบจำลองข้อมูลที่มีโครงสร้าง วิธีการหลักของอุตสาหกรรมยังคงเป็นโซลูชันเฉพาะทางที่เน้นโมเดลต้นไม้เป็นแกนกลาง

สิ่งนี้สร้าง “ความขัดแย้ง” ที่ชัดเจน: ในด้านหนึ่ง โลกเทคโนโลยีกำลังขับเคลื่อนการเปลี่ยนแปลงของผลิตภาพ AI ผ่านโมเดลภาษาขนาดใหญ่ที่ได้รับการอัปเกรดอย่างต่อเนื่อง ในอีกด้านหนึ่ง ในอุตสาหกรรมมูลค่าสูง เช่น การเงิน การดูแลสุขภาพ อีคอมเมิร์ซ โลจิสติกส์ และการผลิตอุตสาหกรรม งานอัจฉริยะหลักยังคงถูกขับเคลื่อนโดยโมเดลต้นไม้เป็นหลัก เช่น XGBoost และ Random Forest ความขัดแย้งนี้กระตุ้นให้เราคิดว่า: เมื่อกำลังประมวลผลมีการเปลี่ยนแปลงครั้งใหญ่ “จุดสมดุล” ของการสร้างแบบจำลองข้อมูลที่มีโครงสร้างควรถูกนิยามใหม่หรือไม่?

“บทเรียนที่ขมขื่น” และความท้าทายของข้อมูลที่มีโครงสร้าง

จากมุมมองเชิงมหภาค แนวคิดหลักที่อยู่เบื้องหลังการพัฒนาของโมเดลขนาดใหญ่สามารถย้อนกลับไปที่ “บทเรียนที่ขมขื่น” ที่ริชาร์ด ซัตตันเสนอ: ในการพัฒนา AI ในระยะยาว วิธีการเรียนรู้ทั่วไปที่สามารถขยายขนาดได้ตามขนาดของการคำนวณ มักจะเหนือกว่าระบบที่ออกแบบมาอย่างประณีตโดยอาศัยสัญชาตญาณและความรู้เฉพาะด้านของมนุษย์

ความสำเร็จของโมเดลภาษาขนาดใหญ่เป็นตัวอย่างที่ชัดเจนของกฎนี้ — ผ่านสถาปัตยกรรมที่เป็นหนึ่งเดียวและการฝึกอบรมด้วยข้อมูลขนาดใหญ่ LLM บรรลุความสามารถในการถ่ายโอนข้ามงานและข้ามสถานการณ์ในด้าน NLP อย่างไรก็ตาม เมื่อองค์กรแก้ไขปัญหา supervised learning ในธุรกิจจริง สถานการณ์กลับแตกต่างไปอย่างมาก แม้จะพยายามนำ deep learning มาใช้ ก็มักต้องใช้ pipeline ข้อมูลที่ซับซ้อน การออกแบบสถาปัตยกรรมเฉพาะ และความรู้เฉพาะด้านจำนวนมาก ซึ่งเทียบเท่ากับการตอบสนองความต้องการของ “การผลิตแบบอุตสาหกรรม” ด้วยวิธีการแบบ “โรงงานหัตถกรรม”

ดังนั้นเราจึงเห็นปรากฏการณ์ที่น่าสนใจ: ในด้านหนึ่ง โมเดลขนาดใหญ่กำลังขับเคลื่อนการเปลี่ยนแปลงของผลิตภาพ AI ในอีกด้านหนึ่ง ในสถานการณ์หลักของอุตสาหกรรมมูลค่าสูง งานอัจฉริยะยังคงถูกขับเคลื่อนโดยโมเดลการจำแนกประเภทแบบตารางที่ใช้ต้นไม้เป็นหลัก หรือโมเดล deep learning เฉพาะทาง สิ่งนี้กระตุ้นความสนใจของเรามากขึ้นในการสำรวจขีดจำกัดของการขยายขนาดของโมเดลข้อมูลที่มีโครงสร้าง

ย้อนดูประวัติศาสตร์ XGBoost ในปี 2014 ถูกมองอย่างกว้างขวางว่าเป็น “จุดสมดุล” ระหว่างสามองค์ประกอบหลักในด้านการเรียนรู้ของเครื่อง: กำลังประมวลผล อัลกอริทึม และข้อมูล แต่สิบสองปีต่อมาในวันนี้ เมื่อกำลังประมวลผลของ GPU พัฒนาอย่างรวดเร็วและเพิ่มขึ้นเป็นทวีคูณ จุดสมดุลนี้เปลี่ยนไปแล้วหรือไม่? การสร้างแบบจำลองข้อมูลที่มีโครงสร้างสามารถทำได้เหมือนกับ NLP และ CV หรือไม่ โดยทำลายผ่านด้วยรูปแบบการคำนวณใหม่? เมื่อมีความแตกต่างของกำลังประมวลผล FP16 ประมาณ 200 เท่าระหว่าง H100 หนึ่งตัวกับเซิร์ฟเวอร์ CPU 96 คอร์ แนวคิดตามธรรมชาติคือ — เป็นไปได้หรือไม่ที่จะนำกำลังประมวลผลแบบขนานขนาดใหญ่ของ GPU มาใช้ในการสร้างแบบจำลองข้อมูลที่มีโครงสร้างอย่างแท้จริง และปรับสมดุลสามองค์ประกอบหลักใหม่ ได้แก่ กำลังประมวลผล ข้อมูล และอัลกอริทึม ผ่านรูปแบบการฝึกอบรมล่วงหน้า

การฝึกอบรมล่วงหน้าด้วยตัวอย่างระดับพันล้าน

บทความนี้จะเน้นที่การสำรวจของทีม AIforData จาก Zhejiang University X Ant Group: ตามข้อมูลที่มีโครงสร้างแบบ heterogeneous จำนวนมหาศาลของ Ant Group และสถานการณ์ธุรกิจปลายทางที่หลากหลาย ทีมได้ดำเนินการฝึกอบรมล่วงหน้าข้อมูลที่มีโครงสร้างด้วยตัวอย่างระดับพันล้านบนคลัสเตอร์ GPU พันตัว และประเมินประสิทธิภาพของโมเดลที่ฝึกอบรมล่วงหน้าในงานปลายทางอย่างเป็นระบบ ผลการทดลองแสดงให้เห็นว่า:

ในชุดข้อมูลตารางระดับอุตสาหกรรม ประสิทธิภาพของโมเดลที่ฝึกอบรมล่วงหน้าสามารถทำได้ดีกว่าโมเดลต้นไม้แบบดั้งเดิมอย่างมีเสถียรภาพและมีนัยสำคัญ
โมเดลการฝึกอบรมล่วงหน้าข้อมูลตารางแสดงให้เห็นถึง Scaling Law ที่ชัดเจน
โมเดลการฝึกอบรมล่วงหน้าลำดับพฤติกรรมยังแสดงให้เห็นถึง Scaling Law ที่ดีเช่นกัน

งานที่ 1: การฝึกอบรมล่วงหน้าข้อมูลตารางและ Scaling Law

ลิงก์บทความ: https://arxiv.org/abs/2602.22777

KMLP (Kolmogorov-Arnold Network with gated MLP) เป็นสถาปัตยกรรม deep learning แบบผสมสำหรับข้อมูลตารางขนาดใหญ่ระดับอินเทอร์เน็ต (ได้รับการยอมรับใน The Web Conference 2026) ในการเผชิญกับความท้าทายในการสร้างแบบจำลองตัวอย่างหลายพันล้านและคุณสมบัติ heterogeneous หลายพันรายการในสถานการณ์อุตสาหกรรม KMLP นำเสนอ KAN ตื้น ๆ เป็นตัวสร้างวิศวกรรมคุณลักษณะส่วนหน้าแบบใหม่ รวมกับเครือข่ายหลัก gMLP เพื่อจับการโต้ตอบระดับสูง บรรลุการเรียนรู้การแสดงคุณลักษณะอัตโนมัติแบบ end-to-end

เมื่อประสิทธิภาพการคำนวณของ H100 เพิ่มขึ้น 200 เท่า: จุดสมดุลของการสร้างแบบจำลองข้อมูลที่มีโครงสร้างควรถูกกำหนดใหม่หรือไม่?

ในชุดข้อมูลการให้คะแนนเครดิตจริงที่มีตัวอย่าง 2 พันล้านรายการ KMLP แสดงให้เห็นถึงข้อได้เปรียบด้านขนาดที่สำคัญ: เมื่อระดับปริมาณข้อมูลเพิ่มขึ้น ข้อได้เปรียบด้านประสิทธิภาพเมื่อเทียบกับโมเดล GBDT แบบดั้งเดิมยังคงขยายออกไป การค้นพบนี้ยืนยันศักยภาพของ KMLP ในฐานะรูปแบบ deep learning ที่สามารถขยายขนาดได้ ซึ่งเป็นเส้นทางใหม่สำหรับการสร้างแบบจำลองข้อมูลตารางอินเทอร์เน็ตขนาดใหญ่และแบบไดนามิก

คุณค่าหลักของ KMLP อยู่ที่การแก้ปัญหาคอขวดสองประการของวิธีการแบบดั้งเดิม: ในด้านหนึ่ง เอาชนะปัญหาประสิทธิภาพการคำนวณแบบกระจายของ GBDT บนชุดข้อมูลขนาดใหญ่มาก ในอีกด้านหนึ่ง ผ่านฟังก์ชันการเปิดใช้งานที่สามารถเรียนรู้ได้ หลุดพ้นจากการพึ่งพาวิศวกรรมคุณลักษณะด้วยมือมนุษย์ บรรลุความเป็นหนึ่งเดียวของการสร้างแบบจำลองความแตกต่างของคุณลักษณะและการโต้ตอบ

งานที่ 2: การฝึกอบรมล่วงหน้าลำดับพฤติกรรมและ Scaling Law

ลิงก์บทความ: https://arxiv.org/abs/2412.12468

ข้อมูลลำดับเวลาของพฤติกรรมผู้ใช้เป็นหนึ่งในข้อมูลที่มีโครงสร้างสำคัญที่อธิบายผู้ใช้ ซึ่งมีความสำคัญอย่างยิ่งต่อความเข้าใจและการสร้างแบบจำลองผู้ใช้ วิธีใช้ประโยชน์จากข้อมูลลำดับพฤติกรรมผู้ใช้เพิ่มเติมอย่างมีประสิทธิภาพเป็นหัวข้อการวิจัยที่สำคัญ

FOUND: การประยุกต์ใช้ข้อมูลลำดับเวลาระดับความหมาย

FOUND (Transferable and Forecastable User Targeting Foundation Model) เป็นงานของทีม AIforData ที่เผยแพร่ใน The Web Conference 2025 โดยมุ่งเป้าไปที่ข้อมูลลำดับและข้อมูลที่มีโครงสร้างจากหลายแหล่งในแพลตฟอร์มอินเทอร์เน็ต สร้างกรอบการแสดงผู้ใช้ระดับอุตสาหกรรมที่มีความสามารถในการพยากรณ์

วิธีการทำความเข้าใจผู้ใช้ในปัจจุบันหลายวิธีเผชิญกับความท้าทายสองประการ: (i) ความสามารถในการถ่ายโอนและความสามารถในการสรุปทั่วไปข้ามโดเมนและข้ามสถานการณ์อ่อนแอ; (ii) ความสามารถในการพยากรณ์ในการใช้งานจริงไม่เพียงพอ เพื่อเพิ่มความสามารถในการถ่ายโอนข้ามโดเมน กรอบ FOUND รวมข้อมูลผู้ใช้จากหลายสถานการณ์ และในการสร้างแบบจำลองผู้ใช้ นำเสนอการฝึกอบรมล่วงหน้าแบบ contrastive learning เพื่อจัดแนวกับข้อความที่ได้จากการจัดเรียงความหมายของลำดับใหม่ เพื่อเพิ่มความสามารถในการพยากรณ์ คำอธิบายข้อความของผู้ใช้แต่ละคนได้มาจากพฤติกรรมในอนาคตของผู้ใช้ ในขณะที่การแสดงผู้ใช้สร้างจากข้อมูลในอดีต โดยใช้วิธีการจัดแนวความหมายอดีต-อนาคตเพื่อสร้างคู่ตัวอย่างการฝึกอบรม

การแสดงผู้ใช้ที่ผลิตจากกรอบนี้ได้รับผลกำไรทั้งใน benchmark สถานการณ์จริงและในธุรกิจ ในเวลาเดียวกัน การแนะนำวิธีการกำกับดูแลด้วยภาษาธรรมชาติทำให้โมเดลสนับสนุนงานการเลือกกลุ่มเป้าหมายโดยธรรมชาติ ความสามารถในการเลือกกลุ่มเป้าหมายที่สนับสนุนโดยกรอบการฝึกอบรมล่วงหน้านี้ได้รับผลกำไรในสถานการณ์ธุรกิจปลายทางมากกว่า 50 รายการ

Scaling Law ของข้อมูลลำดับ

หลังจากสร้างกรอบการฝึกอบรมล่วงหน้าข้างต้นแล้ว เราสำรวจวิธีแนะนำลำดับพฤติกรรมผู้ใช้ที่มากขึ้นและยาวขึ้นจากแพลตฟอร์มอินเทอร์เน็ตเข้าสู่โมเดล สำหรับข้อมูลลำดับจากหลายแหล่ง หากออกแบบตัวเข้ารหัสแยกกัน จะมีข้อบกพร่อง เช่น ค่าใช้จ่ายในการฝึกอบรมสูงเกินไป พื้นที่การแสดงไม่เป็นหนึ่งเดียวกัน ในเวลาเดียวกัน วิธีใช้ประโยชน์จากข้อมูลลำดับอินพุตเพิ่มเติมให้ได้ประสิทธิภาพสูงสุดก็เป็นปัญหาด้วย นั่นคือ จำเป็นต้องสำรวจ Scaling Law ที่มีอยู่ในลำดับอินพุตเอง และวิธีทำลายผ่านคอขวด Scaling ที่อาจเกิดขึ้น

การทดลองพบว่า เมื่อความยาวลำดับอินพุต/จำนวนผู้ใช้น้อย ประสิทธิภาพจะเพิ่มขึ้นเกือบเป็นเส้นตรงตามจำนวนวัน/จำนวนผู้ใช้ (เลขชี้กำลัง) แสดงให้เห็นถึงปรากฏการณ์ Scaling ที่ชัดเจน แต่เมื่อลำดับอินพุตเพิ่มขึ้น จำนวนผู้ใช้เพิ่มขึ้นถึงระดับที่ค่อนข้างมาก การเติบโตของประสิทธิภาพช้าลง และเกิดคอขวด Scaling เพื่อแก้ไขปัญหานี้ นอกจากเพิ่มพารามิเตอร์โมเดลแล้ว การเพิ่มความหนาแน่นของข้อมูลผู้ใช้อินพุต — นั่นคือ การบีบอัดข้อมูลผู้ใช้ — เป็นโซลูชันที่ประหยัดต้นทุนและเบา หลังจากใช้โซลูชัน RQ-VAE เพื่อบีบอัดข้อมูลลำดับผู้ใช้ เราสังเกตว่าคอขวดการเติบโตของข้อมูลล่าช้า ซึ่งแสดงให้เห็นถึงปรากฏการณ์ Densing Law ที่ทำลายผ่านคอขวดจากการบีบอัด

ข้อสรุปหลัก: เมื่อความยาวลำดับอินพุต/จำนวนผู้ใช้น้อย ประสิทธิภาพแสดงให้เห็นถึงปรากฏการณ์ Scaling ที่ชัดเจนตามเลขชี้กำลังของจำนวนวัน; เมื่อความยาวลำดับอินพุตและจำนวนผู้ใช้เพิ่มขึ้นถึงระดับที่ค่อนข้างมาก จะเกิดคอขวด Scaling; และการบีบอัดข้อมูลสามารถนำไปสู่ปรากฏการณ์ Densing Law ที่ทำลายผ่านคอขวดโดยการเพิ่มความหนาแน่นของข้อมูล

ตามกฎของ Scaling Law ของอินพุตดั้งเดิมและที่บีบอัดข้างต้น เราได้ออกแบบโซลูชันการทำความเข้าใจการบีบอัดเชิงปริมาณผู้ใช้ที่เป็นหนึ่งเดียว โซลูชันนี้บีบอัดข้อมูลลำดับหลายแหล่งของผู้ใช้ ผ่านวิธีการ MRQ-VAE ที่เราเสนอ เป็น Token ID ความหมายที่มีความหนาแน่นของข้อมูลสูง บนพื้นฐานนี้ทำการขยายโมเดล (Scaling) และได้รับโมเดลผู้ใช้ที่มีประสิทธิภาพดีกว่า

การแสดงผู้ใช้ทั่วไปที่ผลิตได้ ใน benchmark สถานการณ์จริงมากกว่า 80% มีประสิทธิภาพดีกว่าเวอร์ชันโมเดลก่อนหน้าที่ใช้อินพุตข้อมูลดั้งเดิม และได้ถูกนำไปใช้อย่างกว้างขวางในหลายพื้นที่ธุรกิจ เช่น การเงินดิจิทัล ความปลอดภัยในการชำระเงิน การตลาดและการแนะนำ

สรุปและมองไปข้างหน้า

กลับไปที่คำถามหลักในตอนต้น: เมื่อกำลังประมวลผลก้าวข้ามไปเป็นทวีคูณ รูปแบบการสร้างแบบจำลองข้อมูลที่มีโครงสร้างควรได้รับการปฏิวัติตามไปด้วยหรือไม่?

การสำรวจของทีม AIforData จาก Ant Group และ Zhejiang University ให้คำตอบที่แน่นอน Scaling Law กำลังขยายจากด้าน NLP และ CV ไปสู่ด้านข้อมูลที่มีโครงสร้าง — นี่อาจบ่งชี้ว่า ยุคที่พึ่งพาวิศวกรรมคุณลักษณะด้วยมือมนุษย์และการปรับพารามิเตอร์เฉพาะสถานการณ์อย่างสูง จะสิ้นสุดลงในที่สุด

“เมื่อตาชั่งของกำลังประมวลผลเอียงแล้ว จุดสมดุลก็จำเป็นต้องถูกนิยามใหม่”

มองไปข้างหน้า ด้วยการเพิ่มขึ้นอย่างต่อเนื่องของกำลังประมวลผลและวุฒิภาวะที่เพิ่มขึ้นของรูปแบบการฝึกอบรมล่วงหน้า เรามีเหตุผลที่จะเชื่อว่า การสร้างแบบจำลองข้อมูลที่มีโครงสร้างจะได้พบกับ “ช่วงเวลาของโมเดลขนาดใหญ่” ของตัวเอง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง