API ของโมเดลขนาดใหญ่พบการ ‘เปลี่ยนเจ้าชายด้วยแมว’: GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก

6 hours ago • โมเดลใหญ่ปลอดภัย • 17 views

ในช่วงที่ผ่านมา ผู้ใช้จำนวนมากบ่นว่าประสิทธิภาพของ API โมเดลใหญ่เปรียบเสมือน “แมวของชเรอดิงเงอร์”: บางครั้งฉลาดสุดๆ บางครั้งก็โง่สุดๆ สิ่งนี้ทำให้เกิดข้อสงสัยว่า มีการดำเนินการ “ลดความฉลาด” แบบลับๆ ในเบื้องหลังหรือไม่

ปัจจุบัน งานวิจัยล่าสุดจากศูนย์ความปลอดภัยข้อมูลซีสปา เฮล์มโฮลทซ์ (CISPA Helmholtz Center for Information Security) ในหัวข้อ “Real Money, Fake Models: Deceptive Model Claims in Shadow APIs” ได้เปิดเผยความลับบางส่วน: “API ของบุคคลที่สาม” ที่คุณใช้เงินจริงจ่ายซื้อ อาจถูกเปลี่ยนเป็นผลิตภัณฑ์ทดแทนราคาถูกแทนที่โมเดลใหญ่ล้ำสมัยไปอย่างเงียบๆ แล้ว

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
ภาพหน้าจอทวีตสรุปของเฉิน เฉิง วิศวกรจาก Ant Group บนโซเชียลเน็ตเวิร์ก

งานวิจัยนี้ก่อให้เกิดการอภิปรายอย่างกว้างขวางบนโซเชียลเน็ตเวิร์ก:
API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
ความคิดเห็นที่เกี่ยวข้องจากแพลตฟอร์มโซเชียล X

ข้อมูลงานวิจัย
* ชื่อเรื่อง: Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
* ที่อยู่: https://arxiv.org/abs/2603.01919

โลกสีเทาของ API โมเดลใหญ่

เนื่องด้วยข้อจำกัดด้านราคาสูง อุปสรรคการชำระเงิน และข้อจำกัดทางภูมิภาค การเข้าถึงโมเดลใหญ่ล้ำสมัยอย่าง GPT-5 หรือ Gemini 2.5 โดยตรงมักเป็นเรื่องยากลำบาก ข้อจำกัดนี้ได้ส่งเสริมให้เกิดตลาดบริการตัวแทนบุคคลที่สามขนาดใหญ่ ซึ่งในแวดวงวิชาการเรียกว่า “API เงา (Shadow API)” โดยอ้างว่าสามารถให้บริการเข้าถึงโมเดลทางการทางอ้อมโดยไม่มีข้อจำกัดทางภูมิภาค

ในพื้นที่สีเทาที่เต็มไปด้วย “เว็บไซต์มิเรอร์” และ “พูลพร็อกซี” ต่างๆ ปรากฏการณ์ “โมเดลใหญ่ห่อหุ้ม” มีตัวอย่างมาก่อน ไม่ว่าจะเป็นกรณีก่อนหน้าที่ทีม AI จากสแตนฟอร์ดยืมโมเดลโอเพ่นซอร์ส MiniCPM ของสายชิงหวา หรือเว็บไซต์ปลอมจำนวนมากในตลาดที่อ้างว่าเป็น GPT-4 แต่จริงๆ แล้วเรียกใช้โมเดลเล็กราคาถูก ล้วนทำให้นักพัฒนาป้องกันตัวไม่ทัน

และการตรวจสอบอย่างเป็นระบบต่อ API เหล่านี้ ได้เผยให้เห็นพลังทำลายล้างของห่วงโซ่อุตสาหกรรมสีเทานี้ต่อการวิจัยทางวิทยาศาสตร์อย่างจริงจังอย่างสิ้นเชิง

นักวิจัยจาก CISPA ติดตามบริการ API เงาจำนวน 17 บริการโดยละเอียด พบว่าบริการเหล่านี้ถูกอ้างอิงในงานวิจัยทางวิชาการ 187 ฉบับ และได้ทำการตรวจสอบ API ตัวแทนบางส่วนอย่างเจาะจง ประมาณ 62% ของงานวิจัยเหล่านี้ได้รับการตีพิมพ์ในงานประชุมระดับสูง เช่น ACL, CVPR และ ICLR โดย API เงายอดนิยมหนึ่งได้รับการอ้างอิงเกือบ 6000 ครั้งจากงานวิจัย และโปรเจกต์ GitHub ที่เกี่ยวข้องได้รับดาวเกือบ 60,000 ดวง

เมื่อตรวจสอบความสอดคล้องตามข้อกำหนดของบริการเหล่านี้อย่างลึกซึ้งยิ่งขึ้น สถานการณ์ก็น่าวิตกมากขึ้น ใน 17 บริการนี้ มากถึง 11 บริการถูกสร้างขึ้นบนระบบกระจาย API โอเพ่นซอร์ส เช่น OneAPI หรือ NewAPI ที่น่าเหลือเชื่อกว่านั้น มีเพียงหนึ่งบริการเท่านั้นที่มีการจดทะเบียน ICP อย่างเป็น正规 ส่วนที่เหลือส่วนใหญ่เป็น “กล่องดำ” ที่ดำเนินการโดยบุคคล ไม่มีความโปร่งใสใดๆ เลย

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
สถานการณ์การอ้างอิงและการใช้งาน API เงาในแวดวงวิชาการ

การถล่มของความสามารถ: เมื่อผู้เชี่ยวชาญทางการแพทย์กลายเป็น “หมอเท้าเปล่า”

หากข้อสรุปการวิจัยสร้างขึ้นบนโมเดลพื้นฐานที่ปลอมแปลง พื้นฐานการทดลองทั้งหมดก็จะพังทลายตามไปด้วย เพื่อให้เข้าใจว่า API เงาเหล่านี้มี “น้ำ” เจือปนมากน้อยเพียงใด ทีมวิจัยได้ทำการทดสอบมาตรฐานหลายมิติกับ API ตัวแทนในด้านการให้เหตุผลทางวิทยาศาสตร์ (เช่น AIME 2025, GPQA) และด้านที่มีความเสี่ยงสูงและอ่อนไหว (เช่น ทางการแพทย์ MedQA, กฎหมาย LegalBench)

ผลการทดสอบน่าตกใจ

ยกตัวอย่างมาตรฐานทางการแพทย์ที่มีความเสี่ยงสูง MedQA โมเดลทางการ Gemini-2.5-flash มีความแม่นยำสูงถึง 83.82% แต่เมื่อนักวิจัยทดสอบผ่าน API เงาที่อ้างว่า “เหมือนกันทุกประการ” ความแม่นยำลดลงอย่างรวดเร็วเหลือเฉลี่ยเพียง 36.95% ช่องว่างประสิทธิภาพที่สูงถึง 47% หมายความว่ากว่าครึ่งของปัญหาการวินิจฉัยทางการแพทย์ โมเดลอาจให้คำแนะนำที่ผิดพลาดร้ายแรง

ในการทดสอบมาตรฐานกฎหมาย LegalBench สถานการณ์ก็แย่ไม่แพ้กัน API เงาทั้งหมดที่ได้รับการประเมินมีประสิทธิภาพต่ำกว่าจุดปลายทางทางการ 40.10% ถึง 42.73%

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
การเปรียบเทียบประสิทธิภาพของ API เงาในด้านการแพทย์และกฎหมาย

งานตรรกะเหตุผลที่ยากมักเป็น “พื้นที่ประสบภัย” ของโมเดลปลอม ในการทดสอบ AIME 2025 ที่มีโจทย์คณิตศาสตร์ระดับแข่งขัน API เงายอดนิยมหนึ่งประสบกับความล้มเหลวด้านความแม่นยำอย่างรุนแรง ความแม่นยำของ Gemini-2.5-pro ที่ให้บริการลดลงฮวบฮาบ 40.00% ในขณะที่ความแม่นยำของ DeepSeek-Reasoner ก็ลดลงอย่างรวดเร็ว 38.89% เช่นกัน

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
การเปรียบเทียบประสิทธิภาพของ API เงาในด้านคณิตศาสตร์และตรรกะเหตุผล

นอกจาก “ไอคิว” ลดลงแล้ว ความปลอดภัยของมันก็อยู่ในสถานะที่ไม่สามารถควบคุมได้สูง เมื่อเผชิญกับการทดสอบโจมตีแฮกด้วยคำสั่งหลอกลวงโค้ดหรือคำสั่งที่เป็นอันตรายต่างๆ การแสดงผลของ API เงาไม่มีรูปแบบใดๆ: บางครั้งประเมินความเสี่ยงของเนื้อหาอันตรายต่ำเกินไป (ให้คะแนนต่ำกว่าโมเดลทางการ 0.23) บางครั้งก็ขยายความเป็นอันตรายเกือบเท่าตัว

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
การเปรียบเทียบประสิทธิภาพด้านความปลอดภัยระหว่าง API เงาและ API ทางการบนชุดข้อมูล JailbreakBench

การระบุลายนิ้วมือและกลวิธีสามแบบของผู้ให้บริการ

เพื่อให้ได้หลักฐานชัดเจนของการปลอมแปลง API “กล่องดำ” เหล่านี้ นักวิจัยได้ใช้เฟรมเวิร์กการระบุลายนิ้วมือโมเดลใหญ่ LLMmap และการทดสอบความเท่าเทียมกันของโมเดล (MET) เพื่อยืนยันตัวตนที่แท้จริงของโมเดล LLMmap วิเคราะห์การตอบสนองของโมเดลต่อคำถามเฉพาะ คำนวณระยะทางโคไซน์ระหว่างผลลัพธ์กับฐานข้อมูลอ้างอิง เพื่อตัดสินว่าเป็นโมเดลจริงใด

จากจุดปลายทางโมเดลเฉพาะทั้งหมด 24 จุดที่ได้รับการประเมิน 45.83% ของจุดปลายทางไม่ผ่านการตรวจสอบลายนิ้วมือโดยตรง และอีก 12.50% ของจุดปลายทางแสดงให้เห็นถึงความเบี่ยงเบนของระยะทางโคไซน์ที่ใหญ่โตเมื่อเทียบกับโมเดลทางการ รวมกันแล้วหมายความว่ากว่าครึ่งหนึ่งของบริการได้เปลี่ยนโมเดลพื้นฐานอย่างลับๆ

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก

ผ่านการวิเคราะห์ความแปรปรวนของจำนวนโทเคนที่สร้างขึ้นและเวลาแฝงในการอนุมานเพิ่มเติม นักวิจัยพบว่าเวลาแฝงของ API ทางการมีเสถียรภาพและเป็นระเบียบเสมอ ในขณะที่เวลาแฝงของ API เงามักจะสั่นไหวอย่างรุนแรง อัตราความผันผวนของมันอาจเกินกว่า 2 เท่าของเกณฑ์มาตรฐานทางการ

งานวิจัยเปิดเผยกลวิธีทางเศรษฐกิจสามแบบที่พบบ่อยของผู้ให้บริการ API เงา:

ส่วนต่างข้อมูล: เรียกเก็บค่าบริการแพงสำหรับรุ่นเรือธง แต่ในเบื้องหลังกลับใช้โมเดลที่มีความสามารถคล้ายกันแต่ถูกกว่าแทนที่ ตัวอย่างเช่น API หนึ่งอวดอ้างให้บริการ Gemini เวอร์ชันเริ่มต้น 2.0 แต่จริงๆ แล้วให้บริการเวอร์ชัน 2.5 ด้วยส่วนต่างราคาที่น่าตกใจกว่า 7 เท่า
การแทนที่ส่วนลด: เรียกเก็บเงินในราคาต้นทางทางการ แต่แทนที่โมเดลใหญ่ปิดแหล่งที่มีประสิทธิภาพสูงด้วยโมเดลโอเพ่นซอร์สต้นทุนต่ำ ตัวอย่างเช่น ผู้ใช้จ่ายราคาสูงเพื่อขอ GPT-5 โดยเฉพาะ แต่การระบุลายนิ้วมือกลับเปิดเผยว่าในเบื้องหลังกำลังรัน GLM-4-9B อย่างเงียบๆ
การขายต่อโดยเพิ่มราคา: เพิ่มค่าบริการบนราคาทางการ พร้อมทั้งยังคงแทนที่โมเดลพื้นฐานในเบื้องหลังเพื่อทำกำไรจากส่วนต่างหลายชั้น

API ของโมเดลขนาดใหญ่พบการ 'เปลี่ยนเจ้าชายด้วยแมว': GPT-5 ที่คุณซื้อในราคาสูงอาจเป็นเพียงโมเดลเล็กราคาถูก
แผนภาพกลไกการหลอกลวงทางเศรษฐกิจสามแบบ

จากการคำนวณ แม้ผู้ใช้จะจ่ายตามอัตราค่าบริการมาตรฐานทางการ (เช่น ประมาณ 14.84 ดอลลาร์สหรัฐ ต่อคำขอ 1000 ครั้ง) แต่ค่าของโทเคนที่มีประสิทธิภาพที่ได้รับจริงอยู่ระหว่าง 5.70 ดอลลาร์สหรัฐ ถึง 7.77 ดอลลาร์สหรัฐเท่านั้น วิธีนี้ทำให้ผู้ให้บริการสามารถทำกำไรเกินครึ่งผ่านการสอบถามเพียงเล็กน้อย

ฐานรากของตึกวิจัยวิทยาศาสตร์ได้รับบาดเจ็บ

หากนักพัฒนาทั่วไปซื้อโมเดลปลอมเมื่อสร้างแอปพลิเคชันเพื่อความบันเทิง สิ่งที่ตามมาอาจเป็นเพียงประสบการณ์ผู้ใช้ที่แย่ แต่หากแวดวงวิชาการใช้อินเทอร์เฟซ “เจือน้ำ” เหล่านี้ในวงกว้างสำหรับงานที่จริงจัง เช่น การติดป้ายกำกับข้อมูล การประเมินอัลกอริทึม หรือการสรุปวรรณกรรม ความน่าเชื่อถือของตึกวิจัย AI ทั้งหมดจะสั่นคลอนอย่างรุนแรง

ตั้งแต่ต้นปี 2025 เป็นต้นมา หลังจากโมเดลใหญ่ล้ำสมัยอย่าง DeepSeek ถูกปล่อยออกมาและพัฒนา迭代อย่างรวดเร็ว ความต้องการเรียกใช้โมเดลที่ทรงพลังล่าสุดในแวดวงวิชาการก็เพิ่มขึ้นเรื่อยๆ เนื่องจากช่องทาง正规มีข้อจำกัด นักวิจัยจำนวนมากที่ต้องการตีพิมพ์งานวิจัยอย่างเร่งด่วนจึงถูกบังคับให้หันไปใช้ API เงาที่ขาดการกำกับดูแลเหล่านี้

นักวิจัยได้ทำการประมาณการแบบอนุรักษ์นิยม: แม้จะทำการทดลองใหม่เพียง 30% ของงานวิจัยที่ได้รับผลกระทบ การแก้ไขมลพิษข้อมูลที่เกิดจากการแทนที่โมเดลในงานวิจัย 187 ฉบับที่ทราบนี้ จะต้องใช้ต้นทุนการคำนวณและแรงงานประมาณ 115,000 ถึง 140,000 ดอลลาร์สหรัฐ ยังไม่รวมงานวิจัยต่อเนื่อง 5966 รายการที่อ้างอิงงานวิจัยที่มีปัญหา ซึ่งมีแนวโน้มสูงที่จะสืบทอดและขยายความผิดพลาดพื้นฐานเหล่านี้โดยไม่รู้ตัว

ในที่สุด ผู้เขียนงานวิจัยได้ให้คำแนะนำที่ตรงไปตรงมาและชัดเจน: ในขั้นตอนการทำงานวิจัยที่จริงจัง ควรหลีกเลี่ยงการใช้ “API เงา” ใดๆ ที่ไม่ผ่านการตรวจสอบอย่างเข้มงวดโดยสิ้นเชิง

หากต้องใช้เนื่องจากข้อจำกัดทางวัตถุประสงค์ ทีมวิจัยควรดำเนินกระบวนการตรวจสอบบังคับก่อนรวบรวมข้อมูลอย่างเป็นทางการ รวมถึงอย่างน้อยรันการตรวจจับลายนิ้วมือ 24 ครั้ง ดำเนินการทดสอบการกระจายตัวอย่าง 500 ตัวอย่างเพื่อเปรียบเทียบค่า p และตรวจสอบผ่านเซสชันอิสระหลายครั้งว่ามีความผิดปกติของเวลาแฝงการตอบสนองและความแปรปรวนหรือไม่

ในยุค AI ที่แยกแยะความจริงและเท็จได้ยากนี้ เทคโนโลยีกำลังพุ่งไปข้างหน้าอย่างรวดเร็ว ในขณะที่เงาของธุรกิจก็กำลังแผ่ขยายอย่างเงียบๆ สำหรับผู้ปฏิบัติงานและนักวิจัยทุกคนที่มุ่งมั่นต่อความเข้มงวด การรักษาความรอบคอบและความสงสัยไว้ คือแนวป้องกันสุดท้ายของเราเมื่อเผชิญกับบริการโมเดลใหญ่แบบกล่องดำ

ลิงก์อ้างอิง
https://x.com/chenchengpro/status/2029586877800686056

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/24672