OpenAI จู่โจมยามดึก! ปล่อย GPT-5.4 mini/nano: ความเร็วเพิ่มสองเท่า ต้นทุนลดฮวบ ด้านโค้ดดิ้งและตรรกะทัดเทียมเวอร์ชันเต็มประสิทธิภาพ

10 hours ago • ข่าวสารอุตสาหกรรม AI • 18 views

OpenAI ได้เปิดตัว GPT-5.4 mini และ GPT-5.4 nano อย่างไม่มีการเตรียมตัวมาก่อน ทั้งสองโมเดลนี้มีเป้าหมายเพื่อตอบสนองความต้องการหลักในสภาพแวดล้อมการผลิตด้านความสามารถ AI ความเร็ว และต้นทุน โดยสืบทอดจุดเด่นของ GPT-5.4 และก้าวขึ้นสู่ระดับใหม่ในหมวดโมเดลน้ำหนักเบา

OpenAI จู่โจมยามดึก! ปล่อย GPT-5.4 mini/nano: ความเร็วเพิ่มสองเท่า ต้นทุนลดฮวบ ด้านโค้ดดิ้งและตรรกะทัดเทียมเวอร์ชันเต็มประสิทธิภาพ

ข้อมูลประสิทธิภาพที่น่าสนใจที่สุดมีดังนี้:
* ความสามารถในการเขียนโค้ด (SWE-Bench Pro): GPT-5.4 mini ทำได้ 54.4% ซึ่งใกล้เคียงกับ GPT-5.4 ที่ 57.7%
* การใช้คอมพิวเตอร์ (OSWorld-Verified): GPT-5.4 mini ทำได้ 72.1% เทียบเคียงได้กับ GPT-5.4 ที่ 75%
* ในงานด้านการให้เหตุผล การเรียกใช้เครื่องมือ ฯลฯ ประสิทธิภาพของรุ่น mini ก็ใกล้เคียงกับรุ่นเรือธง

เมื่อเทียบกับ GPT-5 mini รุ่นก่อนหน้า GPT-5.4 mini มีความเร็วในการทำงานเพิ่มขึ้น 2 เท่า

ด้านราคา:
* GPT-5.4 mini รองรับคอนเท็กซ์ 400K ราคาอินพุตอยู่ที่ 0.75 ดอลลาร์/ล้านโทเค็น ราคาเอาต์พุตอยู่ที่ 4.5 ดอลลาร์/ล้านโทเค็น
* GPT-5.4 nano มีราคาอินพุตอยู่ที่ 0.2 ดอลลาร์/ล้านโทเค็น ราคาเอาต์พุตอยู่ที่ 1.25 ดอลลาร์/ล้านโทเค็น
* เมื่อเทียบกับ GPT-5.4 ราคาเอาต์พุตของ mini อยู่ที่ประมาณ 1/3 ของมัน ส่วนราคาของ nano ต่ำถึง 1/12

นี่หมายความว่า “เร็ว, แรง, ประหยัด” ตอนนี้สามารถมีพร้อมกันได้แล้ว

ผู้ใช้บางรายที่ได้ทดลองใช้แล้วระบุว่า มันไม่เพียงแต่เร็วเท่านั้น แต่ต้นทุนยังต่ำกว่าคู่แข่งในประเภทเดียวกันอย่างเห็นได้ชัด

ความสามารถด้านโค้ด: mini ใกล้เรือธง, nano ดีกว่ารุ่นก่อน

บนเกณฑ์วัดที่เข้มข้นอย่าง SWE-Bench Pro ซึ่งวัดความสามารถในการเขียนโค้ดจริง GPT-5.4 mini ที่ได้ 54.4% ต่างจาก GPT-5.4 ที่ได้ 57.7% เพียง 3.3% เท่านั้น นี่เป็นเครื่องหมายว่าโมเดลน้ำหนักเบาได้ก้าวไปถึงขีดจำกัดของโมเดลเรือธงในการแก้ไขปัญหาทางวิศวกรรมจริงแล้ว

เมื่อเทียบกับ GPT-5 mini รุ่นก่อนหน้า (45.7%) GPT-5.4 mini ก้าวกระโดดเกือบ 9% บน Terminal-Bench 2.0 GPT-5.4 mini (60.0%) พัฒนาขึ้นมากกว่า 57% เมื่อเทียบกับ GPT-5 mini (38.2%)

แม้แต่รุ่น nano ที่มีตำแหน่งน้ำหนักเบากว่า ก็ทำได้ 52.4% บน SWE-Bench Pro ซึ่งแซงหน้าโมเดล mini รุ่นก่อนหน้าไปแล้ว

การให้เหตุผลและการเรียกใช้เครื่องมือซับซ้อนโดดเด่น

บนเกณฑ์วัดการให้เหตุผลทางวิทยาศาสตร์ระดับปริญญาเอก GPQA Diamond GPT-5.4 mini ทำได้ 88% ต่างจาก GPT-5.4 เพียง 5%

บนเกณฑ์วัด Toolathlon ที่ทดสอบความสามารถในการใช้โซ่เครื่องมือที่ซับซ้อน GPT-5.4 mini ได้คะแนน 42.9% ซึ่งดีกว่า GPT-5 mini ที่ 26.9% อย่างชัดเจน

บนเกณฑ์วัดอุตสาหกรรมโทรคมนาคม τ2-bench mini ได้คะแนนสูงถึง 93.4% เกือบเทียบเท่ารุ่นเรือธงที่ 98.9% บนเกณฑ์วัดการเรียกใช้เครื่องมือ MCP Atlas GPT-5.4 mini (57.7%) ก็นำหน้า GPT-5 mini (47.6%) ข้อมูลเหล่านี้บ่งชี้ว่า GPT-5.4 mini มีความสามารถในการดำเนินงานโซ่งานที่ซับซ้อนในสภาพแวดล้อมการผลิตได้อย่างอิสระแล้ว

การใช้คอมพิวเตอร์: โมเดลเล็กก็ “ควบคุมหน้าจอ” ได้

ประสิทธิภาพของ GPT-5.4 mini ด้านการใช้คอมพิวเตอร์ (OSWorld-Verified) น่าประหลาดใจ โดยคะแนน 72.1% ของมันต่างจาก GPT-5.4 ที่ 75.0% เพียงเล็กน้อย การทดสอบนี้ประเมินความสามารถโดยรวมของโมเดลในการวิเคราะห์ข้อมูลบนหน้าจอและดำเนินการที่ถูกต้อง ซึ่งมีความสำคัญอย่างยิ่งต่อการสร้างเอเจนต์อัจฉริยะ (Agent)

ในทางตรงกันข้าม GPT-5 mini ได้คะแนนเพียง 42.0% ในด้านนี้ ส่วนรุ่น nano ได้ 39.0% นี่แสดงให้เห็นว่างานการให้เหตุผลด้วยภาพที่ซับซ้อนมีเกณฑ์ความสามารถที่ต้องก้าวข้าม บนเกณฑ์วัด MMMUPro ที่ต้องใช้การให้เหตุผลด้วยภาพและเครื่องมือโค้ดร่วมกัน รุ่น mini (78.0%) ก็มีช่องว่างกับรุ่นเรือธง (81.5%) เล็กน้อยเช่นกัน

นี่เป็นเครื่องยนต์ในอุดมคติสำหรับการสร้างเอเจนต์การใช้คอมพิวเตอร์แบบเรียลไทม์ที่มีต้นทุนต่ำและตอบสนองเร็ว วิสัยทัศน์ของ OpenAI คือการพัฒนาเครื่องมืออันทรงพลังที่ก้าวข้ามการเขียนโปรแกรมไปสู่การ “ควบคุมคอมพิวเตอร์” และในท้ายที่สุดก็บรรลุเป้าหมาย AI ส่วนบุคคลที่สามารถทำงานข้ามอุปกรณ์ปลายทางได้อย่างราบรื่น

แบบจำลองซับเอเจนต์: โมเดลใหญ่ตัดสินใจ, โมเดลเล็กดำเนินการ

OpenAI เน้นย้ำแนวคิดด้านสถาปัตยกรรมในการเปิดตัวครั้งนี้: ระบบ AI ที่ดีที่สุดอาจไม่จำเป็นต้องใช้โมเดลที่ใหญ่ที่สุดในการประมวลผลทุกอย่าง พวกเขาเสนอว่า สามารถให้โมเดลเรือธง GPT-5.4 รับผิดชอบการวางแผนและตัดสินใจโดยรวม จากนั้นมอบหมายงานดำเนินการเฉพาะให้กับซับเอเจนต์อย่าง GPT-5.4 mini ให้ประมวลผลแบบขนาน

ตัวอย่างเช่น งานที่ต้องทำเร็วแต่ไม่ต้องคิดลึกซึ้ง เช่น การค้นหาฐานโค้ด การตรวจสอบไฟล์ สามารถมอบให้ mini ดำเนินการ ในแพลตฟอร์มการพัฒนา สถาปัตยกรรมนี้ได้ถูกนำไปใช้แล้ว: GPT-5.4 กำหนดแผนงาน และจัดสรรให้ mini ดำเนินงานย่อย โดยงานของ mini ใช้โควต้าของ GPT-5.4 เพียง 30%

แนวคิด “การจัดสรรแบบแบ่งชั้น” นี้กำลังกลายเป็นฉันทามติในอุตสาหกรรม สำหรับนักพัฒนาแล้ว การออกแบบสถาปัตยกรรมควรเปลี่ยนจาก “เลือกโมเดลที่แข็งแกร่งที่สุดเพื่อประมวลผลทุกงาน” ไปเป็น “จัดสรรงานไปยังโมเดลระดับต่างๆ ตามความซับซ้อนของงานแบบไดนามิก”

คำประเมินของ Aabhas Sharma CTO ของ Hebbia มีความน่าสนใจ:

GPT-5.4 mini ในหลายๆ งานเอาต์พุตและอัตราการเรียกคืนข้อมูลอ้างอิง ด้วยต้นทุนที่ต่ำกว่าอย่างมีนัยสำคัญ สามารถทำได้เทียบเท่าหรือดีกว่าโมเดลคู่แข่ง และยังมีอัตราการผ่านแบบ end-to-end ที่สูงกว่าโมเดลขนาดใหญ่กว่า

“โมเดลที่เล็กกว่า แต่ได้ผลลัพธ์ที่ดีกว่า” — สิ่งนี้เมื่อสองปีก่อนดูเหมือนเป็นเรื่องเพ้อฝัน แต่ตอนนี้กลายเป็นความจริงในการปฏิบัติงานทางวิศวกรรมแล้ว

เปิดให้บริการเต็มรูปแบบ ผู้ใช้ฟรีก็ใช้ได้

GPT-5.4 mini ได้เปิดให้บริการออนไลน์เต็มรูปแบบแล้ว โดยเปิดพร้อมกันทั้งสามช่องทาง: API, Codex และ ChatGPT

ราคา API ของมันอยู่ที่อินพุต 0.75 ดอลลาร์/ล้านโทเค็น เอาต์พุต 4.50 ดอลลาร์/ล้านโทเค็น โดยมีหน้าต่างคอนเท็กซ์ 400K โมเดลนี้รองรับความสามารถครบชุด ได้แก่ อินพุตข้อความและภาพ การใช้เครื่องมือ การเรียกใช้ฟังก์ชัน การค้นหาเว็บ การค้นหาไฟล์ การใช้คอมพิวเตอร์ เป็นต้น

GPT-5.4 nano ขณะนี้มีให้บริการเฉพาะใน API เท่านั้น โดยมีราคาอินพุต 0.20 ดอลลาร์/ล้านโทเค็น เอาต์พุต 1.25 ดอลลาร์/ล้านโทเค็น เพื่อเป็นการเปรียบเทียบ ราคาอินพุตของ nano นั้นประมาณหนึ่งในสี่ของ mini ส่วนราคาเอาต์พุตไม่ถึงหนึ่งในสามของ mini สำหรับงานที่มีความถี่สูงและความซับซ้อนต่ำ เช่น การจัดประเภท การดึงข้อมูล การเรียงลำดับ nano มีความคุ้มค่าสูงมาก

ในฝั่ง ChatGPT GPT-5.4 mini ได้เปิดให้ผู้ใช้ฟรีและผู้ใช้ Go ใช้งานแล้ว ผ่านฟังก์ชัน “Thinking” ในเมนู สำหรับผู้ใช้ที่จ่ายเงิน เมื่อโควต้า GPT-5.4 Thinking หมด ระบบจะลดระดับมาใช้ mini เป็นทางเลือกสำรองโดยอัตโนมัติ

กลยุทธ์นี้ค่อนข้างชาญฉลาด: ทั้งให้ผู้ใช้ฟรีได้สัมผัสความสามารถในการให้เหตุผลอันทรงพลัง ลดอุปสรรคในการใช้งานและขยายฐานผู้ใช้ ในขณะเดียวกัน การมีอยู่ของ mini ก็ช่วยบรรเทาความกังวลเรื่อง “โควต้า” ของผู้ใช้ที่จ่ายเงินได้อย่างมาก

คอนเท็กซ์ยาวเป็นจุดอ่อนของ mini

แน่นอนว่า GPT-5.4 mini ไม่ได้ไร้จุดอ่อน ในการประมวลผลคอนเท็กซ์ยาว ช่องว่างระหว่างมันกับรุ่นเรือธงนั้นชัดเจนกว่าด้านอื่นๆ

ในการทดสอบ OpenAI MRCR v2 สำหรับงานค้นหา 8 เข็มภายใต้หน้าต่าง 64K-128K GPT-5.4 รุ่นเรือธงได้คะแนน 86.0% ในขณะที่ mini ได้เพียง 47.7% ช่องว่างใกล้เคียง 40 เปอร์เซ็นต์ ภายใต้หน้าต่าง 128K-256K ช่องว่างนี้ขยายออกไปเป็น 79.3% ต่อ 33.6%

ชุดการทดสอบ Graphwalks ก็แสดงแนวโน้มคล้ายกัน ในงานติดตามโหนดหลัก GPT-5.4 รุ่นเรือธงได้คะแนน 89.8% ส่วน mini ได้ 71.5%

นี่บ่งชี้ว่า ในสถานการณ์ที่ต้องมีการค้นหาข้อมูลที่แม่นยำและการติดตามตรรกะที่ซับซ้อนจากข้อความยาวมาก ขีดจำกัดความสามารถของ mini ยังต่ำกว่ารุ่นเรือธงอย่างมีนัยสำคัญ สำหรับนักพัฒนาที่ต้องทำงานวิเคราะห์เอกสารขนาดใหญ่ รักษาความจำบทสนทนายาว ฯลฯ GPT-5.4 รุ่นเรือธงยังคงเป็นตัวเลือกที่ไม่มีอะไรทดแทนได้ในปัจจุบัน

อย่างไรก็ตาม นี่ก็ยืนยันตรรกะการแบ่งชั้นผลิตภัณฑ์ของ OpenAI: งานที่แตกต่างกัน เหมาะกับโมเดลที่แตกต่างกัน mini ไม่จำเป็นต้องเทียบเท่ารุ่นเรือธงในทุกมิติ มันเพียงแค่ต้องทำได้ดีพอในทิศทางหลักของมัน — ความเร็ว, การเขียนโค้ด, การเรียกใช้เครื่องมือและการใช้คอมพิวเตอร์

ไม่ใช่จุดจบ แต่เป็นจุดเริ่มต้น

เทคโนโลยีกำลังวิ่งอย่างบ้าคลั่ง แต่ความรู้สึกของผู้คนซับซ้อนยิ่งกว่า

เช้าวันนี้ แซม อัลต์แมน ซีอีโอของ OpenAI โพสต์บนแพลตฟอร์มโซเชียล X ว่า:

“ผมรู้สึกขอบคุณอย่างลึกซึ้งต่อผู้ที่เขียนซอฟต์แวร์ที่ซับซ้อนอย่างยิ่งเหล่านั้นออกมาทีละคำ มันยากที่จะจินตนาการแล้วตอนนี้ว่ามันต้องใช้ความพยายามมากแค่ไหน ขอบคุณที่พาเรามาถึงวันนี้”