หลังจากเผชิญกับแรงกดดันจากการแข่งขันมาสักระยะ OpenAI ได้เปิดตัวโมเดลเรือธงล่าสุด GPT-5.4 การเปิดตัวครั้งนี้รวมถึง:
* ฝั่ง ChatGPT: GPT-5.4 Thinking และ GPT-5.4 Pro เปิดให้บริการเต็มรูปแบบ
* ฝั่งนักพัฒนา: GPT-5.4 เข้าถึงได้ผ่าน API และ Codex พร้อมทั้งมีเวอร์ชันความเร็วสูง GPT-5.4 fast

หมายเลขเวอร์ชันของโมเดลกระโดดขึ้นเป็น 5.4 โดยตรง สะท้อนให้เห็นว่านี่คือการก้าวข้ามแบบบูรณาการในด้านความสามารถ “การให้เหตุผล” และ “การเขียนโปรแกรม” โดยมีผลการทดสอบโดดเด่นในหลายมาตรฐาน:
* ในแบบทดสอบ GDPval มีอัตราชนะถึง 83% ใกล้เคียงกับระดับผู้เชี่ยวชาญมนุษย์ชั้นยอด
* อยู่ในอันดับที่หนึ่งทั้งในมาตรฐานการเขียนโปรแกรม SWE-Bench Pro และมาตรฐานคณิตศาสตร์ FrontierMath
* ทำคะแนนสูงสุดใหม่ที่ 83.3% ในแบบทดสอบการให้เหตุผลเชิงนามธรรม ARC-AGI-2
โมเดลอเนกประสงค์รุ่นแรกที่มีความสามารถในการใช้คอมพิวเตอร์แบบเนทีฟ
GPT-5.4 เป็นโมเดลอเนกประสงค์รุ่นแรกที่มีความสามารถในการใช้คอมพิวเตอร์แบบเนทีฟ โดยสามารถจดจำส่วนต่อประสานผู้ใช้ (UI) จำลองการควบคุมแป้นพิมพ์และเมาส์ สลับระหว่างซอฟต์แวร์และเว็บเพจต่างๆ ได้อย่างอิสระ และทำงานคอมพิวเตอร์หลายขั้นตอนที่ซับซ้อน
ในแบบทดสอบมาตรฐาน OSWorld-Verified GPT-5.4 ทำได้อัตราความสำเร็จ 75% ทำลายสถิติสูงสุด (SOTA) ในสาขานี้ ผลการดำเนินงานนี้เหนือกว่าโมเดลรุ่นก่อน GPT-5.2 (47.3%) ระดับเฉลี่ยของมนุษย์ (72.4%) และ Claude Opus 4.6 (72.7%) ที่เพิ่งขึ้นนำเมื่อไม่นานมานี้

ในด้านการบูรณาการความสามารถ GPT-5.4 ได้รับสืบทอดความสามารถในการเขียนโปรแกรมทั้งหมดของ GPT-5.3-Codex และเพิ่มความยาวบริบท 1 ล้านโทเค็น พร้อมทั้งเพิ่มฟังก์ชันการค้นหาเครื่องมือแบบเนทีฟ ทำให้สามารถเชื่อมโยงความสามารถในการให้เหตุผล การเขียนโปรแกรม และการควบคุมคอมพิวเตอร์ได้ตลอดทั้งกระบวนการ โหมด GPT-5.4 Thinking อนุญาตให้ผู้ใช้เข้าแทรกแซงและปรับเปลี่ยนทิศทางได้ตลอดกระบวนการคิดของโมเดล โดยไม่ขัดจังหวะแนวคิด ทำให้สามารถส่งมอบงานที่ซับซ้อนได้ในการสนทนาครั้งเดียว
เชี่ยวชาญงานด้านความรู้ ประสิทธิภาพเทียบเท่าผู้เชี่ยวชาญ
ในด้านงานความรู้ GPT-5.4 ก็แสดงให้เห็นถึงความแข็งแกร่งเช่นกัน
ในแบบทดสอบมาตรฐาน GDPval ซึ่งครอบคลุมหลายอุตสาหกรรมและอาชีพหลัก GPT-5.4 ทำคะแนนได้ 83.0% เทียบเท่าหรือเหนือกว่าผู้เชี่ยวชาญในสาขาที่เกี่ยวข้อง และมีการปรับปรุงอย่างมีนัยสำคัญเมื่อเทียบกับ GPT-5.2 รุ่นก่อนหน้า (70.9%)

ในการทดสอบจำลองการสร้างแบบจำลองสเปรดชีตของนักวิเคราะห์ธนาคารเพื่อการลงทุนระดับต้น GPT-5.4 ได้คะแนนเฉลี่ย 87.3% นอกจากนี้ ในงานสร้างงานนำเสนอ (PPT) ผู้ประเมินที่เป็นมนุษย์มีแนวโน้มที่จะเลือกผลลัพธ์จาก GPT-5.4 มากกว่า โดยมองว่ามีความสวยงาม มีความหลากหลายทางสายตามากกว่า และใช้ภาพได้มีประสิทธิภาพมากกว่า
อัตราการหลงผิดลดลงอย่างมีนัยสำคัญ
เพื่อเพิ่มความน่าเชื่อถือของโมเดลในการทำงานจริง OpenAI ได้มุ่งเน้นการปรับปรุงความถูกต้องของข้อเท็จจริงของ GPT-5.4 ในการทดสอบชุดคำสั่งที่รวมข้อผิดพลาดข้อเท็จจริงที่ผู้ใช้ทำเครื่องหมายไว้ เมื่อเทียบกับ GPT-5.2 ความน่าจะเป็นที่ GPT-5.4 จะระบุข้อผิดพลาดแยกต่างหากลดลง 33% และความน่าจะเป็นที่คำตอบทั้งหมดจะรวมข้อผิดพลาดใดๆ ลดลง 18%
ความสามารถในการให้เหตุผลและการเขียนโปรแกรมรวมเป็นหนึ่งเดียว
จุดเด่นอีกประการของ GPT-5.4 คือการรวมความสามารถในการเขียนโปรแกรมของ GPT-5.3-Codex อย่างสมบูรณ์ ผู้ใช้ไม่จำเป็นต้องสลับระหว่าง “โมเดลอัจฉริยะ” และ “โมเดลเฉพาะสำหรับการเขียนโปรแกรม”
ในการทดสอบ SWE-Bench Pro GPT-5.4 ทำได้ความแม่นยำ 57.7% ซึ่งใกล้เคียงกับ GPT-5.3-Codex (56.8%) ที่สำคัญกว่านั้น GPT-5.4 เป็นโมเดลการให้เหตุผลที่มีประสิทธิภาพการใช้โทเค็นสูงสุดของ OpenAI ในปัจจุบัน โดยจำนวนโทเค็นที่ต้องการในการแก้ปัญหาเดียวกันลดลงอย่างมาก ส่งผลให้ต้นทุนลดลงและความเร็วเพิ่มขึ้น ในโหมด /fast ของ Codex ความเร็วในการสร้างโทเค็นสามารถเพิ่มขึ้นได้สูงสุด 1.5 เท่า
ผ่าน API นักพัฒนาสามารถใช้โหมด “Priority Processing” เพื่อรับการตอบสนองที่รวดเร็วเท่าเทียมกัน การทดสอบภายในยังแสดงให้เห็นว่า GPT-5.4 มีประสิทธิภาพโดดเด่นในการสร้างส่วนต่อประสานผู้ใช้ส่วนหน้าที่ซับซ้อนและมีฟังก์ชันครบถ้วน
ความสามารถในการรับรู้ภาพและการวิเคราะห์เอกสารเพิ่มขึ้น
ความสามารถในการดำเนินการที่ทรงพลังของ GPT-5.4 ตั้งอยู่บนพื้นฐานของการรับรู้ภาพทั่วไปที่แข็งแกร่งขึ้น
ในการทดสอบ MMMU-Pro GPT-5.4 (ไม่ใช้เครื่องมือ) ทำได้อัตราความสำเร็จ 81.2% ซึ่งดีกว่า GPT-5.2 (79.5%) การปรับปรุงการรับรู้ภาพยังส่งผลโดยตรงต่อความสามารถในการวิเคราะห์เอกสารที่แข็งแกร่งขึ้น โดยใน OmniDocBench GPT-5.4 มีข้อผิดพลาดเฉลี่ย (0.109) ต่ำกว่า GPT-5.2 (0.140)

นอกจากนี้ GPT-5.4 ยังได้แนะนำระดับรายละเอียดการป้อนข้อมูลภาพสองระดับเป็นครั้งแรก ได้แก่ “ดั้งเดิม” (original) และ “สูง” (high) ซึ่งรองรับความเข้าใจภาพที่มีความเที่ยงตรงสูงขึ้น และมีการปรับปรุงอย่างมากในด้านความแม่นยำของการระบุตำแหน่ง ความเข้าใจ และการโต้ตอบ
- เกมจำลองสวนสนุก
ด้วยคำสั่งเพียงชุดเดียว GPT-5.4 ก็สร้างเกมประเภทบริหารจัดการที่สมบูรณ์ขึ้นมา โลกจิ๋วที่ทำงานอัตโนมัตินี้มีองค์ประกอบครบถ้วน เช่น ระบบถนนแบบแผ่น การสร้างสิ่งอำนวยความสะดวก การจัดภูมิทัศน์ โดยระบบเงินทุน ผู้เข้าชม ความสุข และระบบการให้คะแนนเชื่อมโยงกัน Playwright ทำหน้าที่เป็นผู้ตรวจสอบคุณภาพที่เข้มงวดในกระบวนการนี้ โดยทำการทดสอบอัตโนมัติในทุกขั้นตอน ตั้งแต่การขยายตัวอย่างบ้าคลั่งไปจนถึงการรื้อถอนสิ่งอำนวยความสะดวก จากการนำทางกล้องไปจนถึงการตรวจสอบข้อมูล UI ภายใต้การทดสอบความดันสูง จนกระทั่งส่งมอบงานสำเร็จ
- เกม RPG แบบตารางกลยุทธ์
หลังจากผ่านการปรับปรุงหลายรอบ GPT-5.4 ได้สร้างเกมต่อสู้แบบตารางตามตาที่มีระบบครบถ้วน เช่น การเคลื่อนไหว การกระทำ ตำแหน่ง และการเผชิญหน้า การสร้างภาพรับผิดชอบตัวละครและสไตล์ศิลปะ ส่วน Playwright จะตรวจสอบการโต้ตอบส่วนต่อประสานผู้ใช้ ตรวจสอบและปรับแต่งพฤติกรรม UI และเอฟเฟกต์เชดเดอร์อย่างละเอียดในแต่ละรอบของการปรับปรุง จนกว่าความรู้สึกในการต่อสู้ การแสดงผลภาพ และประสบการณ์โดยรวมจะได้รับการปรับแต่งให้เหมาะสมทั้งหมด
- ประสบการณ์การบินเหนือสะพานโกลเดนเกต
เริ่มต้นจากคำสั่งชุดเดียวเช่นกัน GPT-5.4 สร้างฉาก 3D แบบไฮเปอร์เรียลลิสติกที่สามารถบินได้อย่างอิสระ โดยมีแสง น้ำ หมอก สายเคเบิล การจราจร ชายฝั่ง และภูมิหลังเมืองที่สมจริง รองรับการบินผ่านระยะใกล้และการมองจากมุมสูง Playwright กลายเป็น “นักบินเอซ” ทำการทดสอบการบินอัตโนมัติรอบทิศทางหลายมุม ไม่เพียงแต่ตรวจสอบความเสถียรของวิวพอร์ตเรนเดอร์ แต่ยังช่วยให้ AI ปรับเทียบองค์ประกอบและการกระจายแสงอย่างต่อเนื่องผ่านการตอบรับภาพหน้าจอ ผ่านการปรับปรุงความถี่สูงเป็นเวลาหนึ่งชั่วโมง
แนะนำ “การค้นหาเครื่องมือ” ลดการใช้โทเค็นลง 47%
ในด้านความสามารถในการใช้เครื่องมือ GPT-5.4 ได้รับการพัฒนาอย่างหลากหลายระดับ
- การค้นหาเครื่องมือ
GPT-5.4 ได้แนะนำฟังก์ชัน “การค้นหาเครื่องมือ” ซึ่งแก้ไขปัญหาการระเบิดของบริบทที่เกิดจากเครื่องมือ MCP มากเกินไปได้อย่างมีประสิทธิภาพ โมเดลต้องการเพียงรายการเครื่องมือที่ใช้งานได้แบบน้ำหนักเบา และจะค้นหาคำจำกัดความของเครื่องมือเฉพาะเมื่อจำเป็นจริงๆ และโหลดทันที ในการทดสอบมาตรฐาน MCP Atlas ของ Scale (ประกอบด้วย 250 งาน เปิดใช้งานเซิร์ฟเวอร์ MCP ทั้งหมด 36 เครื่อง) การกำหนดค่านี้ ลดการใช้โทเค็นทั้งหมดลง 47% ในขณะที่รักษาความแม่นยำในระดับเดียวกัน

สำหรับเซิร์ฟเวอร์ MCP ที่คำจำกัดความเครื่องมือมักใช้โทเค็นหลายหมื่นตัว การเพิ่มประสิทธิภาพนี้มีความสำคัญอย่างมาก
- การเรียกใช้เครื่องมือของเอเจนต์อัจฉริยะ
GPT-5.4 มีความแม่นยำมากขึ้นในการตัดสินใจ “เมื่อใด” และ “อย่างไร” ในการใช้เครื่องมือระหว่างกระบวนการให้เหตุผล ในแบบทดสอบมาตรฐาน Toolathlon มันทำได้ความแม่นยำ 54.6% นำหน้า GPT-5.3-Codex (51.9%) และ GPT-5.2 (45.7%) อย่างมาก และใช้รอบน้อยกว่า ความฉลาดของมันแสดงให้เห็นในความสามารถในการดำเนินกระบวนการหลายขั้นตอนที่สมบูรณ์ เช่น “อ่านอีเมล→แยกไฟล์แนบงาน→อัปโหลดไฟล์แนบ→ให้คะแนนงาน→บันทึกผลลัพธ์ลงในสเปรดชีต” ได้อย่างราบรื่น

Toolathlon: ประเมินความสามารถในการใช้เครื่องมือและ API ของโลกจริงในงานหลายขั้นตอน
ในสถานการณ์ที่ไวต่อความล่าช้า (ตั้งค่าความเข้มข้นของการให้เหตุผลเป็น None) GPT-5.4 ก็นำหน้าในงานบริการลูกค้าด้านโทรคมนาคม τ²-bench อย่างมากเช่นกัน และเมื่อเปิดใช้ความเข้มข้นของการให้เหตุผลสูง (xhigh) ความแม่นยำของมันในมาตรฐานนี้สูงถึง 98.9% ใกล้เคียงกับความสมบูรณ์แบบ

ความสามารถในการค้นหาเว็บพุ่งสูงขึ้น 17% เวอร์ชัน Pro ทำลายสถิติใหม่
ความสามารถในการค้นหาเว็บของเอเจนต์อัจฉริยะ GPT-5.4 ก็ได้รับการอัปเกรดอย่างมากเช่นกัน ในการทดสอบ BrowseComp คะแนนของ Claude Opus 4.6 ที่เคยนำหน้าคือ 84.0% ซึ่งสูงกว่า GPT-5.2 Pro ที่ 77.9% อย่างมาก ส่วน GPT-5.4 Pro กลับขึ้นนำด้วยคะแนน 89.3% ในขณะที่เวอร์ชันมาตรฐานที่ 82.7% ก็ใกล้เคียงกับ Opus 4.6

ในการใช้งานจริง นี่หมายความว่า GPT-5.4 Thinking มีความเชี่ยวชาญมากขึ้นในการตอบคำถามที่ต้องการรวบรวมข้อมูลจากหลายแหล่งในเครือข่าย มันสามารถทำการค้นหาหลายรอบที่ยาวนานขึ้นเพื่อกรองแหล่งที่มาที่เกี่ยวข้องที่สุด โดยเฉพาะอย่างยิ่งมีความเชี่ยวชาญในการจัดการคำถามแบบ “หาเข็มในมหาสมุทร” และรวบรวมข้อมูลเป็นคำตอบที่มีโครงสร้างชัดเจนและการให้เหตุผลที่เข้มงวด นอกจากนี้ มันยังสามารถรักษาความทรงจำบริบทได้ดีขึ้นเมื่อจัดการกับปัญหาที่ซับซ้อนซึ่งต้องการการคิดเป็นเวลานาน
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24488
