GPT-5.4 เปิดตัว: รวม 5 ความสามารถหลักไว้ในตัวเดียว แสดงผลงานด้านความรู้เหนือมนุษย์ส่วนใหญ่
เป็นเวลานานที่ผู้ใช้มักต้องสลับระหว่างโมเดลต่างๆ ตามประเภทงานเมื่อใช้เครื่องมือ AI: การเขียนโค้ด การค้นหาข้อมูล การควบคุมคอมพิวเตอร์ มักต้องเรียกใช้โมเดลเฉพาะทางที่แตกต่างกัน GPT-5.4 ที่ OpenAI เพิ่งเปิดตัวล่าสุดมีเป้าหมายเพื่อยุติประสบการณ์ที่แตกแยกนี้ โมเดลนี้รวบรวมความสามารถในการเขียนโปรแกรม การให้เหตุผล การควบคุมคอมพิวเตอร์ การค้นหาเว็บ และการประมวลผลคอนเท็กซ์โทเค็นระดับล้านไว้ในโมเดลอเนกประสงค์เดียวกัน โดยที่ความสามารถแต่ละด้านไม่ลดลงเนื่องจากการรวมเข้าด้วยกัน 
แซม อัลต์แมน CEO ของ OpenAI โพสต์ทวีตบนแพลตฟอร์ม X สรุปทิศทางสำคัญห้าประการของ GPT-5.4: ความสามารถในการทำงานด้านความรู้ที่ทรงพลังยิ่งขึ้น การค้นหาเว็บที่ยอดเยี่ยมกว่าเดิม การควบคุมคอมพิวเตอร์แบบเนทีฟ การรองรับคอนเท็กซ์โทเค็นระดับล้าน และการอนุญาตให้ผู้ใช้แทรกแซงได้ตลอดกระบวนการตอบสนอง
ประเด็นเหล่านี้สอดคล้องอย่างแม่นยำกับความท้าทายที่โดดเด่นที่สุดในกระบวนการนำ AI ไปใช้จริงในช่วงสองปีที่ผ่านมา 
งานด้านความรู้: เหนือมนุษย์ในงานมืออาชีพส่วนใหญ่
เพื่อให้เข้าใจความก้าวหน้าของ GPT-5.4 ในงานด้านความรู้ จำเป็นต้องรู้จักการทดสอบมาตรฐาน GDPval การทดสอบนี้ครอบคลุม 9 อุตสาหกรรมและ 44 อาชีพที่มีส่วนสนับสนุน GDP ของสหรัฐฯ มากที่สุด งานทั้งหมดมาจากสถานการณ์จริงในที่ทำงาน เช่น การสร้างแบบจำลองทางการเงินสำหรับธนาคารเพื่อการลงทุน การจัดตารางเวรฉุกเฉินสำหรับโรงพยาบาล การสร้างงานนำเสนอสำหรับทีมขาย เป็นต้น ผลลัพธ์ของงานจะถูกส่งให้ผู้ปฏิบัติงานในอุตสาหกรรมนั้นๆ ให้คะแนนโดยไม่รู้ที่มา เพื่อประเมินสัดส่วนที่ผลลัพธ์จาก AI ดีกว่าผลงานของมนุษย์ 
GPT-5.4 ได้คะแนน 83.0% ในการทดสอบนี้ หมายความว่าในกว่า 80% ของการเปรียบเทียบ ผู้เชี่ยวชาญในอุตสาหกรรมมองว่าผลลัพธ์ของมันมีมาตรฐานเทียบเท่าหรือเหนือกว่ามนุษย์ GPT-5.2 รุ่นก่อนหน้าได้คะแนน 70.9% ห่างกันเกือบ 13 เปอร์เซ็นต์ ความก้าวหน้าเห็นได้ชัดเจนเป็นพิเศษในงานสร้างแบบจำลองสเปรดชีต: GPT-5.4 ได้คะแนนเฉลี่ย 87.3% ในการจำลองนักวิเคราะห์ธนาคารเพื่อการลงทุนระดับจูเนียร์ทำงานสร้างแบบจำลอง ในขณะที่ GPT-5.2 และ GPT-5.3-Codex ได้คะแนน 68.4% และ 79.3% ตามลำดับ ห่างกันเกือบ 20 เปอร์เซ็นต์ 
ในการทดสอบ BigLaw Bench ของแพลตฟอร์มกฎหมาย Harvey GPT-5.4 ได้คะแนน 91%; และยังอยู่ในอันดับหนึ่งในการทดสอบมาตรฐาน APEX-Agents ของแพลตฟอร์มประเมินบริการมืออาชีพ Mercor
ด้านความแม่นยำก็มีการปรับปรุงอย่างมีนัยสำคัญเช่นกัน ปัญหาการหลอน (Hallucination) เป็นอุปสรรคหลักสำหรับ AI ในการเข้าสู่สถานการณ์มืออาชีพ ข้อมูลแสดงให้เห็นว่า เมื่อเทียบกับ GPT-5.2 ความน่าจะเป็นที่ GPT-5.4 จะทำผิดในข้อความเดียวลดลง 33% และความน่าจะเป็นที่คำตอบเต็มจะมีข้อผิดพลาดลดลง 18%
การเขียนโปรแกรม: รวมการเขียนโค้ดและการทดสอบเข้าด้วยกัน
GPT-5.4 รวมความสามารถในการเขียนโปรแกรมของ GPT-5.3-Codex ก่อนหน้านี้เข้าไว้ในโมเดลหลัก ซึ่งหมายความว่านักพัฒนาไม่จำเป็นต้องเรียกใช้โมเดลเฉพาะทางแยกต่างหากสำหรับงานเขียนโปรแกรมอีกต่อไป และความสามารถในการเขียนโปรแกรมหลังการรวมก็ไม่ลดลง ในการทดสอบมาตรฐาน SWE-Bench Pro ซึ่งทดสอบงานวิศวกรรมซอฟต์แวร์จริง GPT-5.4 ได้คะแนน 57.7% สูงกว่า GPT-5.3-Codex ที่ 56.8% และ GPT-5.2 ที่ 55.6% หลังการรวม ความสามารถในการเขียนโปรแกรมไม่ลดลงแต่กลับเพิ่มขึ้น พร้อมทั้งยังได้รับความสามารถอเนกประสงค์อื่นๆ เช่น การควบคุมคอมพิวเตอร์ 
Dan Shipper บล็อกเกอร์รีวิว AI ชื่อดัง หลังจากทดลองใช้แล้วระบุว่า: “นี่คือความสามารถในการวางแผนที่ยอดเยี่ยมที่สุดของ OpenAI ที่เราเห็นล่าสุด การตรวจสอบโค้ดของมันก็ทรงพลังมาก และต้นทุนประมาณครึ่งหนึ่งของ Claude Opus เท่านั้น”
เขาเน้นย้ำข้อได้เปรียบสองประการ: ประการแรกคือความสามารถในการวางแผน ซึ่งมีความสำคัญต่อความสำเร็จของงานระยะยาว GPT-5.4 มีระบบระเบียบมากขึ้นในการแยกย่อยและดำเนินงาน ประการที่สองคือข้อได้เปรียบด้านต้นทุน สำหรับนักพัฒนาที่ต้องการเรียกใช้ API ขนาดใหญ่ การลดต้นทุนลงครึ่งหนึ่งจะนำมาซึ่งผลประโยชน์ทางเศรษฐกิจอย่างมีนัยสำคัญ
หลังจากเปิดใช้งานโหมด /fast ใน Codex แล้ว อัตราการสร้างโทเค็นของ GPT-5.4 สามารถเพิ่มขึ้นได้สูงสุด 1.5 เท่า ช่วยให้สามารถรักษาสถานะการทำงานที่ราบรื่นในระหว่างกระบวนการเขียนโค้ด การทำซ้ำ และการดีบัก

ในเวลาเดียวกัน ฟีเจอร์ทดลองใหม่ Playwright Interactive ได้ยกระดับประสบการณ์การเขียนโปรแกรมอีกขั้น เมื่อสร้างแอปพลิเคชันเว็บหรือ Electron GPT-5.4 สามารถทำการดีบักแบบเรียลไทม์ผ่านเบราว์เซอร์ที่มองเห็นได้ ทดสอบแอปพลิเคชันที่กำลังสร้างไปพร้อมกับการเขียนโค้ด โดยทำหน้าที่เป็นทั้งนักพัฒนาและผู้ทดสอบในเวลาเดียวกัน 
OpenAI แสดงกรณีศึกษาที่เป็นตัวอย่าง: ด้วยพรอมต์ง่ายๆ เพียงข้อความเดียว GPT-5.4 สร้างเกมจำลองธีมพาร์คแบบไอโซเมตริกที่สมบูรณ์ ประกอบด้วยระบบการปูเส้นทางและสร้างสถานที่ท่องเที่ยวแบบไทล์ ระบบการค้นหาเส้นทางและพฤติกรรมการเข้าคิวของ AI ผู้เยี่ยมชม และตัวชี้วัดสี่ประการที่อัปเดตแบบเรียลไทม์ ได้แก่ เงินทุน จำนวนผู้เยี่ยมชม ความพึงพอใจ และความสะอาด Playwright Interactive ดำเนินการทดสอบอัตโนมัติหลายรอบตลอดกระบวนการ ตรวจสอบความถูกต้องของการปูเส้นทาง การนำทางกล้อง การตอบสนองของผู้เยี่ยมชม และตัวชี้วัด UI ทำให้กระบวนการตั้งแต่การเขียนโค้ดไปจนถึงการทดสอบและการยอมรับเป็นไปโดยอัตโนมัติทั้งหมด
Angel บล็อกเกอร์ ใช้ GPT-5.4 เขียนเกมโคลน Minecraft โมเดลใช้เวลาประมาณ 24 นาที และทำงานได้ราบรื่นไม่มีกระตุก เขาเขียนในทวีตว่า: “Minecraft ถูกพิชิตโดยพื้นฐานแล้ว ตอนนี้ฉันต้องหาการทดสอบใหม่แล้ว” 
Ethan Mollick ศาสตราจารย์จาก Wharton School ก็ได้รับสิทธิ์การเข้าถึงล่วงหน้าเช่นกัน เขาใช้พรอมต์เดียวกัน ทำให้ GPT-5.4 Pro สร้างฉากพื้นที่สามมิติที่ได้รับแรงบันดาลใจจาก Piranesi โดยไม่มีข้อผิดพลาดใดๆ ตลอดกระบวนการ เพียงเพิ่มคำสั่งเสริมว่า “ทำให้มันดีขึ้น” เขาเปรียบเทียบผลลัพธ์ที่สร้างขึ้นกับเวอร์ชันของ GPT-4 เมื่อสองปีก่อน โดยวางไว้เคียงข้างกัน ความแตกต่างเห็นได้ชัดเจน 
การควบคุมคอมพิวเตอร์: บูรณาการแบบเนทีฟ แสดงผลเหนือมนุษย์
ความสามารถในการควบคุมคอมพิวเตอร์เป็นหนึ่งในการเปลี่ยนแปลงที่น่าสนใจที่สุดของ GPT-5.4 ครั้งนี้ ก่อนหน้านี้ การควบคุมคอมพิวเตอร์ของ OpenAI เป็นโมดูลอิสระ มีช่องว่างระหว่างความสามารถในการทำความเข้าใจภาษาและการสร้างโค้ดของโมเดล การส่งผ่านข้อมูลระหว่างสองระบบทำให้ประสิทธิภาพลดลง ตอนนี้ ช่องว่างดังกล่าวถูกขจัดออกไป เมื่อ GPT-5.4 ควบคุมคอมพิวเตอร์ มันจะเรียกใช้ความสามารถในการให้เหตุผลของโมเดลเองโดยตรง นี่เป็นผลิตภัณฑ์แรกของ OpenAI ที่มีความสามารถในการใช้คอมพิวเตอร์แบบเนทีฟในตัวโมเดลอเนกประสงค์ ซึ่งกำหนดจุดเริ่มต้นใหม่สำหรับการพัฒนา AI Agent
ผลการทดสอบมาตรฐานแสดงให้เห็นว่า ในมาตรฐาน OSWorld-Verified (ซึ่งทำงานจริงบนระบบปฏิบัติการผ่านภาพหน้าจอและการโต้ตอบด้วยเมาส์และแป้นพิมพ์) GPT-5.4 บรรลุอัตราความสำเร็จ 75.0% สูงกว่าเส้นฐานมนุษย์ที่ 72.4% ในขณะที่ GPT-5.2 มีอัตราความสำเร็จ 47.3%
พูดง่ายๆ คือ ประสิทธิภาพของมันไม่เพียงแต่ทัดเทียม แต่ยังเหนือกว่ามนุษย์
ในการทดสอบมาตรฐาน Online-Mind2Web ซึ่งทดสอบการควบคุมเบราว์เซอร์โดยใช้โหมดภาพหน้าจอเท่านั้น GPT-5.4 บรรลุอัตราความสำเร็จ 92.8% เมื่อเทียบกับ ChatGPT Atlas ในโหมด Agent ที่ 70.9%
กรณีการใช้งานจริงมีความน่าเชื่อถือมากกว่า Mainstay Company ใช้ GPT-5.4 สำหรับงานกรอกแบบฟอร์มอัตโนมัติบนพอร์ทัลภาษีทรัพย์สินประมาณสามหมื่นแห่ง อัตราความสำเร็จในครั้งแรกสูงถึง 95% และสามารถบรรลุ 100% ภายในสามครั้ง ในขณะที่โมเดลประเภทเดียวกันก่อนหน้านี้มีอัตราความสำเร็จเพียง 73% ถึง 79% เท่านั้น นอกจากนี้ ความเร็วในการเสร็จสิ้นการสนทนาเพิ่มขึ้นประมาณสามเท่า และการใช้โทเค็นลดลงประมาณ 70%
ความสำเร็จนี้ไม่อาจเกิดขึ้นได้หากไม่มีการปรับปรุงความสามารถในการรับรู้ภาพ การควบคุมคอมพิวเตอร์โดยพื้นฐานแล้วต้อง “มองเห็น” องค์ประกอบอินเทอร์เฟซ ตำแหน่งปุ่ม และให้แน่ใจว่าการคลิกแม่นยำ GPT-5.4 ได้เสริมความแข็งแกร่งในด้านนี้เป็นพิเศษ โดยแนะนำโหมดอินพุต “ภาพดิบ” ซึ่งรองรับการป้อนภาพความเที่ยงตรงสูงสูงสุด 10.24 ล้านพิกเซล หรือด้านยาวสูงสุด 6000 พิกเซล ขีดจำกัดของโหมด “ความละเอียดสูง” เดิมก็เพิ่มขึ้นจากมาตรฐานเดิมเป็น 2.56 ล้านพิกเซล หรือด้านยาวสูงสุด 2048 พิกเซล
การเรียกใช้เครื่องมือและการค้นหาเว็บ: นวัตกรรมด้านประสิทธิภาพและความต่อเนื่อง
ระบบ AI Agent แบบดั้งเดิม เมื่อจัดการงานที่ซับซ้อน มักต้องโหลดคำอธิบายเครื่องมือทั้งหมดที่ใช้ได้เมื่อเริ่มการสนทนา ไม่ว่าจะใช้ในบทสนทนานี้หรือไม่ก็ตาม สิ่งนี้ทำให้เกิดการสิ้นเปลืองโทเค็นอย่างมีนัยสำคัญ GPT-5.4 ได้ปรับปรุงในจุดนี้ โดยแนะนำกลไกการค้นหาเครื่องมือ โมเดลจะดึงรายการเครื่องมือที่กระชับก่อน จากนั้นจึงเรียกใช้คำอธิบายโดยละเอียดของเครื่องมือเฉพาะทางแบบไดนามิกเมื่อจำเป็นเท่านั้น และคำอธิบายเครื่องมือที่ถูกเรียกใช้แล้วจะถูกแคชไว้สำหรับใช้ในภายหลัง
ในการทดสอบที่ประกอบด้วย 250 งาน ภายใต้การกำหนดค่าเต็มรูปแบบของเซิร์ฟเวอร์ MCP 36 ตัว โหมดนี้สามารถลดการใช้โทเค็นทั้งหมดลง 47% ในขณะที่รักษาอัตราความแม่นยำของงานให้คงเดิม ทำให้ประหยัดต้นทุนได้เกือบครึ่งหนึ่ง 
ในด้านความสามารถในการค้นหาเว็บ GPT-5.4 ได้คะแนน 82.7% ในการทดสอบมาตรฐาน BrowseComp เพิ่มขึ้น 17 เปอร์เซ็นต์จาก GPT-5.2 ที่ 65.8% เวอร์ชัน Pro ของมันได้คะแนนสูงถึง 89.3% ซึ่งเป็นคะแนนสูงสุดในอุตสาหกรรมสำหรับมาตรฐานนี้ มีการประเมินว่า GPT-5.4 แสดงความต่อเนื่องในการค้นหาที่แข็งแกร่งขึ้น สามารถค้นหาข้อมูลลึกต่อไปได้ในขณะที่โมเดลอื่นอาจยอมแพ้ 
คอนเท็กซ์โทเค็นระดับล้าน: ความสมดุลระหว่างความสามารถและต้นทุน
API ของ GPT-5.4 รองรับหน้าต่างคอนเท็กซ์สูงสุด 1 ล้านโทเค็น ซึ่งในทางทฤษฎีอนุญาตให้รวมเอกสารโครงการทั้งหมดไว้ในการสนทนาเดียว อย่างไรก็ตาม ข้อมูลการทดสอบแสดงให้เห็นว่าช่วงประสิทธิภาพที่เสถียรที่สุดอยู่ที่ 128K ถึง 272K โทเค็น เหมาะสำหรับการใช้งานประจำวัน
เมื่อความยาวคอนเท็กซ์เกิน 256K ความแม่นยำของโมเดลเริ่มลดลง; ในช่วง 512K ถึง 1M คะแนนลดลงเหลือประมาณ 36.6% ขณะนี้ช่วงนี้เหมาะสำหรับการสำรวจเชิงทดลองมากกว่างานการผลิตจริงที่ต้องการความแม่นยำสูง 
นอกจากนี้ การใช้คอนเท็กซ์ยาวพิเศษมาพร้อมกับต้นทุนที่สูงขึ้น: คำขอที่เกิน 272K โทเค็น จะถูกนับเป็นการใช้สองเท่า ในการคำนวณโควต้า ผู้ใช้ต้องชั่งน้ำหนักว่าจำเป็นต้องใช้หน้าต่างคอนเท็กซ์ที่ยาวขนาดนี้จริงๆ หรือไม่
ผลการทดสอบมาตรฐานมืออาชีพ
GPT-5.4 แสดงความก้าวหน้าอย่างมีนัยสำคัญในการทดสอบมาตรฐานมืออาชีพที่ยากหลายรายการ:
* การให้เหตุผลเชิงนามธรรมด้วยภาพ (ARC-AGI-2): GPT-5.4 Pro ได้คะแนน 83.3% สูงกว่าเวอร์ชัน Pro รุ่นก่อนหน้าอย่างมากที่ 54.2% 
* คณิตศาสตร์ระดับสูง (FrontierMath Tier 4): การทดสอบมาตรฐานนี้ประกอบด้วยปัญหาคณิตศาสตร์ระดับวิจัย 50 ข้อ GPT-5.4 Pro ได้คะแนน 38.0% สูงกว่ารุ่นก่อนหน้าที่ 31.3% เปรียบเทียบกับผลลัพธ์ที่ดีที่สุดของโมเดลประเภทเดียวกันเมื่อหนึ่งปีก่อนซึ่งมีเพียง 2% และผลลัพธ์ที่ดีที่สุดของโมเดลโอเพ่นซอร์ส
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/24539
