GPT-5.4 เปิดตัวอย่างน่าตื่นตาตื่นใจ: โมเดลอเนกประสงค์แรกที่รองรับการทำงานบนคอมพิวเตอร์โดยกำเนิด ความสามารถรวมเป็นหนึ่งเดียว ราคาถูกกว่าและเร็วกว่า

2026年3月6日 am10:01 • ข่าวสารอุตสาหกรรม AI • 237 views

GPT-5.4 ได้รับการเปิดตัวอย่างเป็นทางการ ซึ่งเป็นการก้าวสำคัญสู่ “การรวมศูนย์ความสามารถ” ของโมเดล AI เป็นครั้งแรกที่ OpenAI ผสานความสามารถหลักต่างๆ เช่น การให้เหตุผล การเขียนโปรแกรม การโต้ตอบแบบเนทีฟกับคอมพิวเตอร์ การค้นหาเว็บเชิงลึก และหน้าต่างบริบทระดับล้านโทเค็น เข้าไว้ในโมเดลเดียวอย่างลึกซึ้ง

ฝ่ายผู้พัฒนาระบุเป็นพิเศษว่าการบูรณาการนี้ไม่ได้แลกมาด้วยการสูญเสียประสิทธิภาพในด้านใดด้านหนึ่ง ในหลายการทดสอบมาตรฐานที่สำคัญ GPT-5.4 ยังคงรักษาตำแหน่งผู้นำในสาขาที่เกี่ยวข้อง

สิ่งที่ดึงดูดความสนใจมากที่สุดในการเปิดตัวครั้งนี้คือ GPT-5.4 ได้กลายเป็นโมเดลอเนกประสงค์แรกที่รองรับความสามารถ “การใช้คอมพิวเตอร์” แบบเนทีฟ ซึ่งหมายความว่าโมเดลสามารถเข้าใจภาพหน้าจอและควบคุมอินเทอร์เฟซซอฟต์แวร์ได้โดยการจำลองการคลิกเมาส์และการป้อนข้อมูลผ่านแป้นพิมพ์

ในเวลาเดียวกัน GPT-5.4 ได้รับการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญ เมื่อเทียบกับโมเดลรุ่นก่อน จำนวนโทเค็นที่ใช้ในกระบวนการให้เหตุผลลดลงอย่างเห็นได้ชัด ส่งผลให้มีความเร็วในการตอบสนองที่เร็วขึ้นและต้นทุนการใช้โดยรวมที่ต่ำลง OpenAI เน้นย้ำซ้ำๆ ว่าการอัปเกรดครั้งนี้เป็นผลมาจากการปรับปรุงความสามารถและการเพิ่มประสิทธิภาพที่ดำเนินไปพร้อมกัน

พร้อมกับการเปิดตัว GPT-5.4 ระบบโมเดลของ ChatGPT ก็ได้รับการอัปเดตตามไปด้วย โมเดลใหม่ได้เปิดตัวพร้อมกันบนแพลตฟอร์ม ChatGPT, API และ Codex ในด้านราคา API แม้ว่าราคาต่อโทเค็นของ GPT-5.4 จะสูงกว่า GPT-5.2 เล็กน้อย แต่เนื่องจากงานที่ต้องใช้โทเค็นน้อยลง ต้นทุนโดยรวมอาจไม่เพิ่มขึ้นอย่างมาก

รุ่น GPT-5.4 Pro สำหรับงานที่ซับซ้อนก็ได้เปิดตัวแล้วเช่นกัน ซึ่งปรากฏใน ChatGPT ในชื่อ “GPT-5.4 Thinking” รุ่นนี้จะแทนที่ GPT-5.2 Thinking ก่อนหน้า ส่วนซีรีส์ GPT-5.2 จะถูกปลดระวางอย่างเป็นทางการในอีกสามเดือนข้างหน้า ส่วนซีรีส์ GPT-5.1 ที่เก่ากว่าก็จะถูกลบออกจาก ChatGPT ในวันที่ 11 มีนาคม

การเปิดตัว GPT-5.4 ได้จุดประกายการอภิปรายอย่างกว้างขวางอย่างรวดเร็ว คุณลักษณะที่รวมบริบทระดับล้านโทเค็นและความสามารถในการควบคุมคอมพิวเตอร์แบบเนทีฟไว้ด้วยกัน ถูกมองโดยผู้วิจารณ์หลายคนว่าเป็นก้าวสำคัญของ AI สู่การวิวัฒนาการเป็นผู้ช่วยดิจิทัลอเนกประสงค์

GPT-5.4 เปิดตัวอย่างน่าตื่นตาตื่นใจ: โมเดลอเนกประสงค์แรกที่รองรับการทำงานบนคอมพิวเตอร์โดยกำเนิด ความสามารถรวมเป็นหนึ่งเดียว ราคาถูกกว่าและเร็วกว่า

ความสามารถหลักก้าวกระโดด: พัฒนาอย่างครอบคลุมในสามทิศทาง

การอัปเกรดความสามารถของ GPT-5.4 เน้นไปที่สามทิศทางหลัก:
* งานความรู้เชิงลึก
* การใช้คอมพิวเตอร์แบบเนทีฟ
* การเขียนโปรแกรมและการดีบักระดับสูง

ความสามารถทั้งสามนี้ครอบคลุมกระบวนการหลักของงานดิจิทัลในปัจจุบันเป็นพื้นฐาน

งานความรู้เชิงลึก

ในการทดสอบมาตรฐาน GDPval ซึ่งวัดความสามารถของ AI ในการทำงานความรู้ 44 อาชีพ GPT-5.4 ได้คะแนนรวม 83.0% การทดสอบนี้ต้องการให้โมเดลสร้างผลงานจริง เช่น งานนำเสนอการขาย ตารางบัญชี ตารางการทำงาน เป็นต้น

OpenAI ได้เสริมความสามารถของโมเดลในด้านเอกสารสำนักงานเป็นพิเศษ ตัวอย่างเช่น ในการทดสอบสร้างแบบจำลองธนาคารเพื่อการลงทุนภายใน GPT-5.4 ได้คะแนนเฉลี่ย 87.3% ซึ่งสูงกว่า GPT-5.2 ที่ 68.4% อย่างมีนัยสำคัญ ในการทดสอบสร้างพรีเซนเตชันที่ผู้พิพากษาเป็นมนุษย์ ผู้พิพากษามีความพึงพอใจกับผลลัพธ์ที่สร้างโดย GPT-5.4 68% ของเวลา โดยเห็นว่าดีกว่าในด้านภาพลักษณ์ ความหลากหลายของรูปแบบ และการใช้ภาพ

ความสามารถเหล่านี้สอดคล้องโดยตรงกับสถานการณ์งานความรู้ทั่วไป เช่น การเขียนรายงาน การสร้างแบบจำลองทางการเงิน การวิเคราะห์ข้อมูลธุรกิจ

การใช้คอมพิวเตอร์แบบเนทีฟ

นี่คือจุดเด่นหลักที่ทำให้ GPT-5.4 แตกต่างจากโมเดลรุ่นก่อน โมเดลสามารถเข้าใจอินเทอร์เฟซซอฟต์แวร์ผ่านภาพหน้าจอ และดำเนินการคลิก ป้อนข้อมูล เป็นต้น เพื่อทำงานต่างๆ เช่น ส่งอีเมล สร้างปฏิทิน กรอกแบบฟอร์ม ควบคุมเว็บเพจ

ในการทดสอบมาตรฐานที่เกี่ยวข้อง GPT-5.4 มีผลงานโดดเด่น: ในแบบทดสอบงานเบราว์เซอร์ WebArena มีอัตราความสำเร็จ 67.3%; ในแบบทดสอบ Online-Mind2Web ที่ทำงานบนเว็บผ่านภาพหน้าจออย่างเดียว มีอัตราความสำเร็จสูงถึง 92.8%; ในแบบทดสอบการควบคุมเดสก์ท็อป OSWorld-Verified อัตราความสำเร็จ 75.0% ของมันสูงกว่าค่าเฉลี่ยของมนุษย์ (72.4%) เสียอีก

การเขียนโปรแกรมและการดีบักระดับสูง

GPT-5.4 รวมความสามารถของโมเดลเขียนโปรแกรมที่แข็งแกร่งที่สุดก่อนหน้านี้ และนำเสนอฟีเจอร์ทดลองใหม่ ตัวอย่างเช่น โหมด “Playwright (Interactive)” อนุญาตให้ AI ขณะเขียนเว็บหรือแอปพลิเคชัน เปิดหน้าต่างแสดงภาพเพื่อทำการดีบักแบบเรียลไทม์

ในการทดสอบ SWE-Bench Pro GPT-5.4 ได้คะแนน 57.7% ซึ่งสูงกว่าโมเดลเขียนโปรแกรมรุ่นก่อนหน้าเล็กน้อย และมีความหน่วงเวลาต่ำกว่า การทดสอบภายในแสดงให้เห็นว่าในการทำงานส่วนหน้าที่ยุ่งยากซับซ้อน อินเทอร์เฟซที่สร้างออกมาสวยงามกว่า และโครงสร้างการทำงานก็สมบูรณ์กว่า

OpenAI สาธิตความสามารถนี้ผ่านเกมจำลองสวนสนุกธีมเบราว์เซอร์ที่สร้างโดย GPT-5.4: โมเดลเริ่มจากพรอมต์ง่ายๆ สร้างทรัพยากร สร้างฉาก เขียนลอจิกด้วยตนเอง และทำซ้ำอย่างต่อเนื่องผ่านการทดสอบอัตโนมัติ กระบวนการทำงานของมันใกล้เคียงกับวิศวกรฟูลสแต็กระดับสูง

ตำแหน่งโดยรวม: มุ่งสู่ “พนักงานดิจิทัล AI”

เมื่อพิจารณาจากความสามารถข้างต้น จะเห็นได้ว่าเป้าหมายของ GPT-5.4 คือการเป็นระบบเอเจนต์อัจฉริยะที่สามารถทำงานจริงได้ มันกำลังวิวัฒนาการจากเครื่องมือช่วยเหลือที่ต้องการการดูแลอย่างใกล้ชิดจากมนุษย์ สู่ “พนักงานดิจิทัล” ที่สามารถรับผิดชอบงานทั้งส่วนได้อย่างอิสระ

การวิวัฒนาการนี้แสดงให้เห็นอย่างชัดเจนผ่านการก้าวกระโดดในสามมิติ:
1. ความสามารถในการควบคุมคอมพิวเตอร์: ควบคุมซอฟต์แวร์โดยตรงผ่านความเข้าใจทางภาพ
2. ความสามารถในการทำงานบนเบราว์เซอร์: ในการทดสอบ BrowseComp GPT-5.4 ทำได้ 82.7% และรุ่น Pro ทำได้ถึง 89.3% ซึ่งหมายความว่ามันสามารถค้นหา กรอง และรวบรวมข้อมูลจากอินเทอร์เน็ตได้อย่างต่อเนื่อง
3. ความสามารถในการเรียกใช้เครื่องมือหลายอย่าง: ในการทดสอบมาตรฐาน Toolathlon (งานเกี่ยวข้องกับการดำเนินการหลายขั้นตอน เช่น อ่านไฟล์แนบอีเมล อัปโหลดไฟล์ ให้คะแนนและบันทึก) GPT-5.4 มีความแม่นยำ 54.6% สูงกว่า 45.7% ของรุ่นก่อน ความสามารถในการเรียกใช้เครื่องมือตามความต้องการนี้ เป็นกุญแจสำคัญในการลดต้นทุนการทำงานของเอเจนต์อัจฉริยะ และหลีกเลี่ยงไม่ให้มัน “หลงทาง” ในงานที่ซับซ้อน

นอกจากนี้ GPT-5.4 ยังได้รับการปรับให้เหมาะสมสำหรับสถานการณ์ที่ต้องการความหน่วงเวลาต่ำเป็นพิเศษ

การพัฒนาอย่างครอบคลุมในรายละเอียด

นอกจากความสามารถหลักแล้ว GPT-5.4 ยังได้รับการปรับปรุงอย่างมีนัยสำคัญในการจัดการรายละเอียดของสถานการณ์ทำงานในสำนักงาน

ในด้านการสร้างและแก้ไขสเปรดชีตและพรีเซนเตชัน ความแม่นยำในการสร้างแบบจำลองตารางเพิ่มขึ้นจาก 68.4% เป็น 87.3% ในการประเมินพรีเซนเตชันโดยมนุษย์ ผลลัพธ์ของ GPT-5.4 ได้รับความนิยมมากกว่าในด้านความหลากหลายทางภาพและสุนทรียภาพ

ความสามารถด้านภาพที่เพิ่มขึ้นยังช่วยยกระดับการวิเคราะห์เอกสารอีกด้วย ในการทดสอบมาตรฐานการให้เหตุผลทางภาพ MMMU-Pro GPT-5.4 ได้ความแม่นยำ 81.2% ซึ่งดีกว่า GPT-5.2 ที่ 79.5%

นอกจากนี้ โมเดลตอนนี้รองรับการป้อนข้อมูลภาพต้นฉบับที่มีความละเอียดสูงถึง 10.24 ล้านพิกเซล ทำให้มีความเข้าใจภาพความละเอียดสูงและความหนาแน่นสูงที่แม่นยำยิ่งขึ้น ในการทดสอบการวิเคราะห์เอกสาร OmniDocBench อัตราความผิดพลาดเฉลี่ยของ GPT-5.4 ลดลงจาก 0.140 เป็น 0.109

ความแม่นยำที่เพิ่มขึ้นก็มีนัยสำคัญเช่นกัน ตามข้อมูลอย่างเป็นทางการ ความน่าจะเป็นของข้อผิดพลาดข้อเท็จจริงของ GPT-5.4 ลดลง 33% เมื่อเทียบกับโมเดลรุ่นก่อน ซึ่งช่วยลดความกังวลของผู้ใช้เกี่ยวกับ “ภาพหลอน” ของโมเดล

ในด้านการเพิ่มประสิทธิภาพ GPT-5.4 ได้แนะนำกลไกการค้นหาเครื่องมือ วิธีดั้งเดิมต้องใส่คำจำกัดความของเครื่องมือทั้งหมดลงในพรอมต์ ทำให้พรอมต์ยาวเกินไป กลไกใหม่อนุญาตให้โมเดลดึงรายการเครื่องมือก่อน แล้วจึงค้นหาคำจำกัดความเฉพาะตามความต้องการ ในการทดสอบมาตรฐาน MCP Atlas กลไกนี้ลดปริมาณการใช้โทเค็นทั้งหมดลง 47% ในขณะที่รักษาความแม่นยำเดิมไว้ ซึ่งแสดงให้เห็นว่า OpenAI กำลังมุ่งมั่นที่จะผลักดันการประยุกต์ใช้โมเดลขนาดใหญ่เชิงพาณิชย์ในระดับกว้างผ่านการควบคุมต้นทุน

การเพิ่มประสิทธิภาพและการพิจารณาต้นทุน

ตามราคา API ที่ OpenAI ประกาศ อัตราค่าบริการต่อล้านโทเค็นสำหรับอินพุต/เอาต์พุตของ GPT-5.4 คือ 2.5 ดอลลาร์และ 15 ดอลลาร์ ตามลำดับ ซึ่งสูงกว่า GPT-5.2 ที่ 1.75 ดอลลาร์และ 14 ดอลลาร์ รุ่น GPT-5.4 Pro สำหรับความต้องการประสิทธิภาพสูงมีราคาสูงกว่า รุ่นนี้เน้นไปที่สถาบันมืออาชีพและสถานการณ์การผลิตระดับสูงเป็นหลัก

แม้ว่าราคาต่อหน่วยจะเพิ่มขึ้น แต่ GPT-5.4 ประหยัดต้นทุนที่อาจเกิดขึ้นได้ผ่านกลไกทางเทคนิค สิ่งสำคัญอยู่ที่ฟังก์ชันการค้นหาเครื่องมือที่กล่าวถึงก่อนหน้า ซึ่งหลีกเลี่ยงการจ่ายค่าโทเค็นสำหรับคำจำกัดความเครื่องมือที่ไม่ได้ใช้ ในการทดสอบ เทคโนโลยีนี้ลดปริมาณการใช้โทเค็นทั้งหมดลง 47%

ราคาของความก้าวหน้าทางเทคโนโลยี

การพัฒนาอย่างรวดเร็วของเทคโนโลยีมาพร้อมกับการพิจารณาต้นทุนการใช้จริง ผู้ใช้บางคนได้แบ่งปันประสบการณ์ที่ใช้ GPT-5.4 Pro เพื่อโต้ตอบแบบง่ายๆ แต่กลับเกิดค่าใช้จ่ายสูง ซึ่งจุดประกายการอภิปรายในชุมชนเกี่ยวกับ “ใช้มีดใหญ่ฆ่าไก่” – วิธีการเลือกรุ่นโมเดลอย่างเหมาะสมตามความต้องการจริง กลายเป็นปัญหาที่ควรค่าแก่การพิจารณา