OpenAI เปิดตัว GPT-5.5: โมเดลการทำงานแบบเอเจนต์อัจฉริยะ ประสิทธิภาพเหนือกว่าคู่แข่ง

5 hours ago • ข่าวสารอุตสาหกรรม AI • 13 views

วันนี้ OpenAI เปิดตัว GPT-5.5 โดยระบุว่าเป็นโมเดลที่ “ฉลาดที่สุดและใช้งานง่ายที่สุด” ของบริษัท และเป็นรูปแบบความฉลาดรูปแบบใหม่สำหรับการทำงานจริง เมื่อเทียบกับรุ่นก่อนหน้า จุดเน้นของ GPT-5.5 คือการรับผิดชอบงานที่ซับซ้อนมากขึ้น เช่น การวางแผน การเรียกใช้เครื่องมือ การตรวจสอบผลลัพธ์ และการดำเนินการข้ามเครื่องมือ OpenAI วางตำแหน่งให้เป็นก้าวสำคัญในการขับเคลื่อน “การใช้ AI ทำงานบนคอมพิวเตอร์”

ชนะ Opus 4.7 และ Mythos หรือไม่?

ท่ามกลางความขัดแย้งที่เพิ่มขึ้นกับ Anthropic หลังจากการเปิดตัว GPT-5.5 หลายคนให้ความสนใจว่าโมเดลของใครแข็งแกร่งกว่ากัน ประกอบกับ Opus 4.7 ได้รับคำติชมเชิงลบจำนวนมากหลังเปิดตัว การเปิดตัว GPT-5.5 จึงยิ่งได้รับความสนใจมากขึ้น

การปรับปรุงของ GPT-5.5 เน้นไปที่สี่ด้าน ได้แก่ การเขียนโค้ดแบบ Agentic การใช้คอมพิวเตอร์ งานด้านความรู้ และการวิจัยทางวิทยาศาสตร์ขั้นต้น ลักษณะร่วมของด้านเหล่านี้คืองานมักต้องใช้การอนุมานบริบทยาว การดำเนินการอย่างต่อเนื่อง และการดำเนินการข้ามเครื่องมือ ไม่ใช่การถามตอบเพียงรอบเดียว

OpenAI ระบุว่า GPT-5.5 สามารถเข้าใจความตั้งใจของผู้ใช้ได้เร็วขึ้น และสามารถรับผิดชอบขั้นตอนการทำงานต่างๆ ได้มากขึ้น รวมถึงการเขียนและดีบักโค้ด การวิจัยออนไลน์ การวิเคราะห์ข้อมูล การสร้างเอกสารและสเปรดชีต การใช้งานซอฟต์แวร์ และการสลับไปมาระหว่างเครื่องมือต่างๆ จนกว่างานจะเสร็จสมบูรณ์

แตกต่างจากโมเดลสนทนาแบบดั้งเดิมที่ต้องการให้ผู้ใช้ค่อยๆ แยกย่อยและสั่งการ OpenAI อธิบายว่า GPT-5.5 ใกล้เคียงกับ “โมเดลการทำงานแบบ Agentic” มากกว่า: ผู้ใช้สามารถมอบหมายงานที่ยุ่งเหยิง ซับซ้อน และมีหลายส่วนให้กับมันได้โดยตรง จากนั้นโมเดลจะวางแผน ใช้เครื่องมือ ตรวจสอบผลลัพธ์ และดำเนินการต่อไปในสภาพแวดล้อมที่ไม่แน่นอนด้วยตัวเอง

บริษัท Andon Labs ซึ่งมุ่งเน้นการทดลองด้านความปลอดภัยของ AI Agent และองค์กรอัตโนมัติ ได้รับสิทธิ์เข้าถึง GPT-5.5 ก่อนใคร หลังจากการทดสอบ มันได้อันดับสามใน Vending-Bench 2: มีประสิทธิภาพดีกว่า GPT-5.4 แต่ไม่เท่า Opus 4.7 อย่างไรก็ตาม คะแนนของมันใกล้เคียงกับ Opus 4.6 และไม่พบพฤติกรรมการหลอกลวงหรือการแสวงหาอำนาจใดๆ ที่เห็นใน Opus 4.6 และ Mythos “ดังนั้น พฤติกรรมที่ไม่ดีจึงไม่ใช่เงื่อนไขที่จำเป็นสำหรับการได้คะแนนดี แล้วทำไม Claude ถึงยังทำแบบนั้น?” Andon Labs ตั้งคำถาม

นอกจากนี้ Andon Labs ระบุว่า ใน Vending-Bench Arena ซึ่งเป็น Vending-Bench แบบ多人ที่มีพลวัตการแข่งขัน GPT-5.5 เอาชนะ Opus 4.7 ได้จริง Opus 4.7 แสดงพฤติกรรมคล้ายกับ Opus 4.6: โกหกซัพพลายเออร์และปฏิเสธการคืนเงินให้ลูกค้า กลยุทธ์ของ GPT-5.5 นั้นสะอาด แต่ก็ยังชนะ”

OpenAI เปิดตัว GPT-5.5: โมเดลการทำงานแบบเอเจนต์อัจฉริยะ ประสิทธิภาพเหนือกว่าคู่แข่ง

值得注意的是 Altman ก็รีทวีตข้อความนี้เช่นกัน

ผู้ใช้ Chetaslua ได้ทำการเปรียบเทียบระหว่าง GPT-5.5 และ Mythos และกล่าวว่า “นี่คือการเปรียบเทียบเกณฑ์มาตรฐานของทั้งสอง ดูเล่นๆ เผื่อมีประโยชน์ 顺便一提 Mythos อาจเรียกได้ว่าเป็น ‘ราชาแห่งภาพหลอน’ ในขณะที่ 5.5 มีประสิทธิภาพดีมาก และเปิดให้ใช้งานสาธารณะแล้ว”

Artificial Analysis กล่าวตรงไปตรงมาว่า “GPT-5.5 ทำให้ OpenAI กลับมาเป็นอันดับหนึ่งอย่างไม่มีข้อกังขาในวงการ AI อีกครั้ง โมเดลใหม่ของ OpenAI นำอยู่ 3 คะแนนในดัชนีความฉลาดของ Artificial Analysis ทำลายสถานการณ์ที่เคยเสมอกันเป็นสามเส้าระหว่าง OpenAI, Anthropic และ Google”

Matthew Berman ทดสอบ GPT-5.5 ในช่วงสองสัปดาห์ที่ผ่านมา ความรู้สึกของเขาคือ: ครั้งนี้ OpenAI ไม่ได้แสวงหาเพียงแค่ความฉลาดล้วนๆ พวกเขายังปรับปรุง “ความรู้สึกเหมือนมีชีวิต” ของโมเดลด้วย “เกือบจะแน่นอนว่านี่是为了抢占更多个人 Agent ตลาดอย่าง OpenClaw คำตอบของมันสั้นกว่า เหมือนมนุษย์มากกว่า และไม่เป็นทางการเท่า มันเริ่มมี ‘บุคลิก’ จริงๆ แล้ว” เขาวิเคราะห์

Berman กล่าวว่า ตอนนี้ Anthropic ยังคงป้องกันไม่ให้คุณใช้ Opus token นอก harness ของพวกเขาเอง ในขณะที่ OpenAI กำลังปรับโมเดลให้เหมาะสมกับสถานการณ์การใช้งานนี้มากขึ้น หากคุณเคยใช้ OpenClaw และรู้สึกว่า Agent ของคุณ ‘สูญเสียจิตวิญญาณ’ หลังจากเปลี่ยนเป็น GPT ตอนนี้คุณสามารถลองอีกครั้งกับ 5.5

GPT-5.5 เป็นโมเดลที่มีราคาแพง แพงกว่า GPT-5.4 แต่ประสิทธิภาพของ token สูงกว่าอย่างเห็นได้ชัด เพื่อให้ได้ประสิทธิภาพความฉลาดระดับ GPT-5.4 GPT-5.5 ต้องการ token น้อยกว่ามาก ดังนั้นโดยรวมแล้ว ต้นทุนการทำงานของ 5.5 น่าจะต่ำกว่า เรื่องนี้อาจสำคัญกว่าที่คนส่วนใหญ่ตระหนัก

แต่มันดีจริงหรือไม่? Berman ให้คำตอบที่แน่นอนว่า “ดี และแข็งแกร่งมาก”

GPT-5.5 มีรูปแบบการใช้งานสองแบบ: Codex และ Pro Berman กล่าวว่า ใน Codex มันเป็นตัวแทนของขอบเขตสูงสุดของความสามารถในการเขียนโค้ดแบบ Agentic ในปัจจุบัน มันสามารถค้นหาและแก้ไขบั๊กที่ซับซ้อน สร้างแอปพลิเคชันที่สมบูรณ์ และเข้าใจโค้ดเบสขนาดใหญ่ได้อย่างง่ายดาย มันแข็งแกร่งกว่า Opus ในความสามารถด้าน backend แต่ยังคงด้อยกว่า Opus ในด้านการออกแบบ frontend

Berman เองส่วนใหญ่ใช้การตั้งค่า medium และ high thinking “extra high ช้าเกินไป และฉันไม่คิดว่า ‘ปริมาณการคิด’ ที่เพิ่มขึ้นนั้นคุ้มค่ากับราคาที่ต้องจ่าย Opus โดยเฉพาะ 4.6 fast ยังคงเร็วกว่าโมเดล GPT ใดๆ มาก ฉันเป็นคนที่ให้ความสำคัญกับความเร็วอย่างมาก ดังนั้นเรื่องนี้จึงสำคัญสำหรับฉัน”

“และใน Codex มันจะเดินหน้าไปเรื่อยๆ ฉันให้ PRD โปรเจกต์ใหม่ที่กำลังทำอยู่กับมัน แค่พูดว่า ‘เริ่มทำเลย’ ฉันเชื่อมั่นอย่างเต็มที่ว่ามันจะสร้างโปรเจกต์ทั้งหมดขึ้นมาได้ และผลลัพธ์ก็คือมันทำได้จริง การปล่อยให้ GPT-5.5 Codex ทำงานต่อเนื่องเป็นเวลาหลายชั่วโมงเพื่อสร้างบางสิ่ง ไม่ใช่ปัญหา มันยังอยู่ในระดับที่แตกต่างในด้านการตรวจสอบด้วยสายตา ซึ่งเป็นระดับที่ฉันไม่เคยเห็นในโมเดลอื่น มันสามารถทำซ้ำได้โดยการ ‘สร้าง → ตรวจสอบด้วยสายตา → สร้างต่อ’ ความรู้สึกนี้เป็นอิสระกว่าโมเดลอื่นใด”

Berman กล่าวต่อ “ความรู้สึกในการใช้ 5.5 Pro ใน ChatGPT นั้นเกินจริงไปอีก มันทำให้รู้สึกว่าสามารถแก้ปัญหาอะไรก็ได้ พูดตามตรง ฉันนึกไม่ออกด้วยซ้ำว่ามีปัญหาที่ยากพอจะทดสอบมัน และมันสามารถทำงานต่อเนื่องได้ 30 นาที 60 นาที 90 นาที หรือนานกว่านั้น ดูเหมือนว่ามันยังได้รับการปรับให้เหมาะสมสำหรับปลั๊กอินของ OpenAI โดยเฉพาะ เช่น Google Docs, Microsoft Word เป็นต้น สามารถสร้างเอกสารยาว 60 หน้าที่มีตรรกะต่อเนื่องและออกแบบอย่างดีได้อย่างง่ายดาย”

“GPT-5.5 ตอนนี้คือมาตรฐานใหม่ มันคือขอบเขตใหม่ ยกเว้นเรื่องความเร็วแล้ว มันแข็งแกร่งพอๆ กับโมเดล Opus ใดๆ และแข็งแกร่งกว่าในหลายๆ งาน” Berman สรุปในที่สุด

อย่างไรก็ตาม ก่อนหน้านี้ OpenAI เน้นย้ำว่า GPT-5.5 ไม่ได้เสียสละความเร็วในขณะที่เพิ่มความสามารถ บริษัทกล่าวว่า ในสถานการณ์บริการจริง ความหน่วงของ token เดียวของ GPT-5.5 เท่ากับ GPT-5.4 แต่ระดับความฉลาดเพิ่มขึ้นอย่างมีนัยสำคัญ เมื่อทำงาน Codex เดียวกัน GPT-5.5 ใช้ token น้อยกว่าอย่างเห็นได้ชัด

据悉 GPT-5.5 ได้รับการออกแบบ ฝึกฝน และปรับใช้ร่วมกับ NVIDIA GB200 และ GB300 NVL72 systems

OpenAI กล่าวว่า โมเดลช่วยปรับปรุงโครงสร้างพื้นฐานของโมเดลบริการเอง ตัวอย่างทั่วไปคืออัลกอริธึมฮิวริสติกสำหรับการโหลดบาลานซ์และการแบ่งพาร์ติชัน ก่อนหน้านี้ OpenAI จะแบ่งคำขอบน accelerator ออกเป็นบล็อกจำนวนคงที่เพื่อปรับสมดุลภาระงานระหว่างคอร์ประมวลผล แต่การแบ่งบล็อกแบบคงที่ไม่เหมาะกับรูปแบบการรับส่งข้อมูลทั้งหมด OpenAI กล่าวว่า Codex วิเคราะห์รูปแบบการรับส่งข้อมูลการผลิตเป็นเวลาหลายสัปดาห์ และเขียนฮิวริสติกแบบกำหนดเองเพื่อเพิ่มประสิทธิภาพการแบ่งพาร์ติชันและการโหลดบาลานซ์ ส่งผลให้ความเร็วในการสร้าง token เพิ่มขึ้นมากกว่า 20%

“บังเอิญ” Sam Altman แชร์การแลกเปลี่ยนอีเมลระหว่างเขากับ Jensen Huang บน Twitter ในอีเมลที่ Huang ส่งถึง Altman (ก่อนหน้านี้ Altman ส่งอีเมลว่า “OpenAI Codex ที่ขับเคลื่อนโดย GPT-5.5 ได้เปิดตัวแล้ว และตอนนี้พนักงาน NVIDIA ทุกคนสามารถใช้งานได้!”):

ฉันเพิ่งส่งอีเมลนี้ถึงพนักงาน NVIDIA

ตื่นเต้นมากที่เราทุกคนจะได้ใช้ Codex เพื่อเร่งงานและทำสิ่งที่เคยเป็นไปไม่ได้สำเร็จ โปรดแสดงความยินดีกับทีมของคุณในนามของฉัน พวกเขาได้แสดงให้โลกเห็นอีกครั้งว่าขอบเขตอยู่ที่ไหน

และโปรดขอบคุณพวกเขาอีกครั้งที่คิดค้น GPT ซึ่งให้กระดานกระโดดน้ำแก่เราในการใช้เหตุผล วางแผน ใช้เครื่องมือ และก้าวไปไกลยิ่งขึ้น

เปิดเครื่อง Blackwell เหล่านั้นกันเถอะ เราต้องการ token มากขึ้น!

แต่ไม่ว่าจะอย่างไร จากความคิดเห็นของชุมชน GPT-5.5 ได้รับการยอมรับในระดับสูงมาก

รูปแบบธุรกิจคล้าย Microsoft?

ปัจจุบัน GPT-5.5, GPT-5.5 Pro, GPT-5.5 Thinking เปิดให้ผู้ใช้ที่ชำระเงิน:

GPT-5.5 เปิดตัวสำหรับผู้ใช้ Plus, Pro, Business, Enterprise ใน ChatGPT และ Codex; GPT-5.5 Pro เปิดให้ผู้ใช้ Pro, Business, Enterprise ใน ChatGPT; GPT-5.5 Thinking เปิดให้ผู้ใช้ Plus, Pro, Business และ Enterprise

ใน Codex GPT-5.5 เปิดให้แผน Plus, Pro, Business, Enterprise, Edu และ Go โดยมีหน้าต่างบริบท 400K GPT-5.5 ยังมีโหมด Fast ซึ่งเพิ่มความเร็วในการสร้าง token 1.5 เท่า แต่มีต้นทุน 2.5 เท่า

เวอร์ชัน API ยังไม่เปิดตัวพร้อมกัน แต่ควรจะเร็วๆ นี้ OpenAI กล่าวว่า GPT-5.5 จะเปิดให้บริการใน Responses API และ Chat Completions API ในเร็วๆ นี้ โดยกำหนดราคาที่ 5 ดอลลาร์สหรัฐฯ / token อินพุต 1 ล้าน, 30 ดอลลาร์สหรัฐฯ / token เอาต์พุต 1 ล้าน หน้าต่างบริบท 1 ล้าน ราคา Batch และ Flex เป็นครึ่งหนึ่งของราคา API มาตรฐาน การประมวลผล Priority เป็น 2.5 เท่าของราคามาตรฐาน ราคาเวอร์ชัน Pro อยู่ที่ 30 ดอลลาร์สหรัฐฯ / token อินพุต 1 ล้าน; 180 ดอลลาร์สหรัฐฯ / token เอาต์พุต 1 ล้าน

OpenAI ยอมรับว่าราคาของ GPT-5.5 สูงกว่า GPT-5.4 แต่เน้นย้ำว่าฉลาดกว่าและประหยัด token มากกว่า ในสถานการณ์ Codex บริษัทกล่าวว่า GPT-5.5 สามารถส่งมอบผลลัพธ์ที่ดีกว่าโดยใช้ token น้อยกว่าสำหรับผู้ใช้ส่วนใหญ่

Aakash Gupta วิเคราะห์ว่า OpenAI ค้นพบรูปแบบธุรกิจของตัวเองแล้ว และดูเหมือนจะคล้ายกับรูปแบบที่ทำให้ Microsoft กลายเป็นบริษัทมูลค่า 3 ล้านล้านดอลลาร์สหรัฐฯ เขาอธิบายว่า:

หากคุณคำนวณอย่างจริงจัง การกำหนดราคาของ GPT-5.5 บอกทุกอย่างแล้ว

เมื่อ GPT-5 เปิดตัวในเดือนสิงหาคม ราคาอยู่ที่ 0.63 ดอลลาร์สหรัฐฯ / token อินพุต 1 ล้าน GPT-5.4 เปิดตัวในเดือนมีนาคม ราคาเพิ่มขึ้นเป็น 2.50 ดอลลาร์สหรัฐฯ / token อินพุต 1 ล้าน เพียงเจ็ดสัปดาห์ต่อมา ราคาของ GPT-5.5 มาอยู่ที่ 5.00 ดอลลาร์สหรัฐฯ / token อินพุต 1 ล้าน กล่าวคือ ใน 8 เดือน ราคาอินพุตเพิ่มขึ้น 8 เท่า ในขณะที่การปรับปรุงในแต่ละรุ่นนั้นค่อยเป็นค่อยไป

Nvidia ระบุว่าชิปล่าสุดสามารถลดต้นทุนการอนุมานต่อ token ได้สูงสุดประมาณ 97% ฐานต้นทุนของ OpenAI กำลังลดลงอย่างรวดเร็ว แต่ราคากลับสูงขึ้น การขยายตัวของอัตรากำไรที่เกิดขึ้นที่นี่แทบไม่เคยปรากฏมาก่อนในประวัติศาสตร์ซอฟต์แวร์องค์กร

ผู้ใช้รายสัปดาห์ 900 ล้านคน สมาชิก 50 ล้านคน ลูกค้าองค์กรที่ชำระเงิน 9 ล้านราย คิดเพียง 20 ดอลลาร์สหรัฐฯ ต่อเดือน สมาชิกเพียงอย่างเดียวสามารถสร้างรายได้ต่อปีประมาณ 12,000 ล้านดอลลาร์สหรัฐฯ ในขณะที่การขึ้นราคา API มุ่งเป้าไปที่นักพัฒนาที่สร้าง Agent บนโครงสร้างพื้นฐานของ OpenAI ทุกสตาร์ทอัพ AI ที่จ่ายต้นทุน 2 เท่าสำหรับการอนุมาน GPT-5.5 กำลังให้ทุนสนับสนุนผลิตภัณฑ์คู่แข่งของ OpenAI เอง

Brockman พูดในสิ่งที่พูดไม่ได้: พวกเขากำลังสร้าง “Super App” ที่รวม ChatGPT, Codex และเบราว์เซอร์เข้าไว้ในแพลตฟอร์มเดียวกัน นักพัฒนาทุกคนที่สร้าง Agent บน GPT-5.5 กำลังจ่ายเงินให้ OpenAI เพื่อสร้างสิ่งที่อาจมาแทนที่พวกเขาในที่สุด

จังหวะการเปิดตัวทุก 7 สัปดาห์จะเพิ่มต้นทุนการสลับในอัตราที่คู่แข่ง追赶ไม่ทัน ตราบใดที่เปิดตัวเร็วพอ ให้ลูกค้าสร้าง prompt และไปป์ไลน์ workflow ใหม่รอบรูปแบบของคุณซ้ำแล้วซ้ำเล่า จากนั้นขึ้นราคาในแต่ละรอบ เพราะพวกเขาออกจากระบบได้ยากแล้ว

ด้านล่างนี้ เรามาดูผลการประเมินโมเดลอย่างเป็นทางการที่ให้มา

การปรับปรุงสี่ด้านหลัก

ความสามารถในการเขียนโปรแกรมยังคงแข็งแกร่งขึ้น

ในการประเมินที่ OpenAI เปิดเผย GPT-5.5 มีการปรับปรุงที่ชัดเจนในด้านการเขียนโค้ดแบบ Agentic

ใน Terminal-Bench 2.0 GPT-5.5 ได้คะแนน 82.7% สูงกว่า GPT-5.4 ที่ 75.1% และสูงกว่า Claude Opus 4.7 ที่ 69.4% และ Gemini 3.1 Pro ที่ 68.5% การประเมินนี้เน้นตรวจสอบความสามารถในการวางแผน การทำซ้ำ และการทำงานร่วมกับเครื่องมือในเวิร์กโฟลว์บรรทัดคำสั่งที่ซับซ้อน

ใน SWE-Bench Pro GPT-5.5 ได้คะแนน 58.6% สูงกว่า GPT-5.4 เล็กน้อยที่ 57.7% แต่ต่ำกว่า Claude Opus 4.7 ที่ 64.3% OpenAI ยังชี้ให้เห็นว่าห้องปฏิบัติการบางแห่งเชื่อว่าการประเมินนี้มีความเสี่ยงต่อการท่องจำ

ในการประเมิน Expert-SWE ภายในของ OpenAI GPT-5.5 ได้คะแนน 73.1% สูงกว่า GPT-5.4 ที่ 68.5% การประเมินนี้มุ่งเป้าไปที่งานเขียนโค้ด前沿ที่มีรอบระยะเวลานาน โดยเวลาเฉลี่ยที่มนุษย์คาดว่าจะใช้ในการทำงานให้เสร็จคือ 20 ชั่วโมง

OpenAI กล่าวว่า GPT-5.5 ใน Codex เหมาะสมเป็นพิเศษสำหรับงานวิศวกรรมจริง เช่น การนำไปใช้ การปรับโครงสร้าง การดีบัก การทดสอบ และการตรวจสอบความถูกต้อง การทดสอบเบื้องต้นแสดงให้เห็นว่ามันเชี่ยวชาญในการรักษาบริบทในระบบขนาดใหญ่ การให้เหตุผลเกี่ยวกับข้อบกพร่องที่ไม่ชัดเจน การใช้เครื่องมือเพื่อตรวจสอบสมมติฐาน และการขยายการเปลี่ยนแปลงไปยังโค้ดเบสรอบข้าง

ผู้ทดสอบ早期หลายคนยังรับรองความสามารถในการเขียนโค้ดของ GPT-5.5 Dan Shipper ผู้ก่อตั้งและ CEO ของ Every เรียกมันว่า “โมเดลการเขียนโค้ดตัวแรกที่มีความชัดเจนทางแนวคิดอย่างจริงจัง” Michael Truell ผู้ร่วมก่อตั้งและ CEO ของ Cursor กล่าวว่า GPT-5.5 “ฉลาดกว่าและคงทนกว่าอย่างเห็นได้ชัด” กว่า GPT-5.4 การใช้เครื่องมือเชื่อถือได้มากขึ้น และสามารถรักษาความคืบหน้าในงานยาวที่ซับซ้อนได้นานขึ้น

งานด้านความรู้

นอกจากการเขียนโค้ด OpenAI ยังให้ความสำคัญอีกประการหนึ่งของ GPT-5.5 กับงานด้านความรู้ บริษัทกล่าวว่า GPT-5.5 สามารถดำเนินวงจรการทำงานที่สมบูรณ์ได้อย่างเป็นธรรมชาติมากขึ้น ตั้งแต่การค้นหาข้อมูล การทำความเข้าใจประเด็นสำคัญ การใช้เครื่องมือ การตรวจสอบผลลัพธ์ ไปจนถึงการสร้างผลลัพธ์

ใน Codex GPT-5.5 เชี่ยวชาญในการสร้างเอกสาร สเปรดชีต และสไลด์มากกว่า GPT-5.4 OpenAI กล่าวว่าผู้ใช้ Alpha test เชื่อว่ามันเหนือกว่าโมเดลก่อนหน้าในงานต่างๆ เช่น การวิจัยการดำเนินงาน การสร้างแบบจำลองตาราง และการแปลงอินพุตทางธุรกิจที่ยุ่งเหยิงเป็นแผน เมื่อรวมกับความสามารถในการใช้คอมพิวเตอร์ของ Codex แล้ว GPT-5.5 สามารถเห็นเนื้อหาบนหน้าจอ คลิก พิมพ์ นำทางอินเทอร์เฟซ และสลับไปมาระหว่างเครื่องมือต่างๆ

OpenAI ยังเปิดเผยการใช้งานภายใน: ปัจจุบันพนักงานมากกว่า 85% ของบริษัทใช้ Codex ทุกสัปดาห์ ครอบคลุมแผนกต่างๆ เช่น วิศวกรรมซอฟต์แวร์ การเงิน การสื่อสาร การตลาด วิทยาศาสตร์ข้อมูล และการจัดการผลิตภัณฑ์

ตัวอย่างเช่น ทีมการเงินใช้ Codex ตรวจสอบแบบฟอร์มภาษี K-1 จำนวน 24,771 ฉบับ รวม 71,637 หน้า และผ่านเวิร์กโฟลว์ที่ไม่รวมข้อมูลส่วนบุคคล ทำให้ทำงานเสร็จเร็วกว่าปีก่อนหน้าสองสัปดาห์ ในทีม Go-to-Market พนักงานใช้มันสร้างรายงานธุรกิจประจำสัปดาห์โดยอัตโนมัติ ประหยัดเวลา 5 ถึง 10 ชั่วโมงต่อสัปดาห์

ในการประเมินงานมืออาชีพ GPT-5.5 ได้คะแนน 84.9% ใน GDPval สูงกว่า GPT-5.4 ที่ 83.0%, Claude Opus 4.7 ที่ 80.3% และ Gemini 3.1 Pro ที่ 67.3% ใน OSWorld-Verified GPT-5.5 ได้คะแนน 78.7% สูงกว่า GPT-5.4 เล็กน้อยที่ 75.0% และสูงกว่า Claude Opus 4.7 เล็กน้อยที่ 78.0% ใน Tau2-bench Telecom GPT-5.5 ทำได้ 98.0% โดยไม่ต้องปรับแต่ง prompt

การวิจัยทางวิทยาศาสตร์

OpenAI ยังอธิบายว่า GPT-5.5 เป็นความก้าวหน้าที่สำคัญในเวิร์กโฟลว์การวิจัยทางวิทยาศาสตร์ บริษัทเชื่อว่าการวิจัยทางวิทยาศาสตร์ไม่ใช่แค่การตอบคำถามยากๆ เท่านั้น แต่ยังรวมถึงการสำรวจแนวคิด การรวบรวมหลักฐาน การทดสอบสมมติฐาน การตีความผลลัพธ์ และการตัดสินใจทิศทางการทดลองขั้นต่อไป และ GPT-5.5 มีความสามารถในการดำเนินการต่อในวงจรนี้ได้แข็งแกร่งขึ้น

ใน GeneBench GPT-5.5 ได้คะแนน 25.0% สูงกว่า GPT-5.4 ที่ 19.0%; GPT-5.5 Pro ได้คะแนน 33.2% สูงกว่า GPT-5.4 Pro ที่ 25.6% GeneBench มุ่งเน้นการวิเคราะห์ข้อมูลทางวิทยาศาสตร์แบบหลายขั้นตอนในพันธุศาสตร์และชีววิทยาเชิงปริมาณ โดยกำหนดให้โมเดลจัดการกับข้อมูลที่ไม่สมบูรณ์ มีสัญญาณรบกวน หรือแม้แต่มีปัจจัยรบกวนที่ซ่อนอยู่

ใน BixBench GPT-5.5 ได้คะแนน 80.5% สูงกว่า GPT-5.4 ที่ 74.0% OpenAI กล่าวว่าสิ่งนี้แสดงให้เห็นว่า GPT-5.5 สามารถให้ความช่วยเหลือที่มีความหมายในงานชีวสารสนเทศศาสตร์และการวิเคราะห์ข้อมูล กลายเป็น “นักวิทยาศาสตร์ร่วม” สำหรับนักวิจัย

OpenAI ยังกล่าวถึงว่า GPT-5.5 เวอร์ชันภายในที่จับคู่กับ custom harness ช่วยค้นพบข้อพิสูจน์ใหม่เกี่ยวกับตัวเลข Ramsey และได้รับการตรวจสอบใน Lean ในที่สุด OpenAI มองว่านี่เป็นกรณีที่ GPT-5.5 ไม่เพียงสร้างโค้ดหรือคำอธิบาย แต่สามารถมีส่วนร่วมในการโต้แย้งทางคณิตศาสตร์

ในกลุ่มผู้ทดสอบ早期 Derya Unutmaz ศาสตราจารย์ด้านภูมิคุ้มกันวิทยาจาก Jackson Laboratory for Genomic Medicine ใช้ GPT-5.5 Pro วิเคราะห์ชุดข้อมูลการแสดงออกของยีนที่มี 62 ตัวอย่างและยีนเกือบ 28,000 ยีน และสร้างรายงานการวิจัยโดยละเอียด เขากล่าวว่างานนี้ปกติอาจต้องใช้ทีมงานหลายเดือน

การทดสอบทางพันธุกรรม

ความสามารถด้านความปลอดภัยทางไซเบอร์เพิ่มขึ้น ระดับความปลอดภัยถูกจัดเป็น High

ในด้านความปลอดภัย OpenAI กล่าวว่า GPT-5.5 มาพร้อมกับชุดมาตรการป้องกันความปลอดภัยที่แข็งแกร่งที่สุดของบริษัท ก่อนเปิดตัว โมเดลผ่านกระบวนการด้านความปลอดภัยและการกำกับดูแลอย่างสมบูรณ์ รวมถึงการประเมินความพร้อม การทดสอบเฉพาะด้าน การประเมินใหม่สำหรับความสามารถทางชีวภาพและความปลอดภัยทางไซเบอร์ขั้นสูง และการทดสอบโดยผู้เชี่ยวชาญภายนอก

OpenAI จัดอันดับความสามารถทางชีวภาพ/เคมี และความสามารถด้านความปลอดภัยทางไซเบอร์ของ GPT-5.5 ว่า High ภายใต้ Preparedness Framework บริษัทเน้นย้ำว่า GPT-5.5 ยังไม่ถึงระดับความสามารถด้านความปลอดภัยทางไซเบอร์ Critical แต่การประเมินแสดงให้เห็นว่าความสามารถด้านความปลอดภัยทางไซเบอร์เพิ่มขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับ GPT-5.4

ใน CyberGym GPT-5.5 ได้คะแนน 81.8% สูงกว่า GPT-5.4 ที่ 79.0% และ Claude Opus 4.7 ที่ 73.1% ในภารกิจ CTF ภายใน GPT-5.5 ได้คะแนน 88.1% สูงกว่า GPT-5.4 ที่ 83.7%

OpenAI กล่าวว่าจะปรับใช้ตัวจำแนกความเสี่ยงทางไซเบอร์ที่เข้มงวดยิ่งขึ้นสำหรับ GPT-5.5 ผู้ใช้บางรายอาจรู้สึกว่าถูกปฏิเสธมากขึ้นหรือ “น่ารำคาญ” มากขึ้นในช่วงแรก แต่บริษัทจะปรับแต่งอย่างต่อเนื่อง ในขณะเดียวกัน OpenAI จะให้สิทธิ์การเข้าถึงที่จำกัดน้อยกว่าสำหรับผู้ป้องกันที่ผ่านการตรวจสอบผ่าน Trusted Access for Cyber โดยเริ่มจาก Codex ก่อน เพื่อสนับสนุนงานป้องกันทางไซเบอร์ที่ถูกกฎหมาย

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง