GPT-5.5 เปิดตัว OpenAI ตอบโต้แรงกดดันมูลค่าล้านล้านของ Anthropic

13 hours ago • คลังสินค้า AI • 16 views

ตามรายงานของ Business Insider มูลค่าของ Anthropic ในตลาดรองเอกชนทะลุ 1 ล้านล้านดอลลาร์สหรัฐฯ แล้ว เทียบกับ OpenAI ที่มูลค่าในการระดมทุนรอบล่าสุดเมื่อปลายเดือนมีนาคมปีนี้ยังคงอยู่ที่ 852 พันล้านดอลลาร์สหรัฐฯ นอกเหนือจาก “ทฤษฎีฟองสบู่ AI” ที่ถูกพูดถึงกันในวงการ ข้อมูลเปรียบเทียบนี้ยังชี้ให้เห็นว่า OpenAI ซึ่งเคยนั่งอยู่ในตำแหน่งผู้นำอย่างมั่นคง กำลังเผชิญกับแรงกดดันจากการถูกไล่ตามและแซงหน้า แต่เราไม่ต้องรอนาน การตอบโต้ของ OpenAI ก็มาถึงทันที

เมื่อสักครู่ GPT-5.5 ได้เปิดตัวอย่างเป็นทางการ พร้อมกับเวอร์ชัน GPT-5.5 Pro ที่ออกแบบมาสำหรับงานระดับสูงขึ้น หากจะสรุปแนวคิดการออกแบบหลักของ GPT-5.5 ด้วยประโยคเดียว ก็คือ ให้ผู้ใช้โยนงานที่ซับซ้อน หลายขั้นตอน และยุ่งเหยิงให้กับโมเดลโดยตรง จากนั้นโมเดลจะวางแผนเส้นทาง เรียกใช้เครื่องมือ ตรวจสอบผลลัพธ์ ขจัดความคลุมเครือ และดำเนินการต่อไปจนสำเร็จด้วยตัวเอง แม้จะดูเหมือนเป็นการอัปเดตเวอร์ชันเพียง 0.1 แต่ประสิทธิภาพในการอนุมานกลับเทียบเท่ากับการอัปเดตเวอร์ชันใหญ่ งาน Codex เดียวกัน GPT-5.5 ใช้ token น้อยกว่าอย่างเห็นได้ชัด ทั้งฉลาดขึ้นและประหยัดขึ้น

ผลงานบนกระดาษของ GPT-5.5 นั้นน่าประทับใจมาก ในอันดับดัชนีความฉลาด綜合ของ Artificial Analysis ซึ่งเป็นหน่วยงานประเมินผลบุคคลที่สามที่มีชื่อเสียง OpenAI คว้าอันดับหนึ่งและสองด้วยซีรีส์ GPT-5.5 และครองสี่ในหกอันดับแรก คู่แข่งแทบจะไม่มีทางสู้

ผลการทดสอบมาตรฐานแสดงให้เห็นว่า ใน Terminal-Bench 2.0 (ทดสอบเวิร์กโฟลว์บรรทัดคำสั่งที่ซับซ้อน) GPT-5.5 ได้ 82.7% GPT-5.4 ได้ 75.1% และ Claude Opus 4.7 ได้ 69.4% ใน SWE-Bench Pro (ประเมินความสามารถในการแก้ปัญหา GitHub จริง) GPT-5.5 ได้ 58.6% สามารถทำงานแบบ end-to-end ได้มากขึ้นในการรันครั้งเดียว เกิน GPT-5.4 ที่ 57.7%

ในการประเมิน Expert-SWE ภายในของ OpenAI เวลาที่มนุษย์คาดว่าจะใช้ทำงานโดยเฉลี่ยคือ 20 ชั่วโมง GPT-5.5 ได้ 73.1% GPT-5.4 ได้ 68.5% และในการประเมินทั้งสามรายการ GPT-5.5 ทำงานเสร็จโดยใช้ token น้อยกว่า

อย่างไรก็ตาม ครั้งนี้ OpenAI ก็เล่นเล่ห์เหลี่ยมด้วยเชิงอรรถ โดยใช้ข้อความเล็กๆ แอบตั้งคำถามถึงความน่าเชื่อถือของผลงานบางส่วนของ Claude Opus 4.7 แต่ผู้ใช้ Deedy ไม่เห็นด้วยกับเรื่องนี้ ในความเห็นของเขา หมายเหตุนี้更像是การเบี่ยงเบนความสนใจ เพราะ OpenAI เองก็ไม่ได้นำเสนอเกณฑ์มาตรฐานสาธารณะที่โปร่งใสกว่าเพื่อยืนยันความสามารถของ GPT-5.5 อย่างตรงไปตรงมา

ในด้านการเขียนโค้ดแบบ Agent, การใช้คอมพิวเตอร์, งานความรู้ และการวิจัยทางวิทยาศาสตร์早期 การปรับปรุงของ GPT-5.5 นั้นโดดเด่นเป็นพิเศษ ผู้ทดสอบ早期反馈ว่า GPT-5.5 เข้าใจโครงสร้างโดยรวมของโค้ดเบสขนาดใหญ่ได้ดีขึ้นอย่างเห็นได้ชัด สามารถคาดการณ์ปัญหาที่อาจเกิดขึ้นล่วงหน้า และพิจารณาความต้องการในการทดสอบและตรวจสอบล่วงหน้า โดยไม่ต้องมีคำแนะนำเพิ่มเติม Dan Shipper ผู้ก่อตั้ง Every และบล็อกเกอร์评测ชื่อดัง แชร์กรณีศึกษาหนึ่ง: แอปของเขามีปัญหาหลังจากเปิดตัว เขา调试หลายวันไม่สำเร็จ ในที่สุดก็ต้องจ้างวิศวกรมาเขียนระบบใหม่บางส่วน เขาใช้ GPT-5.5 สร้างสถานการณ์นี้ขึ้นมาใหม่ ผลปรากฏว่าโมเดลให้แนวทางแก้ไขเดียวกันกับวิศวกร ในขณะที่ GPT-5.4 ไม่สามารถทำได้ Michael Truell ผู้ร่วมก่อตั้ง Cursor กล่าวว่า GPT-5.5 ฉลาดกว่าและยืดหยุ่นกว่า GPT-5.4 การเรียกใช้เครื่องมือเชื่อถือได้มากกว่า และสามารถทำงานที่ซับซ้อนระยะยาวได้นานขึ้นโดยไม่หยุดกลางคัน ที่น่าทึ่งกว่านั้น วิศวกรของ NVIDIA คนหนึ่งกล่าวหลังการทดลองใช้早期ว่า “การสูญเสียสิทธิ์การเข้าถึง GPT-5.5 รู้สึกเหมือนถูกตัดแขนขา”

ในสถานการณ์งานความรู้ GPT-5.5 ก็มีผลงานที่ยอดเยี่ยมเช่นกัน ในการประเมิน GDPval ซึ่งวัดความสามารถในการทำงานความรู้ของโมเดลใน 44 อาชีพ GPT-5.5 ชนะหรือเสมอในสัดส่วน 84.9% GPT-5.4 ได้ 83.0% Claude Opus 4.7 ได้ 80.3% และ Gemini 3.1 Pro ได้เพียง 67.3% ใน OSWorld-Verified (ทดสอบว่าโมเดลสามารถใช้งานสภาพแวดล้อมคอมพิวเตอร์จริงได้ด้วยตนเองหรือไม่) GPT-5.5 ได้ 78.7% GPT-5.4 ได้ 75.0% Claude Opus 4.7 ได้ 78.0% ใน Tau2-bench Telecom (ทดสอบเวิร์กโฟลว์บริการลูกค้าที่ซับซ้อน) GPT-5.5 ได้ 98.0% โดยไม่ต้องปรับ prompt GPT-5.4 ได้ 92.8% ความแตกต่างค่อนข้างชัดเจน ในการประเมินเฉพาะทางอื่นๆ GPT-5.5 ได้ 60.0% ใน FinanceAgent v1.1 88.5% ในงานสร้างแบบจำลองการธนาคารเพื่อการลงทุนภายใน และ 54.1% ใน OfficeQA Pro (Claude Opus 4.7 ได้ 43.6% Gemini 3.1 Pro ได้เพียง 18.1%) ใน BixBench (ออกแบบรอบด้านเกี่ยวกับชีวสารสนเทศศาสตร์และการวิเคราะห์ข้อมูลจริง) GPT-5.5 ได้ 80.5% GPT-5.4 ได้ 74.0% อยู่ในอันดับหนึ่งในโมเดลที่เผยแพร่คะแนนแล้ว ใน GeneBench (ทดสอบการวิเคราะห์ข้อมูลหลายขั้นตอนทางพันธุศาสตร์และชีววิทยาเชิงปริมาณ) GPT-5.5 ได้ 25.0% GPT-5.4 ได้ 19.0% และเวอร์ชัน Pro ได้ 33.2% งานเหล่านี้通常สอดคล้องกับปริมาณงานหลายวันของผู้เชี่ยวชาญด้านวิทยาศาสตร์ พนักงาน OpenAI กว่า 85% ใช้ Codex ทุกสัปดาห์ ครอบคลุมแผนกวิศวกรรมซอฟต์แวร์ การเงิน การสื่อสาร การตลาด วิทยาศาสตร์ข้อมูล และการจัดการผลิตภัณฑ์ ทีมการเงินใช้ GPT-5.5 ตรวจสอบเอกสารภาษี K-1 จำนวน 24,771 ฉบับ รวม 71,637 หน้า และเสร็จเร็วกว่าปีก่อนถึงสองสัปดาห์ ทีมสื่อสารสร้าง Slack bot อัตโนมัติเพื่อจัดการคำขอความเสี่ยงต่ำโดยอัตโนมัติ พนักงานฝ่ายการตลาดคนหนึ่งใช้มันสร้างรายงานธุรกิจประจำสัปดาห์โดยอัตโนมัติ ประหยัดเวลา 5 ถึง 10 ชั่วโมงต่อสัปดาห์

นอกจากนี้ จุดเด่นอีกประการของ GPT-5.5 คือการอัปเกรดโครงสร้างพื้นฐานการอนุมานร่วมกัน GPT-5.5 ได้รับการออกแบบและฝึกฝนร่วมกับระบบ NVIDIA GB200 และ GB300 NVL72 การปรับปรุงที่สำคัญอย่างหนึ่งคือกลยุทธ์การปรับสมดุลโหลดและการแบ่งพาร์ติชัน Codex วิเคราะห์ข้อมูลปริมาณการผลิตเป็นเวลาหลายสัปดาห์ และเขียนฮิวริสติกแบบกำหนดเองเพื่อปรับการแบ่งพาร์ติชันและการปรับสมดุลโหลดให้เหมาะสมแบบไดนามิก ส่งผลให้ความเร็วในการสร้าง token เพิ่มขึ้นกว่า 20% OpenAI ยังชี้ให้เห็นว่า GPT-5.5 เองก็มีส่วนร่วมในการปรับปรุงโครงสร้างพื้นฐานการอนุมานของตัวเอง

GPT-5.5 เปิดให้ผู้ใช้ ChatGPT Plus, Pro, Business, Enterprise ใช้งานตั้งแต่วันนี้ Codex รองรับหน้าต่างบริบทสูงสุด 400K และมีโหมด Fast ความเร็ว 1.5 เท่า (ราคา 2.5 เท่าของราคามาตรฐาน) GPT-5.5 Pro เปิดตัวสำหรับผู้ใช้ ChatGPT Pro, Business และ Enterprise เวอร์ชัน API จะเปิดตัวเร็วๆ นี้ ราคามาตรฐานอยู่ที่ 5 ดอลลาร์สหรัฐฯ ต่อ token อินพุต 1 ล้าน และ 30 ดอลลาร์สหรัฐฯ ต่อ token เอาต์พุต 1 ล้าน หน้าต่างบริบท 1M token การประมวลผลแบบแบตช์และราคาแบบยืดหยุ่นเป็นครึ่งหนึ่งของราคามาตรฐาน โหมดประมวลผลลำดับความสำคัญเป็น 2.5 เท่าของราคามาตรฐาน ราคา API ของ GPT-5.5 Pro อยู่ที่ 30 ดอลลาร์สหรัฐฯ ต่อ token อินพุต 1 ล้าน และ 180 ดอลลาร์สหรัฐฯ ต่อ token เอาต์พุต 1 ล้าน OpenAI กล่าวว่า เนื่องจากประสิทธิภาพของ token ที่ดีขึ้น ต้นทุนการใช้งานจริงของผู้ใช้ส่วนใหญ่จะไม่เพิ่มขึ้นอย่างมีนัยสำคัญ

ไม่มีโมเดลใดที่จะได้รับคำชมเป็นเอกฉันท์ GPT-5.5 ก็เช่นกัน ผู้ใช้ @chetaslua ใช้ prompt หนึ่งใน Codex สร้างเว็บไซต์完整ที่มีฟิสิกส์เอ็นจิ้นผลกระทบจากลม ปฏิสัมพันธ์ทางกายภาพและการออกแบบอินเทอร์เฟซเสร็จสมบูรณ์ เขาอุทานว่า “นี่เป็นครั้งแรกที่ฉันรู้สึกว่า ChatGPT สามารถเป็นเครื่องมือ AI อันดับแรกสำหรับแก้ปัญหาทุกอย่าง” ผู้ใช้ @petergostev ให้โมเดลสร้างฉากรถไฟของเล่นที่มีสถานที่สำคัญในลอนดอนและการเปลี่ยนแปลงตามฤดูกาล เมื่อเปรียบเทียบกับผลลัพธ์ของ GPT-5.4 เขาสรุปว่า “GPT-5.5 มีความทะเยอทะยานมากกว่า สอดคล้องกันมากกว่า และมีข้อผิดพลาดน้อยกว่า” และในงาน迁移แอปพลิเคชันที่ซับซ้อนยิ่งขึ้น เขาให้โมเดลทำงานต่อเนื่องเป็นเวลาหลายชั่วโมงโดยไม่ติดขัด แน่นอนว่าเสียงวิจารณ์ก็มีเช่นกัน ผู้ใช้ @arrakis_ai พบว่า GPT-5.5 เมื่อเจอเลย์เอาต์ที่ซับซ้อน บางครั้งก็สร้างภาพขึ้นมาแทน และเมื่อจัดการกับความต้องการไอคอน ก็เขียน SVG ตั้งแต่ต้นโดยไม่เรียกใช้ไลบรารีที่มีอยู่ พร้อมกับหยุดถามผู้ใช้บ่อยครั้ง ทำให้ประสิทธิภาพการทำงานไม่เด็ดขาดเหมือนเดิม ในด้านการใช้ภาษา ประสบการณ์ส่วนตัวของฉันก็คล้ายกัน GPT-5.5 จัดระเบียบภาษาได้ดีกว่ารุ่นก่อนจริงๆ อย่างน้อยก็พูดภาษา people ได้ แต่ก็ยังมีกลิ่นแปลกๆ: “ฉันอยู่ตรงนี้ ไม่หลบ ไม่ซ่อน ไม่อ้อม ไม่หนี รับเธอไว้อย่างมั่นคง” และผู้ใช้หลายคนสังเกตว่า OpenAI ก็เล่นกลการตลาดในอันดับเกณฑ์มาตรฐานด้วย ผู้ใช้ Haider คิดว่าช่องว่างระหว่าง GPT-5.5 และ Mythos ไม่ได้มากเท่าที่คาดไว้ ในขณะที่ราคา Mythos เป็นสองเท่าของ GPT-5.5 และไม่ได้ขายต่อสาธารณะ เขาประเมินว่า GPT รุ่นต่อไปน่าจะตามทัน Mythos ได้ไม่ยาก

ตามรายงานของ Techcrunch เมื่อถูกนักข่าวถามถึง “GPT-5.5 มีความสามารถคล้าย Mythos หรือไม่” Mia Glaese วิศวกรของ OpenAI ให้คำตอบที่ไร้ที่ติแต่แฝงคม: “เรามีกลยุทธ์ระยะยาวและแข็งแกร่งในด้านความปลอดภัยทางไซเบอร์ และได้完善วิธีการ推出โมเดลที่ยั่งยืนและปลอดภัย” นัยชัดเจน: โมเดลที่ทรงพลังเพียงตัวเดียว终究เป็นเพียงผู้ผ่านทาง เมื่อถึงจุดที่ต้อง比拼การป้องกันดิจิทัลและการใช้งานระดับองค์กร กำแพงระบบนิเวศของ OpenAI ต่างหากที่เป็นการ์ดความปลอดภัย唯一ที่ลูกค้าองค์กรจะวางใจได้

และการมาถึงของ GPT-5.5 ทำให้ความทะเยอทะยานของ OpenAI ชัดเจนพอ: พวกเขาไม่พอใจกับการเป็นแค่แชทบอทอัจฉริยะอีกต่อไป แต่ต้องการสร้าง “Super app AI” ที่กลืนกินทุกเวิร์กโฟลว์ด้วยตัวเอง ในการให้สัมภาษณ์กับสื่อต่างประเทศ Greg Brockman ประธาน OpenAI ใช้คำว่า “Agentic” เพื่ออธิบายความก้าวหน้าของโมเดลครั้งนี้ เมื่อเทียบกับรุ่นก่อน GPT-5.4 GPT-5.5 ใช้ Token น้อยกว่า แต่คิดเร็วขึ้น มีตรรกะชัดเจนขึ้น และเริ่มแสดงความสามารถในการแก้ปัญหาที่ซับซ้อนอย่าง主动 นี่คือรากฐานที่มั่นคงสู่ Super app Super app ที่ว่านี้คือการผสาน ChatGPT, Codex และ AI เบราว์เซอร์เข้าด้วยกันเป็นบริการเดียว ลองนึกภาพเวิร์กโฟลว์ในอนาคต: ผู้คนไม่ต้องสลับไปมาระหว่างเบราว์เซอร์, โปรแกรมแก้ไขโค้ด และเครื่องมือวิเคราะห์ข้อมูลอีกต่อไป เพียงแค่สั่งการ宏观ไปยัง Super app นี้ GPT-5.5 ก็จะเปิดหน้าเว็บรวบรวมข้อมูล เขียนโค้ด爬虫 ทำความสะอาดข้อมูล และส่งมอบรายงานวิเคราะห์ที่สมบูรณ์โดยตรง

แน่นอน เช่นเดียวกับการผูกมัดที่แข็งแกร่งระหว่าง Claude และ Claude Code OpenAI ก็ตั้งใจจะเติมเชื้อไฟให้กับการเติบโตของ Codex เช่นกัน เมื่อเร็วๆ นี้ Altman กล่าวว่าผู้ใช้ที่ใช้งาน Codex ต่อเดือนทะลุ 3 ล้านคน และในเวลาไม่ถึงสองสัปดาห์ก็ใกล้ถึง 4 ล้านคน OpenAI จึงรีเซ็ตขีดจำกัดอัตรา เพื่อเก็บเกี่ยวระบบนิเวศนักพัฒนาด้วยท่าที “ปริมาณมากพอ” ในด้านหนึ่ง ด้วยผลงานที่แข็งแกร่งของ GPT-5.5 และ GPT-Image-2 ตอบโต้แรงกดดันด้านการประเมินมูลค่าจาก Anthropic ได้อย่างตรงไปตรงมา อีกด้านหนึ่ง ใช้ความ粘性ของระบบนิเวศ Codex ล็อกพื้นที่นักพัฒนา และค่อยๆ สร้างระบบบริการที่สมบูรณ์ครอบคลุมทั้งผู้บริโภค C-end และบริการระดับองค์กร B-end สถานการณ์การรุกและการป้องกันเปลี่ยนไป OpenAI ที่ถูกวิจารณ์ว่าตามหลังมาตั้งแต่ต้นปี ในที่สุดก็กลับมาพบจังหวะการรุกเมื่อสองปีก่อน และมุ่งเน้นไปที่การ打磨ผลิตภัณฑ์อย่างจริงจัง

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง