นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

OpenAI ได้เปิดตัวโมเดลเสียงแบบเรียลไทม์ใหม่สามรุ่นอย่างเป็นทางการ โมเดลเหล่านี้ไม่เพียงแต่ผสานความสามารถในการใช้เหตุผลระดับ GPT-5 เท่านั้น แต่ยังส่งผลกระทบอย่างใหญ่หลวงต่ออุตสาหกรรมการแปลแบบพร้อมกัน:

มันสามารถติดตามจังหวะของผู้พูดเพื่อทำการแปลแบบพร้อมกันได้อย่างใกล้ชิด โดยมีต้นทุนเพียงสองบาทห้าสิบสตางค์ต่อนาที

โมเดลทั้งสามรุ่นนี้คือ GPT-Realtime-2, GPT-Realtime-Translate และ GPT-Realtime-Whisper ซึ่งรวมฟังก์ชันหลักสามอย่าง ได้แก่ การใช้เหตุผลด้วยเสียงแบบครบวงจร การแปลแบบพร้อมกัน และการถอดความแบบสตรีมมิ่ง ไว้ใน API ชุดเดียวกัน

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

ผลลัพธ์ที่ได้นั้นน่าทึ่งมาก

พนักงาน OpenAI ชื่อ Jason Liu พูดภาษาอังกฤษใส่ไมโครโฟน และโมเดล GPT-Realtime-Translate ก็แปลเป็นภาษาญี่ปุ่นแบบเรียลไทม์ทันที กระบวนการแปลทั้งหมดเป็นแบบสตรีมมิ่ง โดยไม่ต้องรอให้ผู้พูดพูดจบทั้งประโยค ผลการแปลก็เริ่มออกมาทันที

ผู้ใช้เน็ตอีกคนชื่อ Claire Vo ได้รวม ChatPRD กับ GPT-Realtime-2 เธอพูดใส่ไมโครโฟนว่า “ช่วยเขียนเอกสารข้อกำหนดผลิตภัณฑ์ให้หน่อย” ในสิบนาทีต่อมา เธอไม่ได้แตะคีย์บอร์ดเลยแม้แต่ครั้งเดียว มีเพียงการสนทนาด้วยเสียงเท่านั้น AI ก็สร้าง PRD ที่สมบูรณ์ขึ้นมา หลังจากนั้น เธอใช้เสียงขอให้แก้ไขรูปแบบ AI ก็อัปเดตแบบเรียลไทม์ กระบวนการทั้งหมดขับเคลื่อนด้วยการสนทนา โดยไม่ต้องใช้คีย์บอร์ด

ผู้ใช้เน็ต Ben Badejo ได้รวม GPT-Realtime-2 เข้ากับ OpenClaw และใช้เสียงสั่ง AI ให้ควบคุมเบราว์เซอร์: “เปิด Google แล้วไปที่ Wall Street Journal” AI ดำเนินการตามคำสั่งพร้อมรายงานความคืบหน้าอย่างกระตือรือร้น: “กำลังเปิดเบราว์เซอร์… กำลังเปลี่ยนเส้นทาง”

เขาบอกว่าตั้งแต่เดือนมีนาคม เขาก็เริ่มคิดหาวิธีสร้างระบบสื่อสารด้วยเสียงสำหรับกุ้งมังกรของเขา และตอนนี้เพียงแค่เชื่อมต่อ OpenClaw กับโมเดล OpenAI ใหม่ ก็เสร็จสิ้นการอัปเกรดครั้งใหญ่ภายในไม่กี่นาที

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

โมเดลทั้งสามรุ่นที่ OpenAI เปิดตัวในครั้งนี้มีตำแหน่งที่ชัดเจน:

  • GPT-Realtime-2: มีความสามารถในการใช้เหตุผลระดับ GPT-5 สามารถสื่อสารและจัดการธุรกิจได้เหมือนมนุษย์
  • GPT-Realtime-Translate: สามารถแปลภาษาได้มากกว่า 70 ภาษาเป็น 13 ภาษาแบบเรียลไทม์ ต้นทุนประมาณ 2.50 บาทต่อนาที
  • GPT-Realtime-Whisper: มุ่งเน้นการถอดเสียงแบบเรียลไทม์ที่มีความหน่วงต่ำ สามารถแสดงข้อความได้ทันทีที่พูด

OpenAI กล่าวว่าเสียงกำลังกลายเป็นหนึ่งในวิธีที่เป็นธรรมชาติที่สุดในการใช้ซอฟต์แวร์ โมเดลทั้งสามรุ่นนี้ร่วมกันผลักดันการโต้ตอบด้วยเสียงจากแค่ “ฟังแล้วตอบ” ไปสู่อินเทอร์เฟซที่ “ทำงานได้จริง” — ตอนนี้โมเดลขนาดใหญ่สามารถทำงานไปพร้อมกับพูดคุยกับคุณได้เหมือนมนุษย์จริงๆ

โมเดลใหม่สามรุ่น: ฟังได้ แปลได้ คิดได้

GPT-Realtime-2 เป็นหัวใจสำคัญของการเปิดตัวครั้งนี้

นี่คือโมเดลเสียงรุ่นแรกของ OpenAI ที่มาพร้อมความสามารถในการใช้เหตุผลระดับ GPT-5 ซึ่งผสานความสามารถในการใช้เหตุผลเข้ากับการโต้ตอบด้วยเสียงแบบครบวงจรอย่างแท้จริง

การอัปเกรดที่ชัดเจนที่สุดคือหน้าต่างบริบท: เพิ่มจาก 32K เป็น 128K เพิ่มขึ้นถึง 4 เท่า ซึ่งหมายความว่าเอเจนต์เสียงสามารถรองรับการสนทนาที่ยาวขึ้น จัดการขั้นตอนงานที่ซับซ้อนขึ้น โดยไม่ลืมเนื้อหาการสนทนาก่อนหน้านี้

ระดับความเข้มข้นในการใช้เหตุผลสามารถปรับได้ 5 ระดับ: minimal, low, medium, high, xhigh โดยค่าเริ่มต้นคือ low เมื่อถามสภาพอากาศ ใช้ระดับ low เพื่อตอบสนองอย่างรวดเร็ว แต่ถ้าให้วิเคราะห์ปัญหาทางธุรกิจที่ซับซ้อน ก็สามารถใช้ระดับ xhigh เพื่อให้มันค่อยๆ คิด

แต่สิ่งที่แสดงให้เห็นถึงความสามารถในการใช้เหตุผลระดับ GPT-5 ได้ดีที่สุดคือมันเรียนรู้ที่จะทำงานไปพร้อมกับพูด

ผู้ช่วยเสียงในอดีต คุณพูด一句 มันตอบ一句 สมองสามารถจัดการได้ครั้งละหนึ่งอย่างเท่านั้น แต่ตอนนี้ GPT-Realtime-2 รองรับการเรียกใช้เครื่องมือแบบขนาน สามารถพูดว่า “กำลังตรวจสอบตารางงานของคุณ” ไปพร้อมกับเรียกใช้แผนที่ ปฏิทิน และแอปพลิเคชันเช่าที่อยู่อาศัยในเบื้องหลัง

ในการสาธิตอย่างเป็นทางการ หัวหน้า Romain Huet พูดกับผู้ช่วยส่วนตัวบนโทรศัพท์ว่า “ฉันมีประชุมลูกค้าเร็วๆ นี้ ช่วยดูตารางงานให้หน่อยได้ไหม” โมเดลจะตรวจสอบปฏิทินทันทีและตอบว่าอีก 12 นาทีจะมีการประชุมกับ CTO ของ Sablecrest Robotics ชื่อ Alex Kim จากนั้นมันจะอัปเดต CRM บันทึกสรุปการประชุมวันนี้และขั้นตอนต่อไปลงในระบบ

มันยังเรียนรู้ “Preambles” หรือคำนำหน้า เมื่อกำลังดึงข้อมูลในเบื้องหลัง มันจะพูดกับคุณก่อนว่า “ให้ฉันตรวจสอบก่อน” หรือ “รอสักครู่” การออกแบบที่ดูเหมือนไร้สาระนี้ช่วยลดความวิตกกังวลของผู้ใช้ในระหว่างรอได้อย่างมาก เมื่อคนเราคิดก็มักจะพูดว่า “เอ่อ ให้ฉันคิดก่อน” ตอนนี้ AI ก็เรียนรู้เช่นกัน

น้ำเสียงก็สามารถควบคุมได้ สามารถสลับเป็นโหมดสงบ เห็นอกเห็นใจ หรือตื่นเต้นตามต้องการ

ประสิทธิภาพเป็นอย่างไร?

ในชาร์ต Big Bench Audio ที่ประเมินความสามารถในการใช้เหตุผลด้วยเสียง GPT-Realtime-2 (ระดับ high) ได้คะแนนสูงถึง 96.6% ในขณะที่โมเดลรุ่นก่อนหน้าได้เพียง 81.4% เพิ่มขึ้น 15.2 จุดเปอร์เซ็นต์

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

ในการทดสอบ Audio MultiChallenge ที่วัดความสามารถในการทำตามคำสั่งในการสนทนาหลายรอบ ระดับ xhigh ได้คะแนน 48.5% ในขณะที่โมเดลรุ่นก่อนหน้าได้เพียง 34.7% เพิ่มขึ้นอีก 13.8 จุดเปอร์เซ็นต์

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

ในด้านราคา GPT-Realtime-2 คิดค่าบริการตาม token: token อินพุตเสียง $32/1M, token เอาต์พุตเสียง $64/1M, อินพุตแคชเพียง $0.40 ราคาเท่ากับรุ่นก่อนหน้า GPT-Realtime-1.5 แต่ความสามารถเพิ่มขึ้นอย่างมาก

ในการทดสอบจริงขององค์กร Zillow ใช้เกณฑ์มาตรฐานที่ท้าทายที่สุดในการทดสอบ อัตราความสำเร็จในการโทรเพิ่มขึ้นจาก 69% เป็น 95% เพิ่มขึ้น 26 จุดเปอร์เซ็นต์ Josh Weisberg SVP ของ Zillow กล่าวว่า “GPT-Realtime-2 มีความโดดเด่นที่สุดในด้านความฉลาดและความน่าเชื่อถือในการเรียกใช้เครื่องมือในการโต้ตอบด้วยเสียงที่ซับซ้อน และการปฏิบัติตามข้อกำหนด Fair Housing ก็เพิ่มขึ้นอย่างมีนัยสำคัญ” ซึ่งหมายความว่าเอเจนต์เสียงไม่เพียงแต่รับสายโทรศัพท์เท่านั้น แต่ยังสามารถจัดการกับสถานการณ์ทางธุรกิจที่มีมูลค่าสูงและข้อกำหนดการปฏิบัติตามที่เข้มงวดได้อย่างแท้จริง

มาดูอีกสองโมเดลกัน

GPT-Realtime-Translate การแปลพร้อมกันแบบสตรีมมิ่ง มันลดต้นทุนการแปลพร้อมกันลงเหลือ “ราคาถูกมาก” รองรับการป้อนข้อมูลมากกว่า 70 ภาษาและเอาต์พุต 13 ภาษา มันไม่ใช่การแปลแบบทีละประโยค แต่เป็นระบบที่ผู้พูดพูดภาษาของตนไป ระบบก็แปลแบบเรียลไทม์ออกมาแทบไม่มีหยุด

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

ราคาอยู่ที่ $0.034/นาที ประมาณ 2.50 บาท ในราคานี้ การแปลต่อเนื่องหนึ่งชั่วโมงมีค่าใช้จ่ายน้อยกว่า 15 บาท ซึ่งถูกกว่าน้ำชาไข่มุกหนึ่งแก้วเสียอีก

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

มันยังมีความทนทานสูงต่อสำเนียงและภาษาถิ่น บริษัท AI ของอินเดีย BolnaAI ทดสอบด้วยภาษาที่มีสำเนียงหนัก เช่น ภาษาฮินดี ทมิฬ เตลูกู โดยมี WER (อัตราคำผิด) ต่ำกว่าโมเดลอื่น 12.5% และความหน่วงเพียงพอที่จะรักษาการสนทนาที่เป็นธรรมชาติ

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

GPT-Realtime-Whisper การถอดความแบบสตรีมมิ่งแบบเรียลไทม์ มันสามารถแปลงเสียงเป็นข้อความที่มีความหน่วงต่ำ พูดไปพร้อมกับแสดงข้อความ ราคาอยู่ที่ $0.017/นาที ประมาณ 1 บาท ต้นทุนการถอดความต่อเนื่องหนึ่งชั่วโมงน้อยกว่า 6 บาท สถานการณ์การใช้งานหลัก ได้แก่ คำบรรยายแบบเรียลไทม์ การจดบันทึกการประชุม บันทึกการโทรของฝ่ายบริการลูกค้า และบันทึกการเรียนในห้องเรียน ต่อไปนี้เวลาประชุม หัวหน้าพูดจบครึ่งประโยค ข้อความบนหน้าจอก็ตามทันแล้ว

การแปลพร้อมกันคุ้มค่ามากขึ้น

โมเดลเสียงทั้งสามรุ่นของ OpenAI ส่งผลกระทบต่ออุตสาหกรรมการแปลพร้อมกันมากที่สุดอย่างไม่ต้องสงสัย

มาคำนวณกัน:

การแปลพร้อมกันโดยมนุษย์ สำหรับภาษาอังกฤษ ค่าบริการวันละ 12,000 ถึง 21,000 บาท สำหรับภาษาที่ไม่ใช่ภาษาอังกฤษ เช่น ญี่ปุ่น เกาหลี อาหรับ เริ่มต้นที่ 18,000 บาท โดยปกติต้องใช้ล่าม 2 ถึง 3 คนสลับกัน คิดเป็นรายชั่วโมงหลายพันถึงหมื่นบาท ยังไม่รวมค่าอุปกรณ์: ห้องแปลพร้อมกัน หูฟัง เครื่องรับ ชุดอุปกรณ์มืออาชีพเช่าหนึ่งวันก็หลายพันบาท

ดังนั้น ในอดีต บริการแปลพร้อมกันมีให้ใช้เฉพาะในการประชุมสุดยอดระดับนานาชาติ คณะกรรมการบริษัทข้ามชาติ การปรึกษาทางการแพทย์ระดับสูง และการอนุญาโตตุลาการทางกฎหมายเท่านั้น นักพัฒนาทั่วไป สถาบันการศึกษาขนาดเล็ก และสตาร์ทอัพที่ขยายธุรกิจไปต่างประเทศแทบไม่มีโอกาสเข้าถึง

แต่ตอนนี้ OpenAI ลงมือทำเอง ทำให้บริการนี้เป็น API:

GPT-Realtime-Translate ราคาเพียง $0.034/นาที คิดเป็น2.50 บาท/นาที ในราคานี้ การแปลต่อเนื่อง 8 ชั่วโมง ต้นทุนรวมน้อยกว่า 120 บาท ซึ่งน้อยกว่าค่าแปลพร้อมกันโดยมนุษย์สองนาทีเสียอีก ความแตกต่างประมาณ 66 เท่า

ผลกระทบของปัญญาประดิษฐ์ต่ออุตสาหกรรมดั้งเดิม… กลับมาชัดเจนอีกครั้ง

นาทีละ 2.5 สตางค์! OpenAI เปิดตัวโมเดลเสียงเรียลไทม์สามรุ่น พร้อมการอนุมานระดับ GPT-5 และการแปลสด ปฏิวัติการโต้ตอบด้วยเสียงอย่างสิ้นเชิง

อย่างไรก็ตาม การแปลพร้อมกันของ AI และมนุษย์ยังไม่ใช่การแทนที่โดยสมบูรณ์ในตอนนี้ พูดให้ถูกต้องกว่านั้น สิ่งที่ OpenAI ทำคือ “ทำให้การแปลพร้อมกันไม่ใช่สิทธิพิเศษอีกต่อไป” ในอดีต มีเพียงบริษัทใหญ่ หน่วยงานรัฐบาล และการประชุมระดับสูงเท่านั้นที่สามารถใช้บริการนี้ได้ แต่ตอนนี้ นักพัฒนาทุกคนสามารถเชื่อมต่อเข้ากับผลิตภัณฑ์ของตนได้ ระบบบริการลูกค้าอีคอมเมิร์ซข้ามพรมแดน เครื่องมือประชุมทางวิดีโอข้ามชาติ แพลตฟอร์มการศึกษาออนไลน์ หรือแม้แต่ปลั๊กอิน Chrome ส่วนตัว ก็สามารถมีความสามารถในการแปลหลายภาษาแบบเรียลไทม์ได้

คาดการณ์ได้ว่าคุณค่าของล่ามมนุษย์จะเลื่อนขึ้นไป บริบททางวัฒนธรรม การแสดงออกอย่างสร้างสรรค์ ความแม่นยำทางกฎหมาย ความเชี่ยวชาญทางการแพทย์ สิ่งเหล่านี้เครื่องจักรยังไม่สามารถแทนที่ได้ในระยะสั้น แต่ความต้องการแปลขั้นพื้นฐาน ความถี่สูง และมาตรฐาน จะถูก API กลืนกินในวงกว้าง

One More Thing

พูดมามากแล้ว จะเชื่อมต่อโมเดลใหม่ทั้งสามรุ่นนี้ได้อย่างไร?

วิธีที่เร็วที่สุดคือเปิด OpenAI Playground (ที่อยู่ด้านล่าง) และทดสอบในเบราว์เซอร์โดยตรง ทั้งสามโมเดลพร้อมใช้งาน โดยไม่ต้องเขียนโค้ดใดๆ

สำหรับนักพัฒนาที่ต้องการรวมเข้ากับแอปพลิเคชันของตนเอง ทาง OpenAI มีเทมเพลต Codex prompt ที่สามารถคลิกเดียวเพื่อเชื่อมต่อ GPT-Realtime-2 กับแอปที่มีอยู่หรือเริ่มโปรเจกต์ใหม่

ในด้านต้นทุน Whisper ประหยัดที่สุด ถอดความต่อเนื่องหนึ่งชั่วโมงประมาณ 1 ดอลลาร์ Translate อยู่ในระดับกลาง ประมาณ 2 ดอลลาร์ต่อชั่วโมง

Realtime-2 คิดค่าบริการตาม token ค่าใช้จ่ายจริงขึ้นอยู่กับปริมาณการสนทนาและระดับความเข้มข้นในการใช้เหตุผล ราคาเท่ากับรุ่นก่อนหน้า

ผู้ที่สนใจ ไปทดลองด้วยตัวเองเลย~

ที่อยู่ Playground:
https://platform.openai.com/login?next=%2Faudio%2Frealtime

ลิงก์อ้างอิง:
[1]https://x.com/OpenAI/status/2052438194625593804
[2]https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
[3]https://x.com/jxnlco/status/2052449634266812744

จบ

20 พฤษภาคม เราจะจัดงาน China AIGC Industry Summit ประจำปีที่ โรงแรม Jinmao Renaissance ปักกิ่ง

รายชื่อผู้ร่วมงานชุดแรกได้รับการประกาศแล้ว! Fang Han จาก Kunlun Wanwei, Wu Weijie จาก Zhipu, Deng Yafeng จาก EverMind, Yi Zhengchao จาก Fengxing Online, Zhu Guangxiang จาก Baidu Miaoda, Zhang Lu จาก Fusion Fund, Huang Chao จาก University of Hong Kong, Feng Lei จาก MarsWave มาร่วมงานแล้ว 🔍ดูรายละเอียด

มาร่วมกับเรา ไม่ใช่แค่พูดถึงอนาคตของ AI แต่ใช้มันตอนนี้เลย 👉 ลงทะเบียนเข้าร่วม


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33628

Like (0)
Previous 4 days ago
Next 4 days ago

相关推荐