Google I/O 2024: Gemini Omni เปิดตัวโมเดลโลก, ความเร็วการเขียนโปรแกรมของ 3.5 Flash เพิ่มขึ้น 12 เท่า

1 hour ago • ข่าวสารอุตสาหกรรม AI • 7 views

ยอดผู้ใช้แอป Gemini ต่อเดือนทะลุ 900 ล้านราย ปริมาณ Token ที่ประมวลผลต่อเดือนสูงถึง 3200 ล้านล้าน ขณะที่จำนวนรูปภาพทั้งหมดที่สร้างโดยโมเดล Nano Banana ทะลุ 50,000 ล้านภาพ ในการประชุม Google I/O ที่ปิดฉากลงในช่วงเช้าวันนี้ CEO Sundar Pichai เปิดงานด้วยการแสดงข้อมูลเหล่านี้ ในปีที่ผ่านมา ปัญญาประดิษฐ์กลายเป็นธีมหลักของทุกอุตสาหกรรม และบทบาทของ Gemini ภายใน Google ก็ได้พัฒนา จากแอปพลิเคชันอิสระ กลายเป็นความสามารถพื้นฐานด้าน AI ที่เชื่อมโยงทุกสายผลิตภัณฑ์

การแถลงข่าวครั้งนี้ยังเริ่มต้นจากระดับโมเดล ก่อนขยายไปถึงการเขียนโค้ดและผลิตภัณฑ์ Agent Gemini Omni ผลักดันเทคโนโลยีการสร้างวิดีโอของ Google ไปสู่ขอบเขตของ “World Model” ในขณะที่ Gemini 3.5 Flash ผสานรวมกับเครื่องมือเขียนโปรแกรม AI เพื่อร่วมกันขับเคลื่อนการพัฒนาแพลตฟอร์ม Agent หลังจากนั้น ความสามารถทั้งสองนี้ถูกรวมเข้าสู่ระบบนิเวศที่สมบูรณ์ของ Google อย่างครอบคลุม ครอบคลุมสถานการณ์ต่างๆ เช่น การค้นหา แอป Gemini Flow Spark Chrome แว่นตา XR และอีคอมเมิร์ซ

Gemini Omni เปิดตัว ช่วงเวลา “Nano Banana” ของวงการวิดีโอมาถึงแล้ว

สิ่งแรกที่เน้นในการแถลงข่าวคือ Gemini Omni เราได้จัดทำวิดีโอเปรียบเทียบชุดหนึ่งกับ Seedance 2.0 เพื่อแสดงให้เห็นความแตกต่างอย่างชัดเจน Google อธิบายว่า Gemini Omni เป็นโมเดลใหม่ที่สามารถ “สร้างอะไรก็ได้จากอินพุตใดๆ” มันผสานความสามารถในการให้เหตุผลของ Gemini เข้ากับโมเดลสื่อเชิงสร้างสรรค์ที่มีอยู่ของ Google เพื่อยกระดับความเข้าใจโลก การสร้างหลายรูปแบบ และความสามารถในการแก้ไข

Google เน้นย้ำว่า แม้ว่าโมเดลอย่าง Veo, Nano Banana, Genie จะสามารถสร้างวิดีโอ รูปภาพ และการจำลองเชิงโต้ตอบได้แล้ว แต่ Gemini Omni ก้าวไปอีกขั้น โดยเริ่มจัดการกับปัญหาที่ใกล้เคียงกับโลกทางกายภาพจริงมากขึ้น เช่น พลังงานจลน์ แรงโน้มถ่วง ตัวอย่างที่สาธิตในงาน ได้แก่ วิดีโอที่อธิบายกระบวนการพับโปรตีน ผู้ใช้เพียงป้อนคำแนะนำเช่น “สร้างคำอธิบายแอนิเมชันดินน้ำมันเกี่ยวกับการพับโปรตีน” Omni ก็สามารถเปลี่ยนแนวคิดทางวิทยาศาสตร์เชิงนามธรรมให้เป็นเนื้อหาวิดีโอที่มีชีวิตชีวา

นอกจากนี้ยังรองรับวิธีการตัดต่อวิดีโอที่เป็นธรรมชาติมากขึ้น ผู้ใช้สามารถอัปโหลดวิดีโอของตนเอง จากนั้นแก้ไขสไตล์ เพิ่มองค์ประกอบ ปรับรายละเอียดผ่านการสนทนา หรือแม้แต่เปลี่ยนวงกลมธรรมดาให้เป็นหลุมดำ หรือทำให้ฉากเดินเล่นยามค่ำคืนดูน่าตื่นเต้นยิ่งขึ้น

Google กล่าวว่า Gemini Omni จะเริ่มต้นจากโดเมนวิดีโอ และค่อยๆ ก้าวไปสู่เป้าหมาย “จากอินพุตใดๆ สู่เอาต์พุตใดๆ” นี่คือเหตุผลที่ Google ออกแบบ Gemini ให้เป็นโมเดลหลายรูปแบบตั้งแต่แรก โมเดลแรกในซีรีส์ Omni คือ Gemini Omni Flash ได้เปิดตัวในผลิตภัณฑ์ของ Google แล้ว และข้อมูลเพิ่มเติมเกี่ยวกับ Omni Pro จะประกาศในภายหลัง ฟังก์ชัน Omni ในแอป Gemini ก็เปิดให้ผู้ใช้ที่สมัครสมาชิก Google AI Plus, Pro และ Ultra ใช้งานแล้ว

ซึ่งหมายความว่า Gemini Omni ไม่ใช่แค่โมเดลสร้างวิดีโอเท่านั้น Google พยายามรวมมันเข้าในกรอบการเล่าเรื่องของ “World Model”: โมเดลไม่เพียงแต่ต้องสร้างภาพ แต่ต้องเข้าใจความสัมพันธ์ทางกายภาพ ตรรกะการเคลื่อนไหว และตรรกะของฉากในภาพนั้นๆ ด้วย หลังจากเข้าสู่แอปพลิเคชันต่างๆ เช่น แอป Gemini, Google Flow และ YouTube Shorts แล้ว Omni จะทำให้เครื่องมือสร้างสรรค์เชิงสร้างสรรค์ของ Google ขยายจากการแก้ไขรูปภาพไปสู่การแก้ไขวิดีโอ

Gemini 3.5 Flash เปิดตัว การเขียนโค้ดด้วย AI เข้าสู่โหมดความเร็วสูง

หาก Gemini Omni สอดคล้องกับการสร้างและการแก้ไข Gemini 3.5 Flash ก็สอดคล้องกับความเร็ว ต้นทุน และความสามารถในการดำเนินการ

Google เปิดตัว Gemini 3.5 Flash ในงานแถลงข่าว โดยเรียกว่าเป็นหนึ่งในโมเดลแรกๆ ของซีรีส์ Gemini 3.5 ซึ่งมุ่งเน้นไปที่ agentic coding งานระยะยาว และเวิร์กโฟลว์จริง เมื่อเทียบกับ 3.1 Pro แล้ว 3.5 Flash มีการปรับปรุงที่สำคัญในการทดสอบเกือบทั้งหมด โดยเฉพาะอย่างยิ่งในด้านความสามารถในการเขียนโค้ดและการประเมินผลที่ใกล้เคียงกับงานทางเศรษฐกิจจริง เช่น GDPVal

นอกเหนือจากประสิทธิภาพการทดสอบที่ยอดเยี่ยมแล้ว 3.5 Flash ยังเร็วกว่าโมเดลชั้นนำอื่นๆ ถึง 4 เท่าในการส่งออก tokens และหลังจากได้รับการปรับแต่งเฉพาะสำหรับ Antigravity แล้ว ความเร็วก็สามารถสูงถึง 12 เท่า ที่น่าสนใจคือ ในเดือนมีนาคมปีนี้ งานพัฒนาภายในของ Google ประมวลผลประมาณ 500 พันล้าน tokens ต่อวัน และเพิ่มขึ้นเป็นสองเท่าทุกๆ สองสามสัปดาห์ ปัจจุบันเกิน 3 ล้านล้าน tokens ต่อวัน Google เรียกสิ่งนี้ว่าวงจรป้อนกลับ โดยใช้การใช้งานจริงขนาดใหญ่เพื่อปรับปรุง 3.5 Flash อย่างต่อเนื่อง

พร้อมกับการเปิดตัวโมเดลคือ Antigravity 2.0 มันได้รับการอัปเกรดจาก IDE ที่ขับเคลื่อนด้วย Agent ดั้งเดิม เป็นแอปพลิเคชันเดสก์ท็อปอิสระ โดยเปลี่ยนโฟกัสไปที่ Agent First ผู้ใช้ไม่เพียงแค่ให้ AI ช่วยเขียนโค้ดในตัวแก้ไขอีกต่อไป แต่ดำเนินงานพัฒนาผ่านการสนทนากับ Agent ผลลัพธ์ของ Agent และการทำงานร่วมกันของหลาย Agent

Antigravity 2.0 เพิ่ม CLI ที่สมบูรณ์, Antigravity SDK, การรองรับเสียงพื้นเมืองของโมเดลเสียง Gemini และรวมบริการต่างๆ เช่น Android, Firebase, Google AI Studio ในฐานะแอปพลิเคชันเดสก์ท็อปอิสระ Antigravity 2.0 ได้เปิดให้ผู้ใช้ทั่วโลกใช้งานแล้ว Google อธิบายทิศทางของ Antigravity 2.0 ผ่านการสาธิตที่เข้มข้นในงาน: ให้ Agent สร้างระบบปฏิบัติการที่ทำงานได้ตั้งแต่เริ่มต้น งานนี้ดำเนินการแบบขนานโดย Agent ย่อย 93 ตัว ใช้เวลา 12 ชั่วโมง ส่งคำขอโมเดลมากกว่า 15,000 ครั้ง ประมวลผล 2.6 พันล้าน tokens และสร้างโมดูลหลัก เช่น ตัวกำหนดเวลา การจัดการหน่วยความจำ ระบบไฟล์ จากโปรเจ็กต์ว่างเปล่า

Google กล่าวว่าสิ่งนี้ไม่สามารถทำได้บน Gemini 3.1 Pro ในขณะที่การใช้ Gemini 3.5 Flash ใช้ API credits น้อยกว่า 1,000 ดอลลาร์สหรัฐ งานยังสาธิตการรันโปรแกรมรถไฟขนาดเล็ก SL และ Doom บนระบบนี้ เนื่องจากระบบเริ่มต้นไม่มีไดรเวอร์วิดีโอและคีย์บอร์ด Antigravity จึงสร้างโค้ดที่เกี่ยวข้องและแก้ไขปัญหา ทำให้ Doom ทำงานได้ในที่สุด Google ยังกล่าวอีกว่า วิธีการที่คล้ายกันนี้ได้ทดสอบกับโปรเจ็กต์ต่างๆ เช่น ชุดแก้ไขรูปภาพ แอปส่งข้อความสด แพลตฟอร์มการทำงานร่วมกันของผู้ใช้หลายคน ซึ่งงานวิศวกรรมที่ต้องใช้เวลาหลายวันถูกบีบอัดเหลือเพียงไม่กี่ชั่วโมงหรือน้อยกว่านั้น Gemini 3.5 Flash เปิดให้ผู้ใช้ทุกคนใช้งานแล้ว ครอบคลุมผลิตภัณฑ์และ API ของ Google Gemini 3.5 Pro ยังคงใช้และปรับปรุงภายใน คาดว่าจะเปิดให้บริการในเดือนหน้า

จากช่องค้นหาสู่ Information Agent, Google ปรับโฉม AI Search ครั้งใหญ่

หลังจากโมเดลและเครื่องมือพัฒนา Google หันมาให้ความสำคัญกับการค้นหา Google Search คือ AI Search

Google กล่าวว่าผู้ใช้ AI Mode รายเดือนเกิน 1 พันล้านราย ปริมาณการค้นหาเพิ่มขึ้นเป็นสองเท่าทุกไตรมาสนับตั้งแต่เปิดตัว ตั้งแต่วันนี้ AI Mode ได้รับการอัปเกรดเป็น Gemini 3.5 ช่องค้นหาอัจฉริยะใหม่ก็เริ่มพุชตั้งแต่วันเดียวกัน รองรับอินพุตข้อความ รูปภาพ ไฟล์ และวิดีโอ และให้คำแนะนำ AI เมื่อผู้ใช้พิมพ์คำถาม

AI Overviews และ AI Mode ถูกรวมเป็นประสบการณ์การค้นหา AI ที่ต่อเนื่องมากขึ้น ผู้ใช้สามารถดูคำตอบ AI ในหน้าผลการค้นหาหลักก่อน จากนั้นเข้าสู่ AI Mode เพื่อถามต่อ โดยบริบทจะถูกเก็บไว้ ประสบการณ์การค้นหาใหม่นี้เปิดตัวบนเดสก์ท็อปและมือถือทั่วโลกในวันแถลงข่าว

การเปลี่ยนแปลงที่ใหญ่กว่าคือ Search Agent ในฤดูร้อนนี้ ผู้ใช้จะสามารถสร้าง Information Agent ใน Search เพื่อให้มันติดตามข้อมูลบางประเภทอย่างต่อเนื่อง ตัวอย่างเช่น ผู้ใช้สามารถให้มันติดตามหุ้นเทคโนโลยีชีวภาพขนาดใหญ่ที่มีอัตราส่วนราคาต่อกำไรต่ำกว่า 15 กระแสเงินสดเป็นบวก และหนี้สินต่ำ หรือให้มันติดตามข้อมูลการเช่าบ้าน รองเท้าผ้าใบรุ่นพิเศษ และสินค้าใหม่ในระยะยาว เมื่อเงื่อนไขเปลี่ยนแปลง Agent จะส่งการอัปเดตแบบรวมให้ผู้ใช้

Google ยังนำความสามารถ agentic coding ของ Antigravity เข้าสู่การค้นหา หลังจากนี้ การค้นหาไม่เพียงแต่จะส่งคืนหน้าเว็บ บทสรุป หรือการ์ด แต่ยังสามารถสร้างอินเทอร์เฟซแบบโต้ตอบสำหรับคำถามเฉพาะได้อีกด้วย ตัวอย่างเช่น หากผู้ใช้ถามว่า “หลุมดำส่งผลต่อกาลอวกาศอย่างไร” Search สามารถสร้างส่วนประกอบภาพแบบโต้ตอบได้ หากถามต่อว่า “หลุมดำคู่สร้างคลื่นความโน้มถ่วงได้อย่างไร” Search จะสร้างอินเทอร์เฟซแบบไดนามิกที่ปรับพารามิเตอร์ได้ Generative UI with Antigravity จะเปิดให้ผู้ใช้ทุกคนใช้งานฟรีในฤดูร้อนนี้

ประสบการณ์ที่กำหนดเองที่ซับซ้อนมากขึ้นกำลังจะมาถึง Google สาธิตตัววางแผนวันหยุดสุดสัปดาห์ในงาน Search จะรวมข้อมูลต่างๆ เช่น สภาพอากาศ แผนที่ ความชอบของผู้ใช้ Gmail ปฏิทิน เพื่อสร้างเครื่องมือขนาดเล็กที่สามารถแก้ไข แชร์ และซิงค์ปฏิทินต่อไปได้ ประสบการณ์ที่กำหนดเองนี้จะเปิดให้ผู้ใช้ที่สมัครสมาชิกก่อนในอีกไม่กี่เดือนข้างหน้า

ทำงานได้แม้ปิดเครื่อง, Gemini Spark นำความสามารถ Agent สู่ชีวิตส่วนตัว

ผลิตภัณฑ์ใหม่ที่สำคัญที่สุดสำหรับผู้บริโภคคือ Gemini Spark

Gemini Spark คือ Personal AI Agent ที่ทำงานบนเครื่องเสมือนเฉพาะของ Google Cloud สามารถทำงานได้ตลอด 24 ชั่วโมง ขับเคลื่อนโดย Gemini 3.5 และ Antigravity harness รองรับงานพื้นหลังระยะยาว แม้ว่าผู้ใช้จะปิดคอมพิวเตอร์ Spark ก็ยังคงทำงานได้ มันเชื่อมต่อกับเครื่องมือของ Google ก่อน และในอีกไม่กี่สัปดาห์ข้างหน้าจะเชื่อมต่อกับเครื่องมือของบุคคลที่สามผ่าน MCP

การแถลงข่าวสาธิตสถานการณ์ทั่วไปหลายอย่างของ Spark ผู้ใช้สามารถให้มันสรุปการเปิดตัวและความคืบหน้าของ Gemini Live ในสัปดาห์ที่ผ่านมา ดึงข้อมูลจาก Docs, Gmail และบันทึกการสนทนา จากนั้นสร้างอีเมลทีมโดยใช้สไตล์การเขียนส่วนตัว หรือให้มันจัดการปาร์ตี้ในละแวกบ้าน ดูแลตาราง RSVP ของ Google Sheets ติดตามว่าใครเอาอะไรมา สร้างร่างอีเมลเตือนเพื่อนบ้านที่ยังไม่ได้ลงทะเบียน และสร้างหน้าโปรโมท Google Slides โดยอัตโนมัติ

Spark ยังรองรับการป้อนข้อมูลด้วยเสียงบนมือถือ ผู้ใช้สามารถพูดงานหลายอย่างพร้อมกันได้ เช่น ทำเครื่องหมายการประชุมทั้งหมดกับ Sundar เป็นสีชมพูสด เขียนจดหมายเชิญเพื่อนบ้านใหม่ สร้างเอกสารสิ่งที่ต้องทำก่อนสิ้นปีการศึกษาของเด็ก Spark จะแยกย่อยเนื้อหาเหล่านี้เป็นงานอิสระหลายงาน และดำเนินการในพื้นหลัง ผลลัพธ์สามารถซิงค์ระหว่างโทรศัพท์และคอมพิวเตอร์ได้ Gemini Spark เปิดให้ผู้ทดสอบบางส่วนในสัปดาห์นี้ และจะเปิดตัวในรูปแบบเบต้าสำหรับผู้ใช้ Google AI Ultra ในสหรัฐอเมริกาในสัปดาห์หน้า

Google ยังเปิดตัวแผน Ultra ใหม่ราคา 100 ดอลลาร์สหรัฐต่อเดือน และลดราคาแผน Ultra ระดับสูงสุดจาก 250 ดอลลาร์สหรัฐต่อเดือนเหลือ 200 ดอลลาร์สหรัฐต่อเดือน ในช่วงปลายฤดูร้อนนี้ Spark จะเข้าสู่ Chrome กลายเป็นเบราว์เซอร์ Agent ที่สามารถทำงานในหน้าเว็บได้

แอป Gemini ปรับโฉมครั้งใหญ่ พร้อม “AI Morning Brief” สไตล์ Google

แอป Gemini เองก็ได้รับการปรับโฉมครั้งใหญ่ Google นำเสนอภาษา Design ใหม่ Neural Expressive พร้อมเพิ่มแอนิเมชันแบบลื่นไหล สีสันสดใส ฟอนต์ใหม่ และการตอบสนองแบบสัมผัส แอป Gemini เวอร์ชันใหม่จะไม่แสดงคำตอบเป็นข้อความยาวๆ อีกต่อไป แต่จะสร้างเลย์เอาต์ที่เหมาะสมกับการอ่านและการใช้งานมากขึ้นตามเนื้อหาแบบเรียลไทม์ รวมถึงรูปภาพแบบโต้ตอบ ไทม์ไลน์ วิดีโอแบบฝัง ฯลฯ Neural Expressive กำลังพุชทั่วโลกบน Android, iOS และเว็บ

Gemini Live ก็ถูกปรับโฉมใหม่ เมื่อเปิดสามารถเข้าสู่การสนทนาแบบเรียลไทม์ได้ทันที การเลือกสำเนียงภูมิภาคจะเปิดตัวในอีกไม่กี่สัปดาห์ข้างหน้า แอป Gemini ยังเพิ่ม Daily Brief ซึ่งเป็น Agent สรุปข้อมูลส่วนตัวที่เน้นการใช้งานในตอนเช้า จะรวบรวมข้อมูลจาก Gmail, ปฏิทิน, งาน ฯลฯ จัดระเบียบสิ่งที่ผู้ใช้ต้องให้ความสนใจในวันนั้น และให้ทางเข้าในการดำเนินการขั้นต่อไป Daily Brief เปิดให้ผู้ใช้ที่สมัครสมาชิก Google AI Plus, Pro และ Ultra ในสหรัฐอเมริกาตั้งแต่วันนี้

นอกเหนือจากการเล่าเรื่อง Gemini ที่ใหญ่ขึ้น Google ยังอัปเดตผลิตภัณฑ์ในชีวิตประจำวันหลายรายการ Google Maps เพิ่งเสร็จสิ้นการอัปเกรดครั้งใหญ่ที่สุดในรอบสิบปี และเพิ่ม Ask Maps ซึ่งอนุญาตให้ผู้ใช้ถามคำถามที่ยาวและซับซ้อนมากขึ้น ตัวอย่างเช่น งานแถลงข่าวยกสถานการณ์: เด็กตกบ่อเป็ด งานแต่งงานจะเริ่มในอีก 30 นาที ผู้ใช้ต้องการทราบว่าสามารถเดินไปซื้อชุดใหม่ได้ที่ไหน

Docs ยังได้รับความสามารถในการสร้างด้วยเสียงใหม่ ผู้ใช้ไม่จำเป็นต้องป้อนคำแนะนำที่แม่นยำ สามารถพูดความคิดออกมาด้วยเสียงโดยตรง ให้ Gemini ดึงเรซูเม่จาก Drive ค้นหาข้อมูลกิจกรรมจาก Gmail จากนั้นสร้างร่าง Google Docs ความสามารถนี้จะเปิดให้ผู้ใช้ที่สมัครสมาชิก Pro และ Ultra ในฤดูร้อนนี้ และความสามารถด้านเสียงที่คล้ายกันจะเข้าสู่ Gmail

หลังจากความสามารถในการสร้างได้รับการอัปเกรด การระบุแหล่งที่มาของเนื้อหาก็มีความสำคัญมากขึ้น Google กล่าวว่านับตั้งแต่เปิดตัว SynthID มาเป็นเวลาสามปี ได้เพิ่มลายน้ำที่มองไม่เห็นให้กับรูปภาพและวิดีโอมากกว่า 100,000 ล้านภาพ และเสียงที่มีความยาวเทียบเท่า 60,000 ปี ต่อไป SynthID และการตรวจสอบข้อมูลประจำตัวของเนื้อหาจะขยายไปยัง Search และ Chrome ผู้ใช้สามารถค้นหาโดยการวงกลม หรือคลิกขวาใน Chrome เพื่อสอบถามว่าเนื้อหาถูกสร้างโดย AI หรือไม่ ระบบจะแสดงว่าเนื้อหามาจาก AI กล้อง หรือเคยถูกแก้ไขโดยเครื่องมือ AI เชิงสร้างสรรค์ Google ยังประกาศว่า OpenAI, Kakao และ ElevenLabs จะใช้ SynthID 2 ก่อนหน้านี้ NVIDIA ได้เข้าร่วมระบบ SynthID แล้ว สำหรับ Google SynthID ไม่ใช่แค่ฟังก์ชันความปลอดภัย แต่ยังเป็นส่วนหนึ่งของการผลักดันมาตรฐานความโปร่งใสของเนื้อหา AI

Google Creative Suite เริ่มโจมตีรูปภาพ การออกแบบ และวิดีโอ

ในด้านเครื่องมือสร้างสรรค์ Google เปิดตัวผลิตภัณฑ์重磅หลายรายการอย่าง密集 Google Pics เป็นผลิตภัณฑ์สร้างและแก้ไขรูปภาพใหม่ใน Google Workspace สำหรับสถานการณ์ต่างๆ เช่น โปสเตอร์ปาร์ตี้ อินโฟกราฟิก ภาพโปรโมท ผู้ใช้สามารถเริ่มต้นจากรูปภาพพื้นฐาน ลบองค์ประกอบ ปรับขนาดวัตถุ แก้ไขข้อความ และแปลข้อความ เนื้อหาที่สร้างโดย Pics จะมีลายน้ำ SynthID Google Pics จะเปิดตัวในฤดูร้อนนี้

ผลิตภัณฑ์ออกแบบ Stitch ก็ได้รับการอัปเดตเช่นกัน ผู้ใช้สามารถสร้างอินเทอร์เฟซเว็บไซต์หรือแอปพลิเคชันด้วย prompt เดียว จากนั้นแก้ไขต่อด้วยข้อความหรือเสียง เช่น ขยายหัวข้อ ปรับเมนู เน้นตัวเลือกพิซซ่าเพิ่มเติม Stitch รองรับการส่งออกการออกแบบเป็นโค้ด หรือเผยแพร่เว็บไซต์โดยตรง การอัปเดตที่เกี่ยวข้องได้เปิดตัวแล้ว

การอัปเดตของ Google Flow น่าสนใจเป็นพิเศษ หลังจาก Gemini Omni เข้าสู่ Flow ผู้ใช้สามารถเปลี่ยนสภาพแวดล้อม เพิ่มเอฟเฟกต์ภาพ เพิ่มตัวละครใหม่ตามวิดีโอต้นฉบับ ในขณะที่พยายามรักษาการแสดงดั้งเดิมไว้ให้มากที่สุด Flow ยังเพิ่ม Agent ใหม่ รองรับการดำเนินการหลายอย่างพร้อมกัน เช่น สร้างวิดีโอ 16 มุมจากรูปภาพเดียว หรือเปลี่ยนชุดฉากตอนเช้าเป็นฉากดึกดื่นเป็นชุด

Flow Tools อนุญาตให้ผู้ใช้สร้างเครื่องมือสร้างสรรค์ของตนเองใน Flow เช่น เอฟเฟกต์วิดีโอ แอนิเมชันวาดมือ และเครื่องมือแบ่งชั้นข้อความ และรองรับการแชร์และ remix Google Flow Music สามารถขยาย riff เปียโนเป็น demo เพลงที่มีทิศทางสไตล์ ฟังก์ชันใหม่เหล่านี้ของ Google Flow และ Google Flow Music ได้เปิดตัวแล้ว

ทุ่มเดิมพันแว่นตาอัจฉริยะ, Google บุกทางเข้าเจเนอเรชั่นถัดไปอีกครั้ง

ในส่วนฮาร์ดแวร์ Google ยังขยายแพลตฟอร์มระดับระบบปฏิบัติการ Android XR จากอุปกรณ์สวมศีรษะ XR ไปสู่รูปแบบแว่นตาอัจฉริยะ Android XR เป็นแพลตฟอร์มที่ Google ร่วมมือกับ Samsung และปรับให้เหมาะสมสำหรับ Qualcomm Snapdragon

Google กล่าวว่าแว่นตา AI จะแบ่งออกเป็นสองประเภท: ประเภทหนึ่งคือแว่นตาที่มีจอแสดงผลขนาดเล็ก อีกประเภทคือแว่นตาเสียง แว่นตาจอแสดงผลได้แสดงใน I/O ปีที่แล้ว และปีนี้นักพัฒนากลุ่มแรกเริ่มสร้างประสบการณ์การแสดงผลแล้ว แผนการทดสอบที่เชื่อถือได้จะขยายในปลายปีนี้ แว่นตาเสียงจะวางจำหน่ายก่อน แว่นตาเสียงรุ่นแรกจะเปิดตัวในฤดูใบไม้ร่วงนี้ โดย Samsung มีส่วนร่วมในการสร้างฮาร์ดแวร์และประสบการณ์ ในขณะที่ Warby Parker และ Gentle Monster รับผิดชอบการออกแบบแว่นตา แว่นตาเหล่านี้เชื่อมต่อกับโทรศัพท์ รองรับ Android และ iOS คำตอบของ Gemini จะเล่นแบบส่วนตัวผ่านหูฟัง แทนที่จะแสดงบนเลนส์

ในงานแถลงข่าว ผู้สาธิตสามารถใช้แว่นตาให้ Gemini นำทางไปยังสถานที่ที่พบกับเพื่อนเมื่อสัปดาห์ที่แล้ว โดยแวะร้านกาแฟระหว่างทาง หรือให้ Gemini เปิด DoorDash สั่งกาแฟโดยอัตโนมัติ รอให้ผู้ใช้ยืนยัน หรือให้มันสรุปข้อความที่ปิดเสียง และเขียนอาหารเย็นครอบครัวลงในปฏิทิน แว่นตายังสามารถทำงานร่วมกับนาฬิกา ให้ผู้ใช้ถ่ายรูป現場 และใช้ Nano Banana สร้างภาพการ์ตูน จากนั้นดูตัวอย่างบนนาฬิกา

ในตอนท้ายของการแถลงข่าว กรณีการใช้งานของ Gemini ก็ขยายไปสู่ด้านความปลอดภัยทางไซเบอร์ Google แนะนำ CodeMender ซึ่งเป็น Agent ความปลอดภัยของโค้ดที่สามารถค้นหาและแก้ไขช่องโหว่ของซอฟต์แวร์ที่สำคัญได้โดยอัตโนมัติ Google จะเชิญผู้เชี่ยวชาญกลุ่มหนึ่งมาทดสอบ API ของ CodeMender ก่อนที่จะเปิดตัวในวงกว้างมากขึ้น

เมื่อดูการแถลงข่าวทั้งหมดแล้ว ข้อมูลมีมากมายจนล้นหลาม เพียงแต่ เมื่อฟังก์ชัน AI เหล่านี้เปิดให้ผู้ใช้หลายสิบหรือหลายร้อยล้านคนใช้งานจริง ปัญหาทางบัญชีที่สมจริงที่สุดก็ปรากฏขึ้นตรงหน้า: Google จะหาเงินคืนค่าใช้จ่ายในการคำนวณมหาศาลนี้ได้อย่างไร?

ในช่วงกว่ายี่สิบปีที่ผ่านมา Google เป็นตัวแทนของรูปแบบอินเทอร์เน็ตฟรีทั่วไป ผู้ใช้แลกเปลี่ยนความสนใจและข้อมูลกับบริการ ในขณะที่ Google สร้างรายได้ผ่านโฆษณาและการเผยแพร่ รูปแบบนี้ทำให้ Google กลายเป็นบริษัทโครงสร้างพื้นฐานที่แข็งแกร่งที่สุดในยุคอินเทอร์เน็ต แต่ต้นทุนการอนุมานของโมเดลขนาดใหญ่นั้น แตกต่างอย่างสิ้นเชิงจากการค้นหาผลการค้นหาหนึ่งครั้ง หน่วยความจำบริบทยาว การสร้างหลายรูปแบบ Agent ข้ามแอปพลิเคชัน ระบบอัตโนมัติระดับองค์กร ความสามารถเหล่านี้ล้วนอยู่เบื้องหลังการใช้พลังงานในการคำนวณอย่างต่อเนื่อง ยิ่ง AI ลึกซึ้งมากเท่าไร Google ก็ยิ่งยากที่จะใช้วิธี “อัปเกรดฟังก์ชันฟรี” เพื่อดูดซับต้นทุนต่อไป นี่คือสาเหตุที่ตลอดการแถลงข่าว Google I/O ดูเหมือนจะพูดถึงการอัปเกรดประสบการณ์ แต่เบื้องหลังชี้ไปที่การสมัครสมาชิก สัญญาองค์กร ใบเรียกเก็บเงินค่าคำนวณ และค่าบริการระยะยาว

แน่นอนว่าทางเข้าฟรีจะไม่หายไป เพราะนั่นยังคงเป็นพื้นฐานที่ Google ได้รับผู้ใช้ ข้อมูล และตำแหน่งในระบบนิเวศ แต่เหนือทางเข้าเหล่านี้ Google กำลังเพิ่มชั้นบริการอัจฉริยะใหม่: โมเดลที่แข็งแกร่งขึ้น หน่วยความจำที่ยาวขึ้น สิทธิ์ระบบที่ลึกขึ้น การดำเนินงานที่ซับซ้อนขึ้น และบริการระดับองค์กรที่เสถียรขึ้น กล่าวอีกนัยหนึ่ง Google กำลังเปลี่ยนจากบริษัทบริการอินเทอร์เน็ตฟรี ไปเป็นบริษัทโครงสร้างพื้นฐานการสมัครสมาชิก AI

เพียงแต่ ปัญหาก็ตามมา: ผู้ใช้ยินดีจ่ายค่าค้นหาหรือไม่? โดยปกติแล้ว ไม่ แต่ถ้านี่คือ “ผู้ช่วยอเนกประสงค์สุดยอด” ที่สามารถจัดการอีเมล ประสานงาน วิเคราะห์รายงาน ควบคุมสมาร์ทโฮม และแม้แต่ช่วยเขียนโค้ดพัฒนาแอปให้คุณได้ตลอด 24 ชั่วโมงล่ะ? คุณยินดีจ่ายเงินหลายสิบหรือหลายร้อยดอลลาร์ต่อเดือนให้มันหรือไม่? นี่คือ命题ทางธุรกิจหลักที่ Google I/O ปีนี้急切ต้องการพิสูจน์ และเมื่อมองดูตลาดที่คลั่งไคล้ในปัจจุบัน คำตอบดูเหมือนจะชัดเจนอยู่แล้ว

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/35609

Like (0)

0 0

Karpathy ย้ายไป Anthropic: จากผู้ร่วมก่อตั้ง OpenAI สู่ลูกน้องของ Dario ทำไมเขาถึงยอมเป็น “-2”?

Previous 1 hour ago

ที

Next 2026年2月26日 pm8:28

ข่าวสารอุตสาหกรรม AI

การกำหนดค่าสาธารณูปโภคพื้นฐานทำให้คะแนนการประเมิน Agent ผันผวน 6%: Anthropic เผยตัวแปรแฝงในการทดสอบมาตรฐาน

บทคัดย่อ : Anthropic พบว่าความแตกต่างในการกำหนดค่าสาธารณูปโภคพื้นฐานในการประเมิน Agent Programming สามารถทำให้คะแนนเปลี่ยนแปลงได้หลายเปอร์เซ็นต์ — บางครั้งมากกว่าช่องว่างระหว่างโมเ…

2026年2月7日
288000
ข่าวสารอุตสาหกรรม AI

DeepMind เปิดตัวความก้าวหน้าทางนวัตกรรม: ใช้ AlphaEvolve ค้นพบฟังก์ชันกระตุ้นรุ่นใหม่ในพื้นที่ฟังก์ชันไม่จำกัด แซงหน้า ReLU และ GELU

一直以来，神经网络的激活函数如同AI引擎中的火花塞。从早期的Sigmoid、Tanh，到后来占据主导地位的ReLU，再到近年来的GELU与Swish，每一次激活函数的演进都推动了模型性能的进步。然而，寻找最优激活函数的过程，长期依赖于人类直觉或有限的搜索空间。如今，谷歌DeepMind正在改写这一规则。在一篇题为《Finding Generalizabl…

2026年2月7日
267000
ข่าวสารอุตสาหกรรม AI

ตำนานสร้างเศรษฐีของ OpenAI ถูกเปิดเผย: พนักงานเฉลี่ยคนละ 33 ล้านดอลลาร์ Ilya ถือหุ้นมูลค่า 7 พันล้าน Brockman 30 พันล้าน

การพิจารณาคดีแห่งศตวรรษที่ทุกคนจับตามองระหว่าง马斯克กับ奥特曼 มีข้อมูลมากมายมหาศาลจนแทบจะตามไม่ทัน ข่าวเด็ดๆ ออกมาไม่หยุดหย่อน เมื่อสักครู่ ตำนานความร่ำรวยของ OpenAI ถูกเปิดเผยออกมาโดยไม…

2026年5月12日
59000
ข่าวสารอุตสาหกรรม AI

AI ผู้ใช้เกิน 100 ล้าน: Alipay ใช้การชำระเงินแบบสนทนาสร้างวงจรธุรกิจยุค AI ขึ้นใหม่

หลังจาก Mobile Payment, Alipay ก้าวอีกขั้นในยุค AI รายงานจาก Zhidongxi วันที่ 24 ก.พ. เมื่อวาน Alipay เปิดเผยว่า จำนวนผู้ใช้ AI Pay ทะลุ 100 ล้านคนแล้ว ก่อนหน้านั้นในวันที่ 12 ก.พ.…

2026年2月24日
301000
ข่าวสารอุตสาหกรรม AI

สรุปโครงการโอเพนซอร์สยอดนิยมบน GitHub ประจำเดือนมกราคม 2024: ตั้งแต่การวิเคราะห์ทางการเงินด้วย AI ไปจนถึง RAG แบบไร้เวกเตอร์ เครื่องมือเหล่านี้กำลังพลิกโฉมประสิทธิภาพการพัฒนา

01 AI ตัวแทนวิเคราะห์การเงิน: Dexter Dexter เป็น AI Agent ที่มุ่งเน้นการวิจัยด้านการเงิน มันสามารถทำงานได้เหมือนนักวิเคราะห์ระดับต้น เมื่อคุณตั้งคำถามทางการเงินที่ซับซ้อน (เช่น วิเ…

2026年2月2日
383000

Google I/O 2024: Gemini Omni เปิดตัวโมเดลโลก, ความเร็วการเขียนโปรแกรมของ 3.5 Flash เพิ่มขึ้น 12 เท่า

Gemini Omni เปิดตัว ช่วงเวลา “Nano Banana” ของวงการวิดีโอมาถึงแล้ว

Gemini 3.5 Flash เปิดตัว การเขียนโค้ดด้วย AI เข้าสู่โหมดความเร็วสูง

จากช่องค้นหาสู่ Information Agent, Google ปรับโฉม AI Search ครั้งใหญ่

ทำงานได้แม้ปิดเครื่อง, Gemini Spark นำความสามารถ Agent สู่ชีวิตส่วนตัว

แอป Gemini ปรับโฉมครั้งใหญ่ พร้อม “AI Morning Brief” สไตล์ Google

Google Creative Suite เริ่มโจมตีรูปภาพ การออกแบบ และวิดีโอ

ทุ่มเดิมพันแว่นตาอัจฉริยะ, Google บุกทางเข้าเจเนอเรชั่นถัดไปอีกครั้ง

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

การกำหนดค่าสาธารณูปโภคพื้นฐานทำให้คะแนนการประเมิน Agent ผันผวน 6%: Anthropic เผยตัวแปรแฝงในการทดสอบมาตรฐาน

ตำนานสร้างเศรษฐีของ OpenAI ถูกเปิดเผย: พนักงานเฉลี่ยคนละ 33 ล้านดอลลาร์ Ilya ถือหุ้นมูลค่า 7 พันล้าน Brockman 30 พันล้าน

AI ผู้ใช้เกิน 100 ล้าน: Alipay ใช้การชำระเงินแบบสนทนาสร้างวงจรธุรกิจยุค AI ขึ้นใหม่