ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป


รายงานโดย Xin Zhi Yuan

บรรณาธิการ: หยวน อวี่

[บทนำโดย Xin Zhi Yuan] Google DeepMind เปิดตัวต้นแบบทดลอง “AI-enabled pointer” หลังจากคีย์บอร์ด เมาส์ และหน้าจอสัมผัส ปฏิสัมพันธ์รุ่นถัดไปกำลังเป็นรูปเป็นร่าง

ตัวชี้เมาส์ที่อยู่กับคุณมา 50 ปีโดยไม่เคยเปลี่ยนแปลง กำลังจะมี “สมอง”

นับตั้งแต่ถือกำเนิดในทศวรรษ 1970 ตัวชี้เมาส์แทบไม่มีการพัฒนาใดๆ มันปรากฏบนทุกเว็บไซต์ ทุกเอกสาร ทุกขั้นตอนการทำงาน แต่ไม่เคยเข้าใจจริงๆ ว่าคุณกำลังทำอะไร

เมื่อเร็วๆ นี้ Google DeepMind เผยแพร่บล็อกงานวิจัย แสดงต้นแบบทดลอง “AI-enabled pointer” ที่ขับเคลื่อนโดย Gemini และเปิดให้ทดลอง Demo สองรายการใน Google AI Studio

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

นักวิจัยที่รับผิดชอบโครงการนี้ Adrien Baranes และ Rob Marchant เขียนในบล็อกอย่างเป็นทางการว่า: “เรากำลังพัฒนาวิธีการทำงานร่วมกับ AI ที่ไร้รอยต่อและเข้าใจง่ายขึ้น”

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

Demis Hassabis ซีอีโอของ DeepMind ยังโพสต์ด้วยตัวเอง เรียกประสบการณ์นี้ว่า “ค่อนข้างมหัศจรรย์”

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

ไอคอนเมาส์ไม่เปลี่ยนแปลง แต่ตรรกะเบื้องหลังลูกศรเปลี่ยนไปอย่างสิ้นเชิง: มันไม่เพียงรู้ว่าคุณชี้ไปที่ไหน แต่เริ่มเข้าใจว่าคุณต้องการทำอะไร

ปัจจุบัน ต้นแบบนี้สามารถทดลองใช้ได้ใน Google AI Studio และเปิดให้ทดลอง Demo สองรายการ: แก้ไขรูปภาพ (AI-Pointer: Create) และค้นหาสถานที่บนแผนที่ (AI-Pointer: Find)

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

ทางเข้า “AI-Pointer: Create”: https://aistudio.google.com/apps/bundled/ai-pointer-create

วิดีโออย่างเป็นทางการของ DeepMind: ตัวชี้เมาส์ สิ่งที่ถูกลืม

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

AI ควรมาหาคุณ ไม่ใช่คุณไปหา AI

คุณเสียเวลาไปเท่าไหร่ในแต่ละวันกับการ “อธิบายบริบท”?

ลองนึกถึงสถานการณ์ที่คุณทำซ้ำทุกวัน:

เปิดหน้าต่างสนทนาของเครื่องมือ AI เช่น ChatGPT หรือ Gemini; สลับไปยังหน้าเว็บหรือเอกสารที่คุณกำลังดู เลือกเนื้อหาที่ต้องการวิเคราะห์ คัดลอก; สลับกลับไปที่หน้าต่าง AI วาง; ใช้หนึ่งหรือสองประโยคอธิบายสิ่งที่คุณต้องการ; รอ; ได้ผลลัพธ์; สลับกลับไปดำเนินการต่อ…

ทุกครั้งที่ “สลับหน้าต่าง → คัดลอก → อธิบาย → รอ → สลับกลับ” คือการขัดจังหวะการรับรู้

เวลาส่วนใหญ่ที่คุณใช้กับ AI จริงๆ แล้วไม่ได้ใช้กับปัญหาที่แท้จริง แต่ใช้กับ “การบอก AI ว่าคุณกำลังดูอะไร”

DeepMind ประเมินปัญหานี้ได้อย่างแม่นยำ:

โดยปกติ เครื่องมือ AI อาศัยอยู่ในหน้าต่างของตัวเอง ผู้ใช้ต้องลากโลกของตัวเองเข้าไป สิ่งที่เราต้องการตรงกันข้าม: AI ควรมาหาคุณ ไม่ใช่คุณไปหา AI

ประโยคนี้ชี้ให้เห็นข้อบกพร่องเชิงโครงสร้างที่สำคัญที่สุดของรูปแบบปฏิสัมพันธ์ AI ในช่วงสองปีที่ผ่านมา

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

ไม่ต้องใช้พรอมต์ ชี้แล้วพูด AI ก็เข้าใจ

AI-enabled pointer มีไว้เพื่อแก้ปัญหาความเสียดทานแบบนี้ Adrien เชื่อว่าแก่นของโครงการนี้มีเพียงหนึ่งเดียว:

จะสร้างระบบที่เข้าใจเจตนาของผู้ใช้ที่เปลี่ยนแปลงตลอดเวลาได้อย่างไร

เบื้องหลังนี้มีหลักการออกแบบสี่ข้อ ที่ประกอบเป็นโครงร่างของระบบนี้ และร่วมกันตอบคำถามเดียว: จะทำให้ AI อ่านเจตนาของคุณได้อย่างไร โดยไม่ต้องให้คุณเสียแรงอธิบาย

หลักการแรกเรียกว่า “Maintain the flow” รักษาความลื่นไหล

ตามเป้าหมายการออกแบบของ DeepMind ความสามารถของ AI ไม่ควรพาผู้ใช้ออกจากแอปพลิเคชันปัจจุบัน แต่ควรปรากฏในบริบทที่ผู้ใช้กำลังทำงานให้มากที่สุด ชี้ไปที่ PDF แล้วพูดว่า “สรุปให้หน่อย แบบที่เอาไปแปะในอีเมลได้เลย” AI ทำเสร็จ คุณทำงานต่อ

หลักการที่สองเรียกว่า “Show and tell” ชี้ให้มันดู ตอนนี้เวลาใช้ AI คุณต้องเขียนพรอมต์โดยละเอียด อธิบายว่าเนื้อหาที่คุณต้องการประมวลผลคืออะไร หน้าตาเป็นอย่างไร บริบทคืออะไร

AI-enabled pointer ข้ามขั้นตอนนี้ไป เคอร์เซอร์วางอยู่ที่ไหน Gemini ก็จับข้อมูลภาพและบริบทเชิงความหมายตรงนั้น คุณไม่ต้องอธิบายสิ่งที่คุณเห็น เพราะ AI เห็นแล้ว

หลักการที่สาม คือสิ่งที่ DeepMind ชอบเน้นที่สุด: “Embrace the power of This and That” โอบรับพลังของ “อันนี้” และ “อันนั้น”

ลองคิดถึงการทำงานร่วมกันระหว่างคน คุณจะไม่พูดกับเพื่อนร่วมงานว่า “กรุณานำค่าในแถวที่สาม คอลัมน์ที่สอง คูณด้วยสอง แล้วอัปเดตไปยังตารางสรุปที่เกี่ยวข้อง” คุณจะพูดว่า “ตัวเลขนี้ เปลี่ยนเป็นสองเท่า อัปเดตไปที่นั่น” แล้วใช้นิ้วชี้

AI-enabled pointer ต้องการทำให้การทำงานร่วมกันระหว่างมนุษย์กับเครื่องเป็นธรรมชาติเหมือนมนุษย์กับมนุษย์ ในทางเทคนิค ระบบจะไม่แยกวิเคราะห์เฉพาะข้อความจากเสียงพูดอีกต่อไป แต่จะเชื่อมโยงคำชี้เฉพาะ เช่น “this” “that” “here” “there” กับบริบทภาพและความหมายที่เคอร์เซอร์หรือท่าทางชี้ไป

ดังนั้น เมื่อผู้ใช้พูดว่า “เปลี่ยนโน้ตนี้เป็นสีส้ม” “นี้” จะไม่ใช่แค่คำสรรพนามคลุมเครืออีกต่อไป แต่ระบบจะรวมกับตำแหน่ง วัตถุ และบริบทที่กำลังชี้อยู่เพื่อทำความเข้าใจ สิ่งที่ Gemini ได้รับไม่ใช่แค่ประโยคตามตัวอักษร แต่เป็นเจตนาที่ประกอบขึ้นจากเสียงพูด การชี้ และเนื้อหาบนหน้าจอ

แก่นแท้ของพรอมต์ไม่ใช่ตัวอักษร แต่เป็นเจตนา ตอนนี้เจตนาสามารถสื่อสารด้วยวิธีที่สั้นที่สุดได้แล้ว

ที่น่าสนใจคือ “การชี้” ไม่ได้มีแค่วิธีใช้เมาส์ ในการสาธิต Adrien ใช้การติดตามศีรษะ: หันศีรษะไปทางไหน ความสนใจของ AI ก็ตามไปที่นั่น เสียงพูด ข้อความ การเข้าใจภาพ ทั้งหมดทำงานพร้อมกัน

หลักการที่สี่มีเนื้อหาทางเทคนิคมากที่สุด: “Turn pixels into actionable entities” ทำให้พิกเซลกลายเป็นเอนทิตีที่ดำเนินการได้

50 ปีที่ผ่านมา เคอร์เซอร์รู้แค่ว่าคุณชี้ไปที่ไหน แต่ไม่เข้าใจว่าคุณชี้ไปที่อะไร AI-enabled pointer จะเปลี่ยนสิ่งนี้

ในรูปภาพที่คุณวางเมาส์ค้างไว้มีอาคารหนึ่ง AI ระบุว่า “นี่คือสถานที่” ดังนั้น “นำทางฉัน” จึงกลายเป็นการดำเนินการที่สามารถเรียกใช้ได้โดยตรง

คุณถ่ายรูปโน้ตที่เขียนด้วยมือ AI อ่านข้อความบนนั้น โน้ตจะกลายเป็นรายการสิ่งที่ต้องทำที่แก้ไขได้โดยอัตโนมัติ

คุณหยุดวิดีโอท่องเที่ยวไว้ที่เฟรมหนึ่ง ร้านอาหารที่ดูดีในภาพ สามารถแสดงลิงก์จองโต๊ะได้โดยตรง

ในการสาธิตยังมีรายละเอียดที่สร้างความประทับใจ: Adrien ชี้ไปที่เมนูร้านอาหาร แล้วชี้ไปที่รูปภาพอ้างอิงสไตล์อื่น แล้วพูดว่า “ใช้สไตล์ของรูปนี้ ช่วยวาดเมนูนี้ให้ฉันหน่อย”

Gemini อ่านทั้งเนื้อหาของเมนูและสไตล์ภาพของรูปอ้างอิงพร้อมกัน แล้วสร้างภาพใหม่ที่ผสานทั้งสองอย่าง นี่ไม่ใช่การดำเนินการสองขั้นตอน แต่เป็นหนึ่งประโยค สองท่าทาง เสร็จสิ้น

พิกเซลมีความหมายเป็นครั้งแรก

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

จากแนวคิดสู่การปฏิบัติ

DeepMind ไม่ได้หยุดอยู่แค่แนวคิด

Google ระบุว่าหลักการปฏิสัมพันธ์ที่เกี่ยวข้องเริ่มเข้าสู่ผลิตภัณฑ์แล้ว: ใน Chrome ผู้ใช้สามารถใช้ตัวชี้ชี้/เลือกเนื้อหาบนหน้าเว็บ และถามคำถามกับ Gemini

Magic Pointer บน Googlebook ถูก Google ระบุว่าเป็นความสามารถระดับระบบที่กำลังจะเปิดตัว อุปกรณ์ Googlebook รุ่นแรกมีแผนวางจำหน่ายในฤดูใบไม้ร่วงนี้

แน่นอน จากการสาธิตสู่การใช้งานในชีวิตประจำวัน ยังมีหนทางอีกยาวไกล

ความแม่นยำในการจดจำ ความเข้ากันได้ข้ามแอปพลิเคชัน ความเร็วในการตอบสนอง ล้วนต้องผ่านการปรับแต่งในสภาพแวดล้อมเดสก์ท็อปที่ซับซ้อนจริง

ยังมีอีกปัญหาที่ควรพิจารณาอย่างจริงจัง: AI-enabled pointer ต้องการเข้าใจเนื้อหาบนหน้าจอของคุณอย่างต่อเนื่อง ข้อมูลถูกเก็บรวบรวมอย่างไร เก็บไว้ที่ไหน ไหลไปที่ไหน ปัจจุบัน DeepMind ยังไม่ได้อธิบายโดยละเอียด

สิ่งเหล่านี้ไม่ใช่อุปสรรค แต่เป็นกระบวนการที่รูปแบบปฏิสัมพันธ์ใหม่ต้องผ่านในการเดินทางจากห้องปฏิบัติการสู่สาธารณชน

ทุกเทคโนโลยีที่เปลี่ยนวิธีปฏิสัมพันธ์ ล้วนผ่านขั้นตอนนี้มาแล้ว โทรศัพท์หน้าจอสัมผัสเมื่อ iPhone รุ่นแรกเปิดตัว ก็ไม่มีใครกล้ารับประกันว่ามันจะแทนที่คีย์บอร์ดได้

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

คีย์บอร์ด 1973, เมาส์ 1984, หน้าจอสัมผัส 2007, ปฏิสัมพันธ์รุ่นถัดไปในปี 2026

เมื่อวางตัวชี้เมาส์นี้กลับไปบนเส้นเวลาประวัติศาสตร์ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ 50 ปี ความหมายของมันจะชัดเจนขึ้น

ปี 1973 Xerox Alto นำอินเทอร์เฟซกราฟิก การแสดงผลแบบบิตแมป และเมาส์ ซึ่งเป็นต้นแบบของปฏิสัมพันธ์เดสก์ท็อปสมัยใหม่ เข้าสู่ระบบทดลอง

ปี 1984 Macintosh ทำให้เมาส์และอินเทอร์เฟซกราฟิกเข้าถึงสาธารณชน มนุษย์เริ่มใช้ “ชี้” ไอคอนเพื่อดำเนินการ

ปี 2007 iPhone ทำให้นิ้วกลายเป็นวิธีการป้อนข้อมูลหลักโดยตรง หน้าจอสัมผัสกลายเป็นปฏิสัมพันธ์หลักของคอมพิวเตอร์เคลื่อนที่

ทุกการก้าวกระโดด เบื้องหลังคือสิ่งเดียวกัน: เครื่องจักรเรียนรู้มากขึ้น มนุษย์ต้องเรียนรู้น้อยลง

กล่องพรอมต์หลังปี 2022 เป็นอีกเส้นทางหนึ่ง

มนุษย์แปลเจตนาเป็นภาษาธรรมชาติ ส่งไปยังกล่องโต้ตอบ แล้วรอให้เครื่องส่งคำตอบกลับมา แบนด์วิดท์การแสดงออกกว้างขึ้น แต่ขั้นตอนการแสดงออกเองยังไม่หายไป คุณยังต้องพิมพ์ อธิบาย

ตัวชี้เมาส์ในปี 2026 นี้ พยายามบีบอัดขั้นตอน “การอธิบายบริบท” ไม่ใช่กำจัดการแสดงออกทั้งหมด

การทำงานร่วมกันของท่าทาง เสียงพูด และความเข้าใจเชิงความหมาย ทำให้การแสดงเจตนาพัฒนาจาก “การอธิบายอย่างแม่นยำ” เป็น “การชี้อย่างเป็นธรรมชาติ”: มนุษย์ยังต้องแสดงออก แต่ไม่ต้องพยายามอธิบายอีกต่อไปว่า “ฉันกำลังดูอะไร”

ตัวชี้เมาส์มีสมอง! Google DeepMind เปิดตัว AI Pointer ปฏิวัติการโต้ตอบยุคถัดไป

ปฏิสัมพันธ์สี่รุ่นแรกอยู่ในขอบเขตของ “มนุษย์แสดงออกอย่างกระตือรือร้น” ในขณะที่รุ่นนี้เป็นครั้งแรกที่ “เครื่องจักรเข้าใจอย่างกระตือรือร้น” การทำงานร่วมกันของท่าทาง เสียงพูด และความเข้าใจเชิงความหมาย ทำให้วิธีการสื่อสารเจตนาเปลี่ยนจาก “การอธิบายอย่างแม่นยำ” เป็น “การชี้อย่างเป็นธรรมชาติ” ในกระบวนทัศน์นี้ วิศวกรรมพรอมต์แทบไม่มีความจำเป็นอีกต่อไป

Adrien วาดภาพอนาคตที่เขาจินตนาการไว้ในตอนท้ายของวิดีโอ:

ระบบปฏิบัติการรูปแบบใหม่ AI นำเสนอสิ่งที่ฉันอาจสนใจอย่างกระตือรือร้น ฉันตอบสนองต่อมันผ่านการชี้ เรามีความสนใจร่วมกัน มีผืนผ้าใบร่วมกัน เหมือนทำงานเคียงข้างกับอีกคน

รูปแบบสูงสุดของปฏิสัมพันธ์ AI ไม่ใช่กล่องค้นหาที่ฉลาดกว่า แต่เป็นพันธมิตรที่ทำงานร่วมกับคุณได้อย่างแท้จริง

เครื่องมือที่ดีที่สุด มักเป็นเครื่องมือที่คุณลืมว่ามันมีอยู่

เมาส์อยู่กับมนุษย์มา 50 ปี อีก 50 ปีข้างหน้า มันอาจจะเริ่มเข้าใจคุณอย่างแท้จริง

ข้อมูลอ้างอิง:
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/34827

Like (0)
Previous 1 day ago
Next 8 hours ago

相关推荐