รองประธานฝ่ายวิจัยของ Google DeepMind เปิดเผยความลับ: 3 ความก้าวหน้าล้ำสมัยเหนือโมเดลภาษา สร้าง “โหนดราก” สำหรับอนาคตอัจฉริยะ

“เรากำลังคิดว่าโครงสร้างสถาปัตยกรรมต่อไปที่ Gemini จะใช้คืออะไร? มีปัญหาอะไรบ้างที่เฉพาะ AI เท่านั้นที่สามารถแก้ไขได้อย่างแท้จริง? และเราควรสร้างอนาคตแห่งปัญญาประดิษฐ์อย่างไร?” เมื่อไม่นานมานี้ Raia Hadsell รองประธานฝ่ายวิจัยของ Google DeepMind ได้แบ่งปันแนวคิดหลักและความก้าวหน้าสำคัญของทีมในสาขา AI แนวหน้าในการบรรยายครั้งหนึ่ง

Raia Hadsell เป็นศิษย์ของ Yann LeCun ผู้บุกเบิกด้าน AI เข้าร่วมในช่วงเริ่มต้นของ DeepMind ในปี 2010 เป็นเวลากว่า 13 ปีแล้ว ปัจจุบันเธอช่วยบริหารจัดการนักวิทยาศาสตร์และวิศวกรประมาณ 1200 คน และดำรงตำแหน่ง “ทูต AI แห่งสหราชอาณาจักร” โดยมุ่งมั่นเชื่อมโยงความร่วมมือระหว่างอุตสาหกรรม วิชาการ และรัฐบาล ในการบรรยาย เธอเน้นย้ำว่าทีมมุ่งเน้นไปที่การค้นหาและแก้ไขปัญหาที่มีผลกระทบลึกซึ้งซึ่งเป็น ปัญหา “โหนดราก” มากกว่าที่จะหยุดอยู่ที่ปัญหา “ใบไม้” ที่ผิวเผิน เป้าหมายคือการสำรวจพื้นที่ปัญหาขนาดใหญ่ที่ยังไม่ได้รับการแก้ไขอย่างลึกซึ้ง โดยการแก้ไขปัญหาหลักที่สำคัญที่สุดเพื่อขับเคลื่อนผลกระทบที่กว้างขวางในระดับล่าง และสร้าง AI ที่เป็นประโยชน์ต่อมนุษยชาติอย่างมีความรับผิดชอบ

จากแนวคิดนี้ Raia ได้เน้นแนะนำความก้าวหน้าสามประการที่ไม่ได้เกี่ยวข้องกับโมเดลภาษาอย่างตรงไปตรงมา:


ความก้าวหน้าที่หนึ่ง: โมเดลฝังตัวแบบหลายรูปแบบสมบูรณ์ Gemini Embeddings 2

ในสาขาโมเดลขั้นสูง โมเดลฝังตัว (Embedding Models) เป็นคู่หูที่สำคัญอย่างยิ่งสำหรับ AI แบบสร้างสรรค์ แรงบันดาลใจในการออกแบบมาจาก “เซลล์แนวคิดเฉพาะเจาะจง” (เช่น “เซลล์เจนนิเฟอร์ แอนนิสตัน”) ในประสาทวิทยาศาสตร์ ซึ่งก็คือกลุ่มเซลล์ประสาทขนาดเล็กที่ตอบสนองต่อบุคคล สิ่งของ หรือแนวคิดเฉพาะเจาะจง และการตอบสนองนี้ข้ามรูปแบบประสาทสัมผัส (เช่น ชื่อ รูปภาพ เสียง) และมีความแข็งแกร่งสูง

จากแรงบันดาลใจนี้ โมเดลฝังตัวใน AI มีเป้าหมายเพื่อเข้ารหัสแนวคิด ทำให้สามารถค้นหา ระบุ และเปรียบเทียบข้ามรูปแบบได้อย่างรวดเร็ว ทีม Google เพิ่งเปิดตัว Gemini Embeddings 2 ซึ่งบรรลุความสามารถ แบบหลายรูปแบบสมบูรณ์ (Omnimodal) ในอุดมคติ โดยอิงจากความรู้เกี่ยวกับโลกของโมเดล Gemini สามารถเข้ารหัสข้อความ (สูงสุด 8K token) วิดีโอ 128 วินาที เสียง 80 วินาที และเอกสาร PDF ที่สมบูรณ์ ให้เป็นเวกเตอร์ความหมายเดียว

การแสดงแทนแบบหลายรูปแบบที่รวมเป็นหนึ่งเดียวนี้หลีกเลี่ยงการสูญเสียข้อมูลจากการบูรณาการแบบขั้นตอน ทำให้เกิดการประมวลผลแบบ end-to-end ที่แท้จริง เมื่อรวมกับเทคนิค “การเรียนรู้การแสดงแทนตุ๊กตารัสเซีย” (MRL) โมเดลนี้สามารถรองรับการฝังตัวในมิติที่แตกต่างกันภายในเครือข่ายเดียวกัน (เช่น ใช้ 256 มิติสำหรับการค้นหาอย่างรวดวก่อน จากนั้นขยายไปยังมิติสูงเพื่อให้ได้พลังการแสดงออกที่แข็งแกร่งขึ้น) ส่งผลให้สร้างพื้นที่ความหมายที่เป็นหนึ่งเดียว และอยู่ในระดับแนวหน้าในงานต่างๆ เช่น การค้นหา การสืบค้น และตรรกะของเอเจนต์


ความก้าวหน้าที่สอง: โมเดลเครือข่ายประสาทเทียมสำหรับพยากรณ์อากาศ

การพยากรณ์อากาศเป็นอีกสาขาหนึ่งที่ AI แสดงความสามารถอันน่าทึ่ง เมื่อถูกถามว่า “สามารถใช้ AI ทำนายฝนได้แม่นยำกว่าโมเดลทางฟิสิกส์หรือไม่” ทีม DeepMind จึงเริ่มการสำรวจ พวกเขาพบว่า การใช้ข้อมูลอุตุนิยมวิทยาทั่วโลกในช่วง 40 ปีที่ผ่านมา โมเดลเครือข่ายประสาทเทียมมีศักยภาพสูงมากในงานนี้

โมเดล GraphCast ที่ทีมพัฒนาขึ้น ใช้ เครือข่ายประสาทเทียมแบบกราฟทรงกลม เพื่อสร้างแบบจำลองพื้นผิวโลกจนถึงสตราโตสเฟียร์ชั้นล่างเป็นกริด โมเดลนี้ใช้วิธี autoregressive ในการพยากรณ์ตัวแปรบรรยากาศกว่า 100 ชนิด (เช่น ความเร็วลม อุณหภูมิ ความชื้น) ทั่วโลกในอนาคต 15 วัน

ประสิทธิภาพของมันเหนือกว่า “มาตรฐานทองคำ” ของโมเดลทางฟิสิกส์แบบดั้งเดิม ตัวอย่างเช่น พายุเฮอริเคน “ลี” ในปี 2024 GraphCast สามารถพยากรณ์จุดขึ้นฝั่งที่โนวาสโกเชียได้อย่างแม่นยำ ล่วงหน้า 9 วัน ในขณะที่โมเดลทางฟิสิกส์ที่ทันสมัยที่สุดสามารถทำนายได้แม่นยำล่วงหน้าเพียง 6 วัน สำหรับพายุเฮอริเคนรุนแรงที่กำลังจะขึ้นฝั่ง เวลาเตือนภัยเพิ่มเติม 3 วันนี้มีความสำคัญอย่างยิ่ง


ความก้าวหน้าที่สาม: โมเดลโลก Genie

ในสาขา โมเดลโลก ซีรีส์โมเดล Genie ได้รับความก้าวหน้าอย่างน่าตื่นเต้น มันสามารถ สร้างสภาพแวดล้อมเสมือนจริง 3 มิติที่สามารถโต้ตอบได้แบบเรียลไทม์ ตามคำแนะนำง่ายๆ หรือภาพ

ผู้ใช้ไม่เพียงแต่สามารถเดิน สำรวจในโลกที่สร้างขึ้นแบบไดนามิกนี้ แต่ยังสามารถ เปลี่ยนโฉมหน้าของโลกแบบเรียลไทม์ ผ่านการโต้ตอบ ตัวอย่างเช่น ประโยคที่ว่า “ฉันเพิ่งเปลี่ยนโลกที่ฉันอยู่ ฉันสามารถเปลี่ยนมันอีกครั้ง ดูสิ โลกเปลี่ยนไปทันที” สะท้อนความสามารถหลักของมันได้อย่างมีชีวิตชีวา เทคโนโลยีนี้เปิดความเป็นไปได้ใหม่ๆ สำหรับเกม ความบันเทิงแบบ immersive และการศึกษา เป็นต้น

จากพื้นฐานนี้ ทีมตัดสินใจผลักดันขอบเขตทางวิทยาศาสตร์ต่อไป โดยพัฒนาโมเดลรุ่นต่อไปคือ GenCast ต่างจากโมเดลก่อนหน้า แม้ว่า GenCast จะยังคงอิงตามกริดเช่นกัน แต่มันเป็นโมเดลความน่าจะเป็นที่มีความแม่นยำและประสิทธิภาพสูงกว่า สภาพอากาศโดยธรรมชาติมีความวุ่นวาย และโมเดลความน่าจะเป็นสามารถช่วยให้เราเข้าใจความเป็นไปได้ในสถานการณ์สุดขั้ว ทำให้การพยากรณ์สามารถนำไปปฏิบัติได้จริง และให้บริการการพยากรณ์อากาศจริงได้อย่างแท้จริง ในด้านความแม่นยำ GenCast มีผลงานโดดเด่น: เมื่อเปรียบเทียบกับพยากรณ์มาตรฐานทองคำ 1300 ครั้ง มันทำได้ดีกว่าใน 97% ของกรณี การเพิ่มประสิทธิภาพก็น่าทึ่งไม่แพ้กัน: ตอนนี้ใช้เพียงชิปเดียวก็สามารถสร้างพยากรณ์อากาศ 15 วันได้ภายใน 8 นาที เปลี่ยนแปลงมิติของโซลูชันที่เดิมต้องพึ่งพาซูเปอร์คอมพิวเตอร์ขนาดใหญ่และใช้เวลาหลายชั่วโมงโดยสิ้นเชิง

ทีมนี้ยังคงสำรวจอย่างต่อเนื่อง และในปีที่แล้วได้เปิดตัวเทคโนโลยีใหม่คือ FGN (Function Generation Network) นี่เป็นการเปลี่ยนแปลงขั้นพื้นฐาน: FGN ทำนายพายุไซโคลนโดยตรง แทนที่จะพยากรณ์อากาศก่อนแล้วจึงเพิ่มการตรวจจับพายุไซโคลนในขั้นตอนหลังการประมวลผล มันผนวกการจำแนกประเภท การระบุ วิถี ความเร็วลม และแม้แต่การก่อตัวของตาพายุเข้าสู่เครือข่ายสำหรับการฝึกฝนโดยตรง ดังนั้นจึงมีประสิทธิภาพดีกว่ามาก ปัจจุบัน ศูนย์เฮอริเคนแห่งชาติสหรัฐฯ ได้เริ่มใช้เทคโนโลยีนี้ และรู้สึกตื่นเต้นกับข้อได้เปรียบที่นำมา ทีมหวังว่าเทคโนโลยีนี้จะได้รับการใช้งานทั่วโลกภายในไม่กี่ปีข้างหน้า

สร้าง “สภาพแวดล้อมที่ไร้ขีดจำกัด” สำหรับเอเจนต์

สุดท้ายนี้ ฉันอยากพูดถึงสาขาแนวหน้าอีกสาขาที่ไม่ใช่โมเดลภาษา นั่นคือ โมเดลโลก สิ่งนี้มีรากฐานมาจากการสะสมประสบการณ์ระยะยาวของ DeepMind ในเกมและสภาพแวดล้อมจำลอง ตั้งแต่ Atari หมากล้อม สตาร์คราฟต์ ไปจนถึงสภาพแวดล้อม Mojoko ในหุ่นยนต์ เราไม่เพียงแต่ศึกษาพฤติกรรมของเอเจนต์ แต่ยังให้ความสำคัญกับสภาพแวดล้อมที่มันอยู่ด้วย เราให้ความสำคัญกับเป้าหมายหนึ่งมากขึ้นเรื่อยๆ: ไม่เพียงแต่ฝึกฝนเอเจนต์ แต่ยังต้องสร้าง “สภาพแวดล้อมที่ไร้ขีดจำกัด”

Genie 1 ในยุคแรกพิสูจน์ความเป็นไปได้ของเส้นทางนี้ แม้ว่ามันจะสร้างได้เฉพาะโลกเกม 2D แบบ platform ที่ทำงานได้เพียงไม่กี่วินาที แต่สามารถสร้างสภาพแวดล้อมแบบโต้ตอบที่มีสไตล์หลากหลายตามคำแนะนำข้อความแบบเรียลไทม์ จากพื้นฐานนี้ เราเริ่มขยายขนาด: เพิ่มข้อมูล ปรับปรุงวิธีการ และฝึกฝนบนเกม 3D

Genie 2 ที่พัฒนาต่อมาเป็นแบบโต้ตอบ สามารถสร้างสภาพแวดล้อม 3D ได้ แต่ความเร็วในการทำงานยังช้า และคุณภาพภาพยังไม่ถึงระดับโลกแห่งความเป็นจริง ขณะที่เรากำลังมุ่งมั่นปรับปรุงอยู่นั้น Genie 3 ก็ถือกำเนิดขึ้น

Genie 3 ที่เปลี่ยนโลกได้ตามใจปรารถนา

Genie 3 นำมาซึ่งการก้าวกระโดดเชิงคุณภาพ ตัวอย่างเช่น เมื่อให้คำแนะนำว่า “ฉันต้องการฉากที่ฉันกำลังเดินบนทางโคลนเลนเล็กๆ ในเคนต์” โมเดลไม่เพียงแต่สร้างสภาพแวดล้อมที่สมจริง แต่ยังทำให้คุณมีร่างกาย สามารถโต้ตอบกับโลกได้อย่างแท้จริง – มันเข้าใจทั้งรูปลักษณ์ของฉาก และคุณสมบัติทางกายภาพที่จำเป็นสำหรับการโต้ตอบ เช่น น้ำไหลอย่างไร ก้าวเดินอย่างไร

มันไม่เพียงแต่สามารถสร้างฉากการเดินได้ แต่ยังสามารถสร้างสภาพแวดล้อมแบบโต้ตอบที่หลากหลาย เช่น สกี ที่ทรงพลังยิ่งไปกว่านั้น Genie 3 รองรับการใช้คลิปวิดีโอเป็นคำแนะนำ เราเคยใช้วิดีโอสองสามวินาทีแรกที่ศิลปินคนหนึ่งสร้างขึ้นเป็นอินพุต เพื่อกระตุ้นให้ Genie 3 ขยายและกระตุ้นทั้งโลก ศิลปินรู้สึกตื่นเต้นมาก เพราะผลงานของเขาถูกเติมเต็มชีวิต: คุณสามารถบินผ่านมันได้ โต้ตอบกับวัตถุต่างๆ โมเดลมี “ความจำ” สามารถจดจำองค์ประกอบเฉพาะในฉาก (เช่น “อาคารประหลาด”) และอนุญาตให้คุณกลับมาได้

สภาพแวดล้อมเหล่านี้มีความหลากหลาย มีการโต้ตอบสูง คุณภาพสูง และมีความจำที่ต่อเนื่อง ในการทดสอบ “จิ้งจกพับกระดาษในโลกพับกระดาษ” คุณสามารถวิ่งออกไปไกลแล้วกลับมายังจุดเริ่มต้น สภาพแวดล้อมยังคงเหมือนเดิมทุกประการ ซึ่งสะท้อนถึงความสอดคล้องของความจำที่ยอดเยี่ยม และให้การควบคุมแก่ผู้พัฒนา

สุดท้าย Genie 3 ยังรองรับคำแนะนำแบบไดนามิก เมื่ออยู่ในโลกหนึ่ง (เช่น กำลังเดินริมคลองแคมเดนในลอนดอน) คุณสามารถป้อนคำแนะนำใหม่แบบเรียลไทม์ โลกก็จะเปลี่ยนไปตามนั้นทันที ความสามารถนี้สามารถกระตุ้นได้อย่างต่อเนื่อง สร้างประสบการณ์ที่เปลี่ยนแปลงไปอย่างไม่หยุดยั้ง

แนวหน้าแบบใหม่

สิ่งนี้จินตนาการถึงรูปแบบความบันเทิงแบบใหม่: การเปลี่ยนประสบการณ์โลกของผู้อื่นผ่านคำแนะนำแบบ “ต่อต้าน” ฉันคิดว่าสิ่งนี้ไม่เพียงแต่มีศักยภาพอันน่าทึ่งสำหรับเกม แต่ยังสำหรับการศึกษาด้วย พลังของการได้เข้าไปเรียนรู้ในโลกที่สามารถโต้ตอบและเปลี่ยนแปลงได้นั้นทรงพลังอย่างยิ่ง และในอนาคตเราจะต้องได้เห็นแอปพลิเคชันประเภทนี้มากขึ้นอย่างแน่นอน

การแบ่งปันของฉันจบลงเพียงเท่านี้ ขอบคุณทุกท่าน

(หมายเหตุ: พรุ่งนี้เช้า Omar เพื่อนร่วมงานของฉันจะแนะนำ Gemma 4 ซึ่งเป็นโมเดลภาษา)


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/31140

Like (0)
Previous 2 hours ago
Next 2 hours ago

相关推荐