เจฟ ดีน บิดาแห่ง AI ของกูเกิล ทำนาย: อนาคตวิศวกรจะบริหารจัดการผู้ช่วยฝึกงานอัจฉริยะ 50 คน การเขียนความต้องการสำคัญกว่าการเขียนโค้ด

Jeff Dean หัวหน้านักวิทยาศาสตร์ AI ของ Google และวิศวกรในตำนาน ได้ให้สัมภาษณ์ล่าสุดโดยทำนายที่น่าสนใจ: ในอนาคต วิศวกรแต่ละคนอาจจะจัดการตัวแทนอัจฉริยะ (AI Agent) ได้มากถึง 50 ตัว เพื่อประมวลผลงานจำนวนมากแบบขนาน และประสิทธิภาพการสื่อสารจะเหนือกว่าการทำงานร่วมกันของมนุษย์

เขายังชี้ให้เห็นว่า ทักษะที่สำคัญที่สุดในอนาคตจะเป็น“การกำหนดความต้องการอย่างชัดเจน” เพราะคุณภาพผลลัพธ์จากตัวแทนอัจฉริยะขึ้นอยู่กับว่ามนุษย์จะอธิบายและกำหนดขอบเขตปัญหาอย่างไร

กลยุทธ์โมเดลสองรางของ Google: พาเรโต้ ฟรอนเทียร์

Jeff Dean เปิดเผยกลยุทธ์พาเรโต้ ฟรอนเทียร์ (Pareto Frontier) ที่ Google ปฏิบัติอยู่ในปัจจุบัน ในการพัฒนาโมเดลใหม่ Google มุ่งหน้าไปตามสองเส้นทางหลัก:

  • โมเดลแนวหน้าขั้นสูง (Frontier Models): มุ่งเน้นไปที่การให้เหตุผลเชิงลึก การแก้ปัญหาคณิตศาสตร์ที่ซับซ้อน และงานยากๆ อื่นๆ
  • โมเดลคุ้มค่าสูง (Cost-effective Models): ปรับให้เหมาะกับสถานการณ์ที่ต้องการความหน่วงต่ำ (Low Latency) มุ่งสร้างประสบการณ์การเขียนโปรแกรมแบบตัวแทนอัจฉริยะที่ลื่นไหล

เจฟ ดีน บิดาแห่ง AI ของกูเกิล ทำนาย: อนาคตวิศวกรจะบริหารจัดการผู้ช่วยฝึกงานอัจฉริยะ 50 คน การเขียนความต้องการสำคัญกว่าการเขียนโค้ด

การกลั่นโมเดล (Distillation): กุญแจสำคัญที่ทำให้โมเดลเล็กมีประสิทธิภาพใกล้เคียงโมเดลใหญ่

Jeff Dean ยืนยันในการสัมภาษณ์ว่า เทคโนโลยีการกลั่น (Distillation) คือความลับสำคัญที่ทำให้โมเดล Gemini บรรลุความสมดุลระหว่างประสิทธิภาพสูงและประสิทธิภาพที่ดี โดยเทคโนโลยีนี้ทำให้โมเดลขนาดเล็กสามารถมีประสิทธิภาพใกล้เคียงกับโมเดลขนาดใหญ่ ได้มาก

โดยเฉพาะ Google ให้โมเดลขนาดเล็กเรียนรู้ผ่านข้อมูลฝึกจำนวนมากหลายรอบ พร้อมทั้งใช้ข้อมูลกลาง (logits) จากผลลัพธ์ของโมเดลใหญ่เป็นแนวทาง ทำให้โมเดลเล็กเรียนรู้รูปแบบพฤติกรรมที่ละเอียดและใกล้เคียงกับโมเดลใหญ่มากขึ้น นี่คือเหตุผลที่ Gemini สามารถทำได้ว่า “ประสิทธิภาพของโมเดลรุ่นเบาในรุ่นถัดไป ประมาณเท่ากับโมเดลรุ่นโปรในรุ่นก่อนหน้า หรือดีกว่า” Jeff Dean กล่าวว่า Google จะเดินหน้าต่อในเส้นทางเทคโนโลยีนี้

นอกจากนี้ Jeff Dean ยังเน้นย้ำถึงคุณค่าของความหน่วงต่ำ (Low Latency) เขาคิดว่าหากสามารถลดความหน่วงลงได้ 20-50 เท่า ประสบการณ์ผู้ใช้จะเปลี่ยนแปลงไปอย่างสิ้นเชิง

สรุปประเด็นสำคัญจากการสัมภาษณ์

ในการสัมภาษณ์ครั้งนี้ Jeff Dean ยังแบ่งปันข้อมูลสำคัญดังต่อไปนี้:

  • ความเชื่อเรื่องการขยายขนาด (Scaling Belief): เขาเชื่อมั่นในหลักการ “โมเดลที่ใหญ่ขึ้น ข้อมูลที่มากขึ้น ผลลัพธ์ที่ดีขึ้น” มาตั้งแต่หลายสิบปีก่อน และยึดถือมาเป็นเวลา 15 ปีแล้ว
  • การใช้พลังงานเป็นหลักการแรก (Energy as a First Principle): การฝึกและการอนุมานของโมเดลภาษาขนาดใหญ่ไม่เพียงเกี่ยวข้องกับปริมาณการคำนวณ แต่ยังรวมถึงต้นทุนการเคลื่อนย้ายข้อมูล การออกแบบเพื่อเพิ่มประสิทธิภาพฮาร์ดแวร์ ขนาดแบทช์ (Batch Size) ความหน่วง (Latency) และปริมาณงาน (Throughput) สามารถใช้การบริโภคพลังงาน เป็นมาตรวัดหลักได้
  • การออกแบบฮาร์ดแวร์และซอฟต์แวร์ร่วมกัน (Hardware-Software Co-design): ทีม TPU และทีมวิจัยแมชชีนเลิร์นนิงต้องทำงานร่วมกันอย่างใกล้ชิด การออกแบบฮาร์ดแวร์ต้องคาดการณ์แนวโน้มการพัฒนาโมเดลในอีก 2-6 ปีข้างหน้า
  • การทบทวนการพัฒนา Gemini ในช่วงแรก: Jeff Dean ยอมรับว่าในช่วงแรกของโครงการ Gemini ทรัพยากรถูกกระจายตัวมากเกินไป และกล่าวว่า “มันโง่เง่า”
  • การทำนายอนาคต: เขาให้การทำนายสำคัญสองประการ: ประการแรก โมเดลที่ “เป็นส่วนตัว (Personalized)” จริงๆ จะมีความสำคัญอย่างยิ่งในอนาคต ประการที่สอง ความหน่วงต่ำจะเปลี่ยนแปลงสถานการณ์การใช้งานจำนวนมากอย่างสิ้นเชิง

เนื้อหาด้านล่างคัดเลือกมาจากบทสัมภาษณ์ฉบับเต็ม จัดเรียงและคัดสรรรอบประเด็นหลัก

การกลั่นคือกุญแจสำคัญในการก้าวข้ามของโมเดลเบา

Shawn Wang: ก่อนอื่นขอแสดงความยินดีที่พวกคุณครองตำแหน่งพาเรโต้ ฟรอนเทียร์

หมายเหตุบรรณาธิการ: พาเรโต้ ฟรอนเทียร์อธิบายถึงเซตของคำตอบที่ดีที่สุดภายใต้การแลกเปลี่ยนหลายวัตถุประสงค์ ที่นี่หมายถึง Google อยู่ในสถานะที่ดีที่สุดในการแลกเปลี่ยนระหว่างประสิทธิภาพโมเดลกับต้นทุน/ความหน่วง ทั้งสามารถนำเสนอโมเดลแนวหน้าที่มีประสิทธิภาพสูง และโมเดลที่มีความคุ้มค่าสูง

Jeff Dean: ขอบคุณ การได้อยู่บนพาเรโต้ ฟรอนเทียร์เป็นสิ่งที่ดีแน่นอน

Shawn Wang: ใช่ ผมคิดว่าสิ่งที่พวกคุณทำไม่ใช่แค่การไล่ตามความสามารถระดับสูงสุด แต่ยังคำนึงถึงประสิทธิภาพไปพร้อมกัน จริงๆ แล้ว “ครอบครอง” พาเรโต้ ฟรอนเทียร์ไว้ ทั้งนำเสนอประสิทธิภาพระดับสูงสุด และควบคุมต้นทุนกับประสิทธิภาพ พร้อมมอบทางเลือกโมเดลแบบไล่ระดับที่สมบูรณ์ให้ผู้ใช้ ด้านหลังเป็นผลจากการทำงานของฮาร์ดแวร์ การออกแบบโมเดล และเทคโนโลยีหลากหลายที่สะสมมานาน รวมกันแล้วน่าประทับใจจริงๆ

เจฟ ดีน บิดาแห่ง AI ของกูเกิล ทำนาย: อนาคตวิศวกรจะบริหารจัดการผู้ช่วยฝึกงานอัจฉริยะ 50 คน การเขียนความต้องการสำคัญกว่าการเขียนโค้ด

Jeff Dean: ใช่แล้ว นี่ไม่ได้ถูกกำหนดโดยปัจจัยเดียว แต่เป็นการทำงานร่วมกันแบบฟูลสแต็กตั้งแต่ฮาร์ดแวร์ถึงซอฟต์แวร์ ตั้งแต่ระบบถึงโมเดล ทุกส่วนเหล่านี้รวมกัน ทำให้เราสามารถสร้างโมเดลขนาดใหญ่ที่มีความสามารถสูงมากได้ และยังสามารถ “บีบอัด” ความสามารถเหล่านี้ลงในโมเดลที่เล็กกว่า เบากว่า ต้นทุนต่ำกว่า ความหน่วงต่ำกว่า โดยยังคงรักษาความสามารถที่ค่อนข้างทรงพลังไว้ได้

Alessio Fanelli: ภายใน Google พวกคุณรู้สึกกดดันกับด้าน “ต่ำ” ของพาเรโต้ ฟรอนเทียร์ (โมเดลคุ้มค่าสูง) มากไหม? ห้องปฏิบัติการเกิดใหม่มักพุ่งชนด้านประสิทธิภาพเพื่อระดมทุน แต่ Google มีผู้ใช้หลายพันล้านคน ตอนวางแผน CPU ในยุคแรก หากผู้ใช้แต่ละคนใช้โมเดลเสียงเพิ่มวันละสามนาที รวมแล้วพลังการคำนวณที่ต้องการอาจเพิ่มเป็นสองเท่า ตอนนี้ภายใน พวกคุณตัดสินใจและแลกเปลี่ยนระหว่าง “การไล่ตามขอบเขตเทคโนโลยี” กับ “ต้องสามารถปรับใช้ในระดับใหญ่ได้” อย่างไร?

Jeff Dean: เราต้องการครอบครองและผลักดันโมเดลที่อยู่แนวหน้าอยู่เสมอ เพราะมีเพียงที่นั่นเท่านั้นที่เราจะค้นพบ “ความสามารถใหม่” ซึ่งคือฟังก์ชันที่โมเดลรุ่นก่อนหน้าไม่มี แต่เราก็ตระหนักดีว่าโมเดลประเภทนี้มักจะช้ากว่าและมีต้นทุนสูงกว่า สถานการณ์การใช้งานที่กว้างขวางจำนวนมากต้องการโมเดลที่มีความหน่วงต่ำ ต้นทุนต่ำ มากกว่า

ดังนั้น กลยุทธ์ของเราคือเดินสองรางขนานกัน: ด้านหนึ่งพัฒนาโมเดลแนวหน้าขั้นสูง สำหรับงานยากๆ เช่น การให้เหตุผลเชิงลึก ปัญหาคณิตศาสตร์ที่ซับซ้อน อีกด้านหนึ่งพัฒนาโมเดลคุ้มค่าสูง สำหรับสถานการณ์ความหน่วงต่ำ เช่น การเขียนโปรแกรมแบบตัวแทนอัจฉริยะที่ลื่นไหลมากขึ้น ทั้งสองอย่างสำคัญเท่ากัน

และผ่านเทคโนโลยีการกลั่น เราสามารถถ่ายโอนความสามารถของโมเดลแนวหน้าไปยังโมเดลขนาดเล็กได้ ดังนั้นนี่ไม่ใช่การ “เลือกอย่างใดอย่างหนึ่ง” แต่เป็นการเสริมซึ่งกันและกัน — หากไม่มีโมเดลแนวหน้า ก็ยากที่จะได้โมเดลเล็กที่มีคุณภาพสูง

เจฟ ดีน บิดาแห่ง AI ของกูเกิล ทำนาย: อนาคตวิศวกรจะบริหารจัดการผู้ช่วยฝึกงานอัจฉริยะ 50 คน การเขียนความต้องการสำคัญกว่าการเขียนโค้ด

Alessio Fanelli: วิธีการกลั่นนี้ คุณและ Geoffrey Hinton เสนอมาตั้งแต่ปี 2014 แล้ว

Jeff Dean: อย่าลืม Oriol Vinyals (ซึ่งเป็นผู้มีส่วนร่วมด้วย)

Alessio Fanelli: ผ่านมาหลายปี คุณมองวัฏจักรของแนวคิดเทคโนโลยีเหล่านี้อย่างไร? เช่น โมเดลแบบเบาบาง (Sparse Models) แนวคิดหลายอย่างในตอนนั้นอาจดูไม่สำคัญนัก แต่ต่อมามีอิทธิพลอย่างมาก พวกคุณตัดสินใจอย่างไรว่าแนวคิดใดควรได้รับการทบทวนใหม่ในโมเดลรุ่นต่อไป?

Jeff Dean: การเสนอการกลั่นในตอนนั้น มีแรงจูงใจจากงานด้านภาพ เรามีชุดข้อมูลที่มีภาพ 300 ล้านภาพ หากฝึก “โมเดลผู้เชี่ยวชาญ” เฉพาะสำหรับหมวดหมู่ต่างๆ (เช่น สัตว์เลี้ยงลูกด้วยนม ฉากในร่ม) แล้วรวมโมเดลแบบนี้ 50 โมเดลเข้าด้วยกัน ผลจะดีมาก แต่เห็นได้ชัดว่าไม่สามารถปรับใช้โมเดล 50 โมเดลออนไลน์ได้ ดังนั้นเราคิดว่า: เป็นไปได้ไหมที่จะ “บีบอัด” “ความรู้” ของโมเดลผู้เชี่ยวชาญเหล่านี้ลงในโมเดลเดี่ยวที่เล็กกว่าและปรับใช้ได้? นี่คือจุดเริ่มต้นของการกลั่น ตรรกะในวันนี้ก็คล้ายกัน เพียงแต่ตอนนี้เรากลั่นจากโมเดลขนาดใหญ่มากไปยังโมเดลเล็ก แทนที่จะกลั่นจาก 50 โมเดล

Shawn Wang: การกลั่นกับการปฏิวัติการเรียนรู้แบบเสริมแรง (Reinforcement Learning) มีความเกี่ยวข้องกันไหม? เช่น การเรียนรู้แบบเสริมแรงอาจสร้าง “ยอดแหลม” ในบางการกระจายความสามารถ แต่อาจเสียสละความสามารถในพื้นที่อื่น หากสามารถปรับสมดุลความสามารถเหล่านี้ใหม่ผ่านการกลั่น เพื่อให้บรรลุ “การรวมความสามารถโดยไม่ลดทอน” นี่เป็นสถานะในอุดมคติหรือไม่?

Jeff Dean: ข้อได้เปรียบสำคัญอย่างหนึ่งของการกลั่นคือ โมเดลเล็กสามารถเรียนรู้ผ่านข้อมูลฝึกจำนวนมากหลายรอบ พร้อมทั้งใช้ข้อมูล logits จากโมเดลใหญ่ (ไม่ใช่แค่ป้ายกำกับแบบแข็ง) สิ่งนี้สามารถชี้นำให้โมเดลเล็กเรียนรู้รูปแบบพฤติกรรมที่ละเอียดอ่อนมากขึ้น ในทางปฏิบัติ เราพบว่าโมเดลเล็กสามารถมีประสิทธิภาพใกล้เคียงกับโมเดลใหญ่ได้มาก

เจฟ ดีน บิดาแห่ง AI ของกูเกิล ทำนาย: อนาคตวิศวกรจะบริหารจัดการผู้ช่วยฝึกงานอัจฉริยะ 50 คน การเขียนความต้องการสำคัญกว่าการเขียนโค้ด

นี่คือเหตุผลที่ในหลายเวอร์ชันการวนซ้ำของ Gemini เราสามารถบรรลุ “ประสิทธิภาพของโมเดลรุ่นเบาในรุ่นถัดไป ประมาณเท่ากับโมเดลรุ่นโปรในรุ่นก่อนหน้า หรือดีกว่า” นี่คือเส้นทางเทคโนโลยีที่เราจะเดินหน้าต่อไป

Shawn Wang: แล้วโมเดล Ultra ล่ะ? ภายในมี “โมเดลแม่” ที่ทำการกลั่นอย่างต่อเนื่องหรือไม่?

Jeff Dean: เรามีโมเดลหลายขนาดและวัตถุประสงค์แตกต่างกันมากมาย บางโมเดลไม่ได้เผยแพร่สู่สาธารณะ บางโมเดลอยู่ในระดับโปร การกลั่นสามารถมาจากแหล่งที่แตกต่างกันได้ นอกจากนี้ การขยายขนาดในขั้นตอนการอนุมาน (Inference) ก็เป็นวิธีสำคัญในการเพิ่มความสามารถของโมเดล

Shawn Wang: ความคุ้มค่าทางเศรษฐกิจของโมเดลเบานำมาซึ่งข้อได้เปรียบด้านขนาด ได้ยินมาว่าปริมาณการประมวลผลสูงถึง 50 ล้านล้านโทเค็นแล้ว?

Jeff Dean: ในแง่ส่วนแบ่งการตลาด หวังว่าจะยังเติบโตต่อไป

Shawn Wang: โมเดลเบาตอนนี้เกือบจะอยู่ทุกที่แล้ว — Gmail, YouTube, โหมด AI ของการค้นหา…

Jeff Dean: ใช่ ข้อได้เปรียบของโมเดลเบาไม่เพียงแต่ต้นทุนต่ำ แต่ยังมีความหน่วงต่ำ และความหน่วงสำคัญมาก ในอนาคต โมเดลจะถูกขอให้ทำงานที่ซับซ้อนมากขึ้น เช่น การเขียนแพ็คเกจซอฟต์แวร์ทั้งชุด แทนที่จะเป็นแค่โค้ดลูปหนึ่งๆ สิ่งนี้จะสร้างโทเค็นจำนวนมาก ดังนั้นระบบความหน่วงต่ำจึงสำคัญมาก โมเดลเบาเป็นหนึ่งในทิศทางนั้น ในระดับฮาร์ดแวร์ เช่น การเชื่อมต่อประสิทธิภาพสูงระหว่างชิป TPU ก็สำคัญอย่างยิ่งสำหรับการปรับใช้กลไกความสนใจ (Attention) บริบทยาว หรือโมเดลผู้เชี่ยวชาญแบบเบาบาง

Alessio Fanelli: แล้ว พวกคุณกังวลเกี่ยวกับปรากฏการณ์ “อิ่มตัว” บ้างไหม? เช่น หลังจากพัฒนาสองรุ่น โมเดลเบาก็สามารถครอบคลุมความต้องการส่วนใหญ่ได้ นี่จะลดแรงจูงใจในการผลักดันโมเดลแนวหน้าแบบโปรต่อไปหรือไม่?

Jeff Dean: หากการกระจายคำถามของมนุษย์คงที่ ไม่เปลี่ยนแปลง บางทีอาจเป็นไปได้ แต่ความจริงคือ ยิ่งโมเดลมีความสามารถมากเท่าไร ผู้คนก็จะตั้งคำถามที่ซับซ้อนมากขึ้นเท่านั้น

หนึ่งปีก่อน ฉันจะให้โมเดลทำงานเขียนโค้ดง่ายๆ เท่านั้น ตอนนี้ฉันให้มันทำการวิเคราะห์ระบบที่ซับซ้อนแล้ว ความต้องการของผู้ใช้เองก็วิวัฒนาการไป โมเดลแนวหน้าในขณะที่ผลักดันขอบเขตความสามารถ ก็ทำให้เราเห็นจุดคอขวดชัดเจนขึ้น เพื่อชี้นำการปรับปรุงโมเดลรุ่นต่อไป

Alessio Fanelli: ภายใน Google ตอนนี้ยังพึ่งพาการทดสอบมาตรฐานสาธารณะอยู่ไหม?

เจฟ ดีน บิดาแห่ง AI ของกูเกิล ทำนาย: อนาคตวิศวกรจะบริหารจัดการผู้ช่วยฝึกงานอัจฉริยะ 50 คน การเขียนความต้องการสำคัญกว่าการเขียนโค้ด

Jeff Dean: การทดสอบมาตรฐานสาธารณะมีคุณค่า แต่มีวงจรชีวิตจำกัด การทดสอบในอุดมคติ ควรได้คะแนนเริ่มต้นระหว่าง 10% ถึง 30% แล้วเพิ่มขึ้นเป็น 80% ถึง 90% ผ่านการปรับปรุง

เมื่อเกิน 95% แล้ว ความหมายก็ไม่มาก อาจหมายถึงความสามารถถูกควบคุมอย่างสมบูรณ์แล้ว หรืออาจมีความเสี่ยงที่ข้อมูลรั่วไหล เรามีชุดทดสอบที่สงวนไว้ภายในจำนวนมาก เฉพาะสำหรับประเมินความสามารถที่ไม่ได้ปรากฏในข้อมูลฝึก หลังจากนั้นเราจะวิเคราะห์ว่าปัญหาอยู่ที่ข้อมูล โครงสร้าง หรือโมเดลเองมีช่องว


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/25058

Like (0)
Previous 9 hours ago
Next 9 hours ago

相关推荐