ความก้าวหน้าของ DeepMind: คอขวดของระบบมัลติบอดี้ขนาดใหญ่ปรากฏขึ้นและการจับคู่งานกลายเป็นตัวชี้วัดประสิทธิภาพที่สำคัญ

2026年2月25日 pm6:17 • วิศวกรรมโมเดลขนาดใหญ่ • 239 views

ในสาขาปัญญาประดิษฐ์ (AI) การวิจัยและการประยุกต์ใช้เอเจนต์ (Agent) มีเพิ่มมากขึ้นเรื่อยๆ และโมเดลพื้นฐานสำหรับการทำงานของเอเจนต์หลายตัวแบบเนทีฟก็เริ่มปรากฏขึ้นแล้ว

ในฐานะระบบที่สามารถให้เหตุผล วางแผน และดำเนินการได้ เอเจนต์กำลังค่อยๆ กลายเป็นกระบวนทัศน์ทั่วไปสำหรับการประยุกต์ใช้ AI ในโลกแห่งความเป็นจริง ตั้งแต่ผู้ช่วยเขียนโปรแกรมไปจนถึงโค้ชสุขภาพส่วนตัว แอปพลิเคชัน AI กำลังเปลี่ยนจากการถามตอบครั้งเดียวไปสู่การโต้ตอบหลายขั้นตอนอย่างต่อเนื่อง แม้ว่านักวิจัยจะใช้เมตริกที่กำหนดไว้เพื่อเพิ่มความแม่นยำของโมเดลแมชชีนเลิร์นนิงแบบดั้งเดิมมาเป็นเวลานาน แต่เอเจนต์ AI ได้นำความซับซ้อนใหม่ๆ เข้ามา

ต่างจากการทำนายแบบแยกส่วน เอเจนต์ AI ต้องรับมือกับการโต้ตอบหลายขั้นตอนอย่างต่อเนื่อง ซึ่งข้อผิดพลาดเพียงครั้งเดียวอาจก่อให้เกิดปฏิกิริยาลูกโซ่ตลอดทั้งเวิร์กโฟลว์ การเปลี่ยนแปลงนี้กระตุ้นให้เราคิดไกลกว่าความแม่นยำมาตรฐาน: ออกแบบระบบเหล่านี้อย่างไรจึงจะได้ประสิทธิภาพสูงสุด?

ในทางปฏิบัติ เรามักพึ่งพาวิธีฮิวริสติก เช่น สมมติฐานที่ว่า “ยิ่งมีเอเจนต์มากยิ่งดี” โดยเชื่อว่าการเพิ่มเอเจนต์ผู้เชี่ยวชาญจะช่วยปรับปรุงผลลัพธ์ได้อย่างต่อเนื่อง ก่อนหน้านี้มีเอกสารวิชาการชี้ให้เห็นว่าประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) จะเพิ่มขึ้นตามจำนวนเอเจนต์ที่เพิ่มขึ้น และความร่วมมือของเอเจนต์หลายตัว “มักจะทำได้ดีกว่าประสิทธิภาพของเอเจนต์เดี่ยวผ่านการให้เหตุผลแบบรวมกลุ่ม”

ในเอกสารวิชาการใหม่ของ Google DeepMind นักวิจัยได้ท้าทายสมมติฐานนี้ ผ่านการประเมินควบคุมขนาดใหญ่กับคอนฟิกูเรชันเอเจนต์ 180 แบบ DeepMind ได้สรุปหลักการขยายขนาดเชิงปริมาณแรกสำหรับระบบเอเจนต์ ซึ่งเปิดเผยว่าวิธีการ “เพิ่มจำนวนเอเจนต์” มักจะเจอกับจุดอิ่มตัว และหากไม่สอดคล้องกับคุณลักษณะเฉพาะของงาน อาจทำให้ประสิทธิภาพลดลงอีกด้วย

ความก้าวหน้าของ DeepMind: คอขวดของระบบมัลติบอดี้ขนาดใหญ่ปรากฏขึ้นและการจับคู่งานกลายเป็นตัวชี้วัดประสิทธิภาพที่สำคัญ

เอกสารวิชาการ: Towards a Science of Scaling Agent Systems
ลิงก์: https://arxiv.org/abs/2512.08296

นิยามการประเมิน “เอเจนต์”

เพื่อทำความเข้าใจว่าเอเจนต์ขยายขนาดอย่างไร นักวิจัยได้นิยามองค์ประกอบของ “งานเอเจนต์” ก่อน การทดสอบมาตรฐานแบบคงที่แบบดั้งเดิมวัดระดับความรู้ของโมเดล แต่ไม่สามารถจับความซับซ้อนของการใช้งานได้ พวกเขาเชื่อว่างานเอเจนต์ต้องมีคุณสมบัติเฉพาะสามประการ:

การโต้ตอบหลายขั้นตอนอย่างต่อเนื่องกับสภาพแวดล้อมภายนอก
การรวบรวมข้อมูลแบบวนซ้ำภายใต้เงื่อนไขการสังเกตบางส่วน
การปรับปรุงกลยุทธ์แบบปรับตัวตามผลตอบรับจากสภาพแวดล้อม

นักวิจัยได้ประเมินสถาปัตยกรรมทั่วไปห้าแบบ: ระบบเอเจนต์เดี่ยวหนึ่งแบบ (SAS) และรูปแบบเอเจนต์หลายตัวสี่รูปแบบ (อิสระ, รวมศูนย์, กระจายศูนย์ และแบบผสม) และทดสอบในเกณฑ์มาตรฐานที่แตกต่างกันสี่รายการ รวมถึง Finance-Agent (การให้เหตุผลทางการเงิน), BrowseComp-Plus (การนำทางเว็บ), PlanCraft (การวางแผน) และ Workbench (การใช้เครื่องมือ) สถาปัตยกรรมเอเจนต์ถูกกำหนดไว้ดังนี้:

เอเจนต์เดี่ยว (SAS): เอเจนต์อิสระหนึ่งตัวที่ใช้สตรีมความจำแบบรวมศูนย์เพื่อดำเนินการให้เหตุผลและดำเนินการทั้งหมดตามลำดับ
อิสระ: เอเจนต์หลายตัวประมวลผลงานย่อยแบบขนานกัน โดยไม่สื่อสารกัน และรวบรวมผลลัพธ์เฉพาะในตอนท้าย
รวมศูนย์: แบบจำลอง “ศูนย์กลางและรัศมี” ที่มีผู้ประสานงานกลางมอบหมายงานให้ผู้ปฏิบัติงานและรวบรวมผลลัพธ์ของพวกเขา
กระจายศูนย์: เครือข่ายแบบเพียร์ทูเพียร์ที่เอเจนต์สื่อสารกันโดยตรง แชร์ข้อมูลและบรรลุฉันทามติ
แบบผสม: รวมการกำกับดูแลแบบลำดับชั้นและการประสานงานแบบเพียร์ทูเพียร์เพื่อสร้างสมดุลระหว่างการควบคุมจากศูนย์กลางและการดำเนินการที่ยืดหยุ่น

การศึกษานี้ประเมินสถาปัตยกรรมเอเจนต์ทั่วไปห้าแบบ และสรุปความซับซ้อนในการคำนวณ ค่าใช้จ่ายในการสื่อสาร และกลไกการประสานงาน k = จำนวนการวนซ้ำสูงสุดของแต่ละเอเจนต์, n = จำนวนเอเจนต์, r = จำนวนรอบของผู้ประสานงาน, d = จำนวนรอบการอภิปราย, p = จำนวนรอบการสื่อสารแบบเพียร์ทูเพียร์, m = จำนวนคำขอแบบเพียร์ทูเพียร์โดยเฉลี่ยต่อรอบ ค่าใช้จ่ายในการสื่อสารนับจำนวนการแลกเปลี่ยนข้อความระหว่างเอเจนต์ สถาปัตยกรรมอิสระบรรลุการประมวลผลแบบขนานสูงสุดด้วยการประสานงานขั้นต่ำ สถาปัตยกรรมกระจายศูนย์ใช้รอบการอภิปรายตามลำดับ สถาปัตยกรรมแบบผสมรวมการควบคุมของผู้ประสานงานและการสื่อสารแบบเพียร์ทูเพียร์แบบเจาะจง

ผลลัพธ์: “เพิ่มเอเจนต์” เป็นเพียงตำนาน

เพื่อวัดปริมาณผลกระทบของความสามารถของโมเดลต่อประสิทธิภาพของเอเจนต์ DeepMind ได้ประเมินประสิทธิภาพของสถาปัตยกรรมเหล่านี้บนตระกูลโมเดลหลักสามตระกูล (OpenAI GPT, Google Gemini และ Anthropic Claude) ผลลัพธ์เผยให้เห็นความสัมพันธ์ที่ซับซ้อนระหว่างความสามารถของโมเดลกับกลยุทธ์การประสานงาน

ดังแสดงในรูปด้านล่าง แม้ว่าประสิทธิภาพมักจะเพิ่มขึ้นตามความสามารถของโมเดลที่เพิ่มขึ้น แต่ระบบเอเจนต์หลายตัวไม่ใช่ทางออกที่ดีที่สุดเสมอไป — ขึ้นอยู่กับการกำหนดค่าที่เฉพาะเจาะจง พวกเขาอาจปรับปรุงประสิทธิภาพได้อย่างมาก หรือลดลงอย่างไม่คาดคิด

การเปรียบเทียบประสิทธิภาพของตระกูลโมเดลหลักสามตระกูล (OpenAI GPT, Google Gemini, Anthropic Claude) แสดงให้เห็นว่าสถาปัตยกรรมเอเจนต์ที่แตกต่างกันสามารถขยายขนาดได้อย่างไรเมื่อความฉลาดของโมเดลเพิ่มขึ้น โดยที่ระบบเอเจนต์หลายตัวอาจปรับปรุงหรือลดประสิทธิภาพลงได้ขึ้นอยู่กับการกำหนดค่า

ผลลัพธ์ด้านล่างเปรียบเทียบประสิทธิภาพของสถาปัตยกรรมห้าแบบในโดเมนต่างๆ (เช่น การท่องเว็บและการวิเคราะห์ทางการเงิน) แผนภาพกล่องแสดงการกระจายของความแม่นยำสำหรับแต่ละวิธี ในขณะที่เปอร์เซ็นต์แสดงถึงการปรับปรุง (หรือลดลง) สัมพัทธ์ของทีมเอเจนต์หลายตัวเมื่อเทียบกับฐานเอเจนต์เดี่ยว ข้อมูลเหล่านี้ชี้ให้เห็นว่าในขณะที่การเพิ่มเอเจนต์สามารถปรับปรุงประสิทธิภาพของงานแบบขนานได้อย่างมีนัยสำคัญ แต่ในกระบวนการที่ต้องทำตามลำดับมากขึ้น มักจะนำไปสู่ผลตอบแทนที่ลดลง หรือแม้กระทั่งประสิทธิภาพที่ลดลง

ประสิทธิภาพตามงานเฉพาะบ่งชี้ว่าการประสานงานเอเจนต์หลายตัวได้ผลกำไรที่สำคัญ (+81%) ในงานที่สามารถประมวลผลแบบขนานได้ (เช่น Finance-Agent) แต่ประสิทธิภาพลดลง (-70%) ในงานที่ต้องทำตามลำดับ (เช่น PlanCraft)

หลักการจัดแนว

สำหรับงานที่สามารถประมวลผลแบบขนานได้ เช่น การให้เหตุผลทางการเงิน (ตัวอย่างเช่น เอเจนต์ที่แตกต่างกันสามารถวิเคราะห์แนวโน้มรายได้ โครงสร้างต้นทุน และการเปรียบเทียบตลาดได้พร้อมกัน) การประสานงานแบบรวมศูนย์ช่วยปรับปรุงประสิทธิภาพได้ 80.9% เมื่อเทียบกับเอเจนต์เดี่ยว ความสามารถในการแบ่งปัญหาที่ซับซ้อนออกเป็นงานย่อยทำให้เอเจนต์สามารถทำงานได้อย่างมีประสิทธิภาพมากขึ้น

บทลงโทษตามลำดับ

ในทางตรงกันข้าม ในงานที่ต้องการการให้เหตุผลตามลำดับที่เข้มงวด (เช่น การวางแผนใน PlanCraft) ประสิทธิภาพของรูปแบบเอเจนต์หลายตัวทุกแบบที่นักวิจัยทดสอบลดลง 39% ถึง 70% ในกรณีเหล่านี้ ค่าใช้จ่ายในการสื่อสารจะขัดจังหวะกระบวนการให้เหตุผล ส่งผลให้ “งบประมาณทางปัญญา” ที่จำเป็นสำหรับงานจริงไม่เพียงพอ

จุดอิ่มตัวการใช้เครื่องมือ

นักวิจัยของ DeepMind พบ “การแลกเปลี่ยนการประสานงานเครื่องมือ” เมื่องานต้องการเครื่องมือมากขึ้น (ตัวอย่างเช่น เอเจนต์เข้ารหัสที่ต้องการเข้าถึงเครื่องมือมากกว่า 16 ชนิด) “ต้นทุน” ในการประสานงานเอเจนต์หลายตัวจะเพิ่มขึ้นอย่างไม่สมส่วน

คุณลักษณะด้านความปลอดภัย

บางทีสิ่งที่สำคัญที่สุดสำหรับการใช้งานจริง งานนี้พบความสัมพันธ์ระหว่างสถาปัตยกรรมและความน่าเชื่อถือ DeepMind วัดอัตราการขยายข้อผิดพลาด ซึ่งคืออัตราที่ข้อผิดพลาดของเอเจนต์หนึ่งตัวแพร่กระจายไปยังผลลัพธ์สุดท้าย

ตัวชี้วัดที่ครอบคลุมข้ามสถาปัตยกรรมแสดงให้เห็นว่าระบบรวมศูนย์บรรลุความสมดุลที่ดีที่สุดระหว่างอัตราความสำเร็จและการควบคุมข้อผิดพลาด ในขณะที่ระบบเอเจนต์หลายตัวแบบอิสระขยายข้อผิดพลาดได้สูงสุดถึง 17.2 เท่า

การศึกษาพบว่าระบบเอเจนต์หลายตัวแบบอิสระ (เอเจนต์ทำงานแบบขนานโดยไม่สื่อสารกัน) ขยายข้อผิดพลาด 17.2 เท่า เนื่องจากขาดกลไกการตรวจสอบซึ่งกันและกัน ข้อผิดพลาดจึงแพร่กระจายแบบลูกโซ่อย่างควบคุมไม่ได้ ระบบรวมศูนย์ (ที่มีผู้ประสานงาน) ควบคุมการขยายตัวนี้ไว้ที่ 4.4 เท่า ผู้ประสานงานทำหน้าที่เป็น “จุดคอขวดการตรวจสอบ” ที่ดักจับข้อผิดพลาดก่อนที่จะแพร่กระจาย

โมเดลการทำนายสำหรับการออกแบบเอเจนต์

สุดท้าย ผู้เขียนไม่ได้จำกัดอยู่แค่การวิเคราะห์ย้อนหลัง แต่ได้พัฒนาโมเดลการทำนาย (R² = 0.513) ที่ใช้คุณสมบัติงานที่วัดได้ เช่น จำนวนเครื่องมือและความสามารถในการแยกส่วน เพื่อทำนายว่าสถาปัตยกรรมใดจะทำงานได้ดีที่สุด โมเดลนี้สามารถระบุกลยุทธ์การประสานงานที่ดีที่สุดสำหรับ 87% ของคอนฟิกูเรชันงานที่ไม่ได้เห็นมาก่อนได้อย่างถูกต้อง

นี่ชี้ให้เห็นว่าเรากำลังมุ่งหน้าสู่วิทยาศาสตร์ใหม่ของการขยายขนาดเอเจนต์ นักพัฒนาไม่จำเป็นต้องคาดเดาอีกต่อไปว่าจะใช้คลัสเตอร์เอเจนต์หรือโมเดลเดี่ยวที่ทรงพลัง แต่สามารถตัดสินใจทางวิศวกรรมตามหลักการได้ โดยพิจารณาจากคุณลักษณะของงาน โดยเฉพาะการพึ่งพาลำดับและความหนาแน่นของเครื่องมือ

สรุป

ในขณะที่โมเดลพื้นฐานเช่น Gemini พัฒนาอย่างต่อเนื่อง การวิจัยของ Google DeepMind แสดงให้เห็นว่าโมเดลที่ฉลาดขึ้นไม่ได้แทนที่ระบบเอเจนต์หลายตัว แต่เร่งการพัฒนาของพวกมัน และสิ่งนี้จะเกิดขึ้นได้ก็ต่อเมื่อมีสถาปัตยกรรมที่ถูกต้องเท่านั้น โดยการเปลี่ยนจากวิธีการแบบฮิวริสติกไปเป็นหลักการเชิงปริมาณ เราสามารถสร้างเอเจนต์ AI รุ่นต่อไปได้ ซึ่งไม่เพียงแต่มีจำนวนมากขึ้น แต่ยังฉลาดขึ้น ปลอดภัยขึ้น และมีประสิทธิภาพมากขึ้น

ติดตาม “Whale Habitat” Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง