Baidu Wenxin เปิดตัวสถาปัตยกรรม Group-MAS แบบแรก: กลุ่ม Multi-Agent จะปรับปรุงฉากความร่วมมือของ AI อย่างไร

2026年2月2日 am11:24 • ข่าวสารอุตสาหกรรม AI • 177 views

ในกลุ่มแอป Wenxin เมื่อเร็วๆ นี้ มี “AI หลายตัว” อยู่ไม่น้อย

กลุ่มนี้ไม่ใช่กลุ่มทั่วไป แต่เป็นฟีเจอร์แชทกลุ่ม “หลายคน, หลาย Agent” แห่งแรกในอุตสาหกรรม ที่แอป Wenxin กำลังทดสอบภายในอยู่ในขณะนี้

จะอธิบายมันอย่างไรให้ตรงที่สุด? เมื่อคุณเข้าสู่กลุ่มนี้ ก็เหมือนเข้าสู่ “สำนักงานย่อมๆ” แห่งหนึ่ง ที่มีเจ้าหน้าที่ Agent หลายคนพร้อมปฏิบัติหน้าที่ตลอดเวลา แต่ละคนมีหน้าที่ของตัวเอง สามารถทำงานแทนคุณจริงๆ ช่วยคุณคิดแผน และยังมีประสิทธิภาพการสื่อสารที่สูงมาก

ประโยชน์ของมันค่อนข้างเป็นรูปธรรม

เช่น ในช่วงตรวจสุขภาพต้นปี ครอบครัวกังวลใจกับลูกศรหลายอันในรายงานผล กลุ่มไลน์ญาติพี่น้องพูดคุยกันจ้อไม่หยุด ความวิตกกังวลก็ยิ่งเพิ่มพูนจากการแชร์และการคาดเดา ในเวลานี้ คุณก็สามารถสร้างกลุ่ม Wenxin ขึ้นมาได้ทันที

เมื่อใดก็ตามที่มีคำถามเกี่ยวกับสุขภาพ เช่น “ค่าผิดปกติต้องกังวลไหม” ปรากฏขึ้นในการสนทนาของทุกคน Agent ผู้ช่วยแชทกลุ่ม ที่ออนไลน์อยู่เดิมจะดึง Agent ผู้จัดการสุขภาพ Wenxin เข้ากลุ่มทันที โดยใช้ภาษาพูดทั่วไปอธิบายศัพท์เทคนิค แยกแยะว่าปัญหาใดที่ต้องใส่ใจ และปัญหาใดที่ไม่ต้องกังวลมากเกินไป

วิธีนี้ทั้งตอบข้อสงสัยเฉพาะของผู้ที่เกี่ยวข้อง และยังช่วยคลายความตึงเครียดของญาติพี่น้องที่เฝ้าดูอยู่ ข้อมูลเชิงวิชาการถูกเปลี่ยนเป็นคำแนะนำที่เข้าใจได้และนำไปปฏิบัติได้จริง

ยกตัวอย่างอีกสักตัวอย่าง เพื่อนหลายคนอยากไปเที่ยวแบบ特种兵 (特种兵式出游) ในวันหยุดสุดสัปดาห์ การวางแผนทริปในกลุ่มแต่ก่อน มักจะวนเวียนอยู่กับการ “อะไรก็ได้” และ “ทำไมไม่ได้สักอย่าง”

แต่ถ้าสร้างกลุ่มแชท Wenxin ขึ้นมา เมื่อทุกคนพูดคุยกันว่า “ฤดูกาลนี้ที่ไหนคนน้อยและวิวสวย” “จะไปทางไหนไม่หลง” โดยไม่ต้องมานั่งแท็ก (@) เอง ผู้ช่วยแชทกลุ่มจะตรวจจับความต้องการและให้คำแนะนำโดยอัตโนมัติ ช่วยคุณวางแผนทริป ค้นหาข้อมูลแบบเรียลไทม์ เป็นต้น

ในกลุ่มยังมีผู้ช่วยส่วนตัว Wenxin Agent เฉพาะตัวสำหรับสมาชิกแต่ละคนอีกด้วย ซึ่งมันจะจดจำความชอบส่วนตัวของคุณ ทำหน้าที่เป็นผู้ช่วยส่วนตัวที่ติดตามคุณไปทุกที่ นั่นหมายความว่าการสนทนาของทุกคนจะได้รับการเสริมและทำงานร่วมกันจากหลาย Agent แบบเรียลไทม์ ทำให้สามารถโฟกัสได้รวดเร็ว และสร้างแผนการที่ปฏิบัติได้จริง

นี่ก็สอดคล้องกับตำแหน่งที่ทีม Wenxin ของ Baidu กำหนดให้ฟีเจอร์แชทกลุ่มนี้ — เป้าหมายไม่ใช่ “การเสริมพลัง AI ให้กับสถานการณ์โซเชียล” แต่คือ “การสร้างโครงสร้างพื้นฐานใหม่แบบ AI-native สำหรับสถานการณ์การทำงานร่วมกัน”

Wenxin กำลังพยายามเพิ่มเลเยอร์การดำเนินการที่สำคัญให้กับแชทกลุ่ม ผลักดันให้มันเปลี่ยนจากสถานที่พูดคุยทั่วไป ไปเป็นศูนย์กลางการดำเนินการที่สามารถทำงานและส่งมอบผลลัพธ์ได้

ปัจจุบัน ฟีเจอร์นี้ได้ขยายขอบเขตการทดสอบภายในแล้ว และสามารถทดลองใช้ได้ในเวอร์ชันล่าสุดของแอป Wenxin

แต่ฟีเจอร์ที่ดูเหมือนจะสมเหตุสมผลนี้ ทำไมในอุตสาหกรรมจึงมีผู้ที่นำมาใช้จริงน้อย? การนำ Agent หลายตัวเข้าไปในกลุ่ม ทีม Wenxin ของ Baidu ทำได้อย่างไรกันแน่?

การนำ AI เข้ากลุ่ม ยากตรงไหน? แก้ไขอย่างไร?

การนำ AI เข้าไปในแชทกลุ่ม ต้องเอาชนะอุปสรรคทางเทคนิคหลายชั้นอย่างเป็นระบบ

โดยพื้นฐานแล้ว แชทกลุ่มเป็นสถานการณ์ที่มีเอนโทรปีสูง ไม่มีโครงสร้าง และมีหลายคนคุยพร้อมกัน ซึ่งแตกต่างโดยพื้นฐานจากการสนทนาแบบตัวต่อตัว (1v1) ดั้งเดิม เปรียบเสมือนการให้นักเรียนหัวกะทิหลายคนจู่ๆ ก็วิ่งเข้าไปในตลาดสด ที่นี่ข้อมูลวุ่นวาย เสียงพูดคุยจ้อไม่หยุด หัวข้อกระโดดไปมา ในข้อความหลายสิบหรือหลายร้อยข้อความ แม้แต่มนุษย์ยังมักจะสรุปไม่ได้ AI ก็คงจะมึนงงเช่นกัน

การแยกแยะคำพูดที่แตกต่างกันของคนต่างคน และให้ Agent ต่างๆ ทำงานร่วมกันและแบ่งหน้าที่ได้อย่างรวดเร็ว จากนั้นแก้ไขปัญหาของคุณ แล้วก็แก้ไขปัญหาของคุณอีกคน มันไม่ใช่เรื่องง่าย

รูปแบบความฉลาดเดี่ยว (单体智能范式) ของโมเดลใหญ่ดั้งเดิม กับความต้องการการคำนวณเชิงสังคม (社会性计算需求) ของสถานการณ์แชทกลุ่ม มีความไม่ตรงกันโดยพื้นฐาน การจะเอาชนะมันได้ ไม่สามารถพึ่งเพียงการทำให้โมเดลฉลาดขึ้นเท่านั้น แต่ต้องสร้างวิธีการทำงานพื้นฐานใหม่ที่เหมาะกับ “การใช้ชีวิตเป็นกลุ่ม” ให้กับ AI

ดังนั้น ทีม Wenxin ของ Baidu จึงเสนอ Group-MAS (Multi-Agent System) ซึ่งไม่ใช่แค่ Chatbot ธรรมดา แต่เป็นสภาพแวดล้อมรันไทม์อัจฉริยะที่จัดการกระบวนการ (Agents), หน่วยความจำ (Context), อินพุต/เอาต์พุต (User Streams) และสิทธิ์ (Permissions)

ด่านแรก: ข้อมูลปนเปกัน AI จะฟังเข้าใจได้อย่างไร?

ในแชทกลุ่ม คำสั่งหลักมักจะจมหายไปในเสียงรบกวนจากการพูดคุยทั่วไป หากใช้หน้าต่างบริบท (Context Window) แบบ FIFO (เข้าก่อนออกก่อน) เดี่ยวและเชิงเส้นเหมือน AI โมเดลใหญ่ดั้งเดิม จะทำให้การสนทนาของทุกคนในกลุ่ม ไม่ว่าจะเป็น “ช่วยเขียนโค้ดให้หน่อย” หรือ “เที่ยงกินอะไรดี” ถูกประมวลผลรวมกันเป็นหม้อเดียว ส่งผลให้คำสั่งสำคัญถูกปนเปื้อน และนำไปสู่การหลอนของโมเดล (Model Hallucination) ให้ผลลัพธ์ที่แปลกประหลาด

ขั้นตอนแรกที่ทีม Wenxin ใช้แก้ปัญหานี้ คือการละทิ้งแนวคิดที่ยัดข้อความทั้งหมดเข้าไปในหน้าต่างบริบทเดียว แต่ใช้สถาปัตยกรรม Hub-and-Spoke (星型拓扑) แทน

Hub (โหนดศูนย์กลาง) สอดคล้องกับ Master โหนดศูนย์กลางใน Group-MAS ซึ่งเป็น “สมอง + เราเตอร์ + คอร์” ของทั้งระบบ ข้อความแชทกลุ่มทั้งหมด คำสั่งผู้ใช้ จะถูกรวมมาที่นี่ก่อน มันไม่ทำหน้าที่เฉพาะเจาะจงโดยตรง แต่รับผิดชอบการจัดการภาพรวม

หลังจากข้อความเข้ามา Master จะทำการแยกและจัดหมวดหมู่ในระดับความหมายก่อน

เบื้องหลังคือเทคโนโลยี Semantic Slicing (การแบ่งส่วนความหมาย) ที่ทีมพัฒนาขึ้น พูดง่ายๆ ก็คือ Master เหมือนโปรดิวเซอร์ ที่ตัดบทสนทนาเกี่ยวกับ “การพูดคุยโค้ด” ในกลุ่มเข้าไปใน Slice A ตัดบทสนทนา “การพูดคุยชีวิตประจำวัน” เข้าไปใน Slice B ข้อมูลประเภทต่างๆ จะถูกแยกออกเป็นหลายช่องทางที่ทำงานขนานกันในเชิงตรรกะ

Spoke (โหนดสาขา) สอดคล้องกับ Agent และเครื่องมือต่างๆ ในระบบ พวกมันคือผู้ปฏิบัติงานเฉพาะเจาะจง แต่ละตัวมีทักษะเฉพาะของตัวเอง เชื่อมต่อกับ Master ผ่านอินเทอร์เฟซมาตรฐาน และรับงานที่ Master แจกจ่าย

เมื่อ Agent ตัวใดตัวหนึ่งจำเป็นต้องเข้ามาเกี่ยวข้อง สิ่งที่มันได้รับไม่ใช่บันทึกการแชทดั้งเดิมของทั้งกลุ่ม แต่เป็นเพียงส่วนแบ่งความหมาย (Semantic Slice) สั้นๆ ที่เกี่ยวข้องกับงานของตัวเองเท่านั้น การรบกวนจากข้อมูลที่ไม่เกี่ยวข้องจะถูกปิดกั้นโดยสิ้นเชิง

จากมุมมองของระบบ นี่เทียบเท่ากับการสร้างพื้นที่บริบทเฉพาะตัวให้กับแต่ละ Agent จากมุมมองประสบการณ์ สิ่งที่แสดงออกมาคือ AI เริ่มฟังเข้าใจและสามารถจับคู่กับความตั้งใจจริงของทุกคน ทุกประโยคในแชทกลุ่มได้

แต่การฟังเข้าใจเป็นเพียงขั้นตอนแรก

ด่านที่สอง: Agent ต่างตัวกัน จะทำงานร่วมกันอย่างมีประสิทธิภาพได้อย่างไร?

เพื่อให้เกิดการทำงานร่วมกันอย่างมีประสิทธิภาพจริงๆ ยังต้องแก้ไขปัญหาที่ละเอียดอ่อนยิ่งขึ้น: Agent ต่างตัวกันจะทำงานร่วมกันเหมือนทีมที่ผ่านการฝึกมาอย่างดี หรือแม้กระทั่งช่วยเหลือกันเองได้อย่างไร? เบื้องหลังต้องการการสนับสนุนจากสถาปัตยกรรมที่เป็นหนึ่งเดียวและกลไกการจัดลำดับงานแบบแบ่งระดับ

ประการแรก Group-MAS สร้างสถาปัตยกรรมแบบประกาศ (声明式架构) ที่เป็นหนึ่งเดียวและระบบมาตรฐาน:

ในด้านหนึ่ง Agent อัจฉริยะทั้งหมดปฏิบัติตามการจัดการวงจรชีวิต Agent Lifecycle FSM (Finite State Machine) ชุดเดียวกัน เพื่อรับประกันความเสถียรของระบบ

ในอีกด้านหนึ่ง ผ่านความเข้ากันได้ของโปรโตคอล MCP Native และคุณสมบัติ Hot-Pluggable (เชื่อมต่อแบบร้อน) MCP Server มาตรฐานใดๆ ก็สามารถเชื่อมต่อได้ด้วยคลิกเดียว เพิ่ม Agent ใหม่เพียงอัปโหลด JSON Schema โดยไม่ต้องรีสตาร์ท Kernel ซึ่งเพิ่มความสามารถในการขยายระบบได้อย่างมาก

ในขั้นตอนการทำงานร่วมกัน เมื่อผู้ใช้ส่งคำขอที่ซับซ้อนในแชทกลุ่ม Master จะแบ่งระดับงานตาม Cognitive Entropy (เอนโทรปีการรับรู้) ก่อน:

สำหรับงาน L1 ง่ายๆ (การดำเนินการอะตอม) เชื่อมต่อตรงกับ Agent หรือใช้ Zero-Shot ToolCall
สำหรับงาน L2 ที่มีความซับซ้อนปานกลาง (ต้องการการตรวจสอบ) ใช้วิธี Deep Research แบบเบา เช่น Map-Reduce, การค้นหาขนานกัน เพื่อรวบรวมข้อมูล
สำหรับงาน L3 ที่ซับซ้อนและยาวนาน (มีความซับซ้อนสูง) จะสร้างแผนผังงาน (Task Tree) เพื่อจัดเรียงอย่างละเอียด แยกเป็นงานย่อยและกำหนดความสัมพันธ์การพึ่งพาอย่างชัดเจน

บนพื้นฐานนี้ Master จะวิเคราะห์ความหมายของข้อความ ระบุเจตนาย่อยหลายอย่างที่อยู่ในนั้น จากนั้นมันจะไม่ให้ผู้ช่วยสารพัดประโยชน์ตัวเดียวรับงานทั้งหมด แต่จะกำหนดเส้นทางงานย่อยไปยังสแต็กทักษะต่างๆ ตามคุณลักษณะของงานย่อย

Agent เหล่านี้ที่ถูกเลือกจะทำงานของตัวเองแบบขนานกัน ดังที่กล่าวไว้ก่อนหน้านี้ สิ่งที่พวกเขาได้รับจาก Master คือบริบทที่บริสุทธิ์ซึ่งผ่านการแบ่งส่วนความหมายแล้ว และมีความเกี่ยวข้องสูงกับงานของตัวเอง ดังนั้นจึงสามารถประมวลผลได้อย่างมีสมาธิ

หลังจากดำเนินการเสร็จสิ้น พวกเขาจะส่งผลลัพธ์กลับไปยัง Master Master ทำหน้าที่เป็นผู้รวบรวมและเรียบเรียงขั้นสุดท้าย โดยรวบรวมผลลัพธ์ที่หลากหลายรูปแบบจาก Agent ต่างๆ ให้เป็นแผนงานที่สมบูรณ์ โครงสร้างชัดเจน และภาษาที่เป็นหนึ่งเดียว จากนั้นส่งมอบให้ผู้ใช้ผ่านอินเทอร์เฟซที่เป็นหนึ่งเดียวของ “ผู้ช่วยแชทกลุ่ม”

การทำงานร่วมกันเชิงรุกที่ก้าวไปอีกขั้นแสดงให้เห็นในเรื่องนี้: Agent อัจฉริยะเฉพาะทางรับผิดชอบปัญหาทางวิชาชีพ และหากงานมีลักษณะความชอบส่วนบุคคลที่ชัดเจน Agent ส่วนตัวจะจดจำความชอบและข้อจำกัดของแต่ละคน เมื่อ Master แจกจ่ายงาน มันจะกำหนดเส้นทางงานไปยัง “ผู้ช่วยส่วนตัว” ของผู้ใช้เป็นลำดับแรก ผู้ช่วยส่วนตัวนี้ซึ่งอาศัยความทรงจำระยะยาวเกี่ยวกับประวัติการสนทนาและความชอบของผู้ใช้ สามารถให้ผลลัพธ์ที่เป็นส่วนตัวมากขึ้นได้

ด่านที่สาม: งานชนกัน ทรัพยากรจะแบ่งอย่างไร?

หลังจากแก้ไขปัญหาการฟังคำสั่งและการมอบหมายงานแล้ว สถานการณ์ที่ยากลำบากยิ่งขึ้นก็มาถึง: หากมีหลายคนในกลุ่มมอบงานพร้อมกัน — “ตรวจราคาหุ้น”, “ออกแบบโลโก้”, “คำนวณอัตราส่วน P/E ด้วย” ระบบควรทำอย่างไร?

วิธีการดั้งเดิมอาจเป็นการบล็อกคิว (พิมพ์อยู่ไม่สามารถตอบสนอง) ให้ผู้ใช้รอ หรือขาดการจัดตารางงานที่เป็นหนึ่งเดียวทำให้เกิดการแย่งชิงทรัพยากร ระบบค้างหรือล่ม

กลยุทธ์หลักของ Wenxin ของ Baidu คือการนำแก่นสำคัญของการออกแบบ CPU ของคอมพิวเตอร์ — การดำเนินการนอกลำดับ (Out-of-Order Execution) และการทำนายสาขา (Branch Prediction) มาใช้ สร้างระบบจัดตารางงานอัจฉริยะ

นี่ถือเป็นความแตกต่างที่ใหญ่ที่สุดระหว่าง Group-MAS กับระบบ Agent ทั่วไป

ในระบบ Group-MAS เมื่อต้องเผชิญกับงานหลายชิ้นที่หลั่งไหลเข้ามาพร้อมกัน Master จะรักษาแผนภาพการพึ่งพางานแบบไดนามิก (Task Dependency Graph) ไว้ และทำการจัดตารางงานแบบ Pipeline ขนานกันโดยคำนึงถึงการพึ่งพา

มันสามารถมองเห็นความสัมพันธ์การพึ่งพาระหว่างงานทั้งหมดได้:

งานอิสระที่ไม่มีข้อจำกัด เช่น การตรวจราคาหุ้น จะเริ่มดำเนินการทันที
งานที่พึ่งพาอย่างมาก เช่น การคำนวณอัตราส่วน P/E ซึ่งต้องใช้ข้อมูลราคาหุ้น จะเข้าสู่สถานะรอคอย ทันทีที่งานก่อนหน้าสำเร็จ ผลลัพธ์จะถูกฉีดเป็นพารามิเตอร์อินพุตโดยอัตโนมัติ และปลดล็อกการดำเนินการทันที
งานที่มีการพึ่งพาไม่ชัดเจน เช่น การออกแบบโลโก้ “แบบที่เมื่อกี้” ระบบจะระงับและสอบถามผู้ใช้ หรือยืนยันโดยอิงตามบริบทประวัติ

กล่าวอีกนัยหนึ่ง ระบบไม่เรียงคิวอีกต่อไป แต่สร้าง “สะพานลอยงาน”: งานที่สามารถดำเนินการได้อย่างอิสระจะขึ้นสะพานทันที งานที่มีความสัมพันธ์การพึ่งพาจะรออยู่บนทางแยก และจะผ่านทันทีที่ข้อมูลมาถึง งานที่ไม่ชัดเจนจะสื่อสารและยืนยันก่อน

สิ่งนี้ทำให้แชทกลุ่ม AI หลุดพ้นจากรูปแบบถามตอบแบบแข็งทื่อ กลายเป็นศูนย์กลางอัจฉริยะที่สามารถประมวลผลงานซับซ้อนหลายอย่างพร้อมกันได้

ด่านที่สี่: Agent จะมี “สายตา” ได้อย่างไร?

ความท้าทายสุดท้ายที่กำหนดประสบการณ์ผู้ใช้โดยตรง:

จะทำให้ Agent เหมือนเพื่อนร่วมงานที่เก่งกาจ รู้จักเข้าแทรกในเวลาที่เหมาะสม ด้วยวิธีที่เหมาะสม แทนที่จะเป็นคนงุ่มง่ามที่ต้องถูกแท็ก (@) ซ้ำๆ หรือพูดแทรกในเวลาที่ไม่เหมาะสม?

คำตอบของ Wenxin ของ Baidu คือการปลูกฝังระบบความชอบสไ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง