Meta เปิดตัว Muse Spark อย่างยิ่งใหญ่: ปรับโครงสร้างสแต็กเทคโนโลยี AI ภายใน 9 เดือน โมเดลการให้เหตุผลแบบมัลติโมดัลนำพาหุ้นพุ่งสูง

4 hours ago • ข่าวสารอุตสาหกรรม AI • 14 views

Meta เปิดตัว Muse Spark: ปรับโครงสร้างสแต็กเทคโนโลยี AI ใหม่ทั้งชุดใน 9 เดือน โมเดลการให้เหตุผลแบบมัลติโมดัลนำพาหุ้นพุ่ง

หลังจากปรับโครงสร้างสแต็กเทคโนโลยีใหม่ทั้งชุดเป็นเวลา 9 เดือน Meta Superintelligence Lab นำโดย Alexandria Wang ได้เปิดตัวโมเดลแฟล็กชิปแรกของพวกเขา นั่นคือโมเดลมัลติโมดัลดั้งเดิม Muse Spark

Meta เปิดตัว Muse Spark อย่างยิ่งใหญ่: ปรับโครงสร้างสแต็กเทคโนโลยี AI ภายใน 9 เดือน โมเดลการให้เหตุผลแบบมัลติโมดัลนำพาหุ้นพุ่งสูง

การเปิดตัวโมเดลนี้ส่งผลเชิงบวกต่อตลาดทุนในทันที หุ้นของ Meta ปรับตัวขึ้นประมาณ 7% ภายในวันเดียว เคยพุ่งสูงสุดเกือบ 10% ในช่วงกลางวัน และปิดตลาดด้วยการปรับตัวขึ้นประมาณ 6%

เบื้องหลังการตอบรับอย่างอบอุ่นจากตลาดคือทีมงานอันเต็มไปด้วยดาวเด่นของ Muse Spark: Jason Wei ผู้เขียน Chain-of-Thought, Hyung Won Chung ผู้มีส่วนร่วมหลักของโมเดล o1, Yu Jiahui ผู้ที่ Meta จ้างมาด้วยเงินเดือนสูง และ Song Yang นักวิจัยชื่อดังในสาขา Diffusion Model เป็นต้น การรวมตัวของทีมระดับสูงนี้ชี้ให้เห็นเป้าหมายหลักอย่างชัดเจน นั่นคือ การให้เหตุผล

ตามที่ Jason Wei เปิดเผย เมื่อทีมเริ่มโครงการเมื่อ 9 เดือนที่แล้ว สิ่งแรกที่พวกเขาเขียนคือสคริปต์สำหรับโมเดล LLaMA ที่ใช้ในการให้เหตุผล ตอนนี้โมเดลเวอร์ชันสมบูรณ์นี้ก็ปรากฏตัวออกมาแล้ว

หลังจากขัดเกลาเป็นเวลา 9 เดือน Muse Spark ช่วยให้ Meta กลับสู่กลุ่มผู้นำในการทดสอบมาตรฐานของบุคคลที่สามอีกครั้ง ช่วยกู้ชื่อเสียงที่เสียไปจากผลงานที่ไม่ดีของ LLaMA 4

ที่น่าสังเกตคือ Meta เปิดตัวครั้งนี้ด้วยท่าทีที่ค่อนข้างระมัดระวัง ไม่ได้เน้นย้ำเกินไปว่าทำได้ “SOTA” (ระดับล้ำสมัยที่สุด) ในหลายๆ งาน แต่ชี้ให้เห็นอย่างเป็นกลางว่า: Muse Spark มีประสิทธิภาพแข็งแกร่งในด้านการรับรู้แบบมัลติโมดัล การให้เหตุผล การตอบคำถามด้านสุขภาพ และงานอัตโนมัติ แต่ในด้าน การเขียนโปรแกรม และความสามารถในการ ทำงานอัตโนมัติเป็นเวลานาน ยังคงมีช่องว่างเมื่อเทียบกับโมเดลระดับสูงของคู่แข่ง

นอกจากนี้ การเปิดตัว Muse Spark ยังปิดฉากการถกเถียงเรื่อง “กลยุทธ์โอเพ่นซอร์สโมเดลของ Meta” ที่มีมายาวนาน: โมเดลนี้เปิดตัวในรูปแบบปิด ขณะนี้ Muse Spark ได้เปิดให้บริการบนเว็บไซต์และแอปพลิเคชันอย่างเป็นทางการของ Meta โดย API จะเปิดให้เฉพาะพันธมิตรบางส่วนเท่านั้น

(อย่างไรก็ตาม Alexandria Wang ก็ได้ทิ้งความเป็นไปได้ไว้สำหรับอนาคต โดยกล่าวว่า “วางแผนที่จะโอเพ่นซอร์สเวอร์ชันต่อๆ ไปในอนาคต”)

การประเมินประสิทธิภาพ: กลับสู่กลุ่มผู้นำอีกครั้ง

ในฐานะโมเดลที่ทรงพลังที่สุดของ Meta จนถึงปัจจุบัน Muse Spark มีประสิทธิภาพโดดเด่นในสามด้านหลักในการประเมินของทางการและบุคคลที่สาม:

1. ความสามารถในการเข้าใจแบบมัลติโมดัล
ในงานมัลติโมดัลหลายงาน เช่น การทำความเข้าใจแผนภูมิ การจดจำเนื้อหาบนหน้าจอ คะแนนของมันอยู่ในอันดับหนึ่ง หรือไม่ต่างจากโมเดลอย่าง Gemini 3.1 Pro, GPT-5.4 มากนัก จากผลตอบรับการทดสอบของผู้ใช้ โมเดลนี้มีความเชี่ยวชาญเป็นพิเศษในการแปลงแบบร่างการออกแบบหรือแผนผังเป็นโค้ด

2. ความสามารถในการเรียกใช้เครื่องมือ
ผลการประเมินด้านการใช้เครื่องมือและการเรียกใช้ API มีประสิทธิภาพคล้ายคลึงกับความสามารถในการเข้าใจแบบมัลติโมดัล อยู่ในระดับแนวหน้า

3. ความสามารถในด้านการแพทย์
ด้วยความร่วมมือกับแพทย์กว่า 1,000 คน Muse Spark ทำคะแนนได้สูงสุดที่ 42.8 ใน HealthBench Hard ซึ่งเป็นเกณฑ์มาตรฐานการตอบคำถามสุขภาพแบบเปิด และอยู่ในอันดับต้นๆ ของชุดข้อมูลคำถามตอบด้านการแพทย์แบบมัลติโมดัล MedXpertQA MM

แน่นอน ตามที่ Meta ยอมรับเอง Muse Spark ยังมีจุดอ่อนในงานด้านการเขียนโปรแกรมและงานประเภทเอเจนต์ (Agent) เพื่อชดเชยช่องว่างนี้ให้มากที่สุด ทีมงานได้นำโหมดพิเศษที่เรียกว่า “Contemplating” (ไตร่ตรอง) มาใช้ โหมดนี้ให้เอเจนต์หลายตัวคิดเกี่ยวกับปัญหาเดียวกันพร้อมกัน จากนั้นรวบรวมผลลัพธ์และเลือกวิธีที่ดีที่สุด ในโหมดนี้ Muse Spark สามารถแข่งขันกับโหมดการให้เหตุผลขั้นสูงอย่าง Deep Think ของ Gemini และ Pro ของ GPT ได้

นอกจากนี้ Meta ยังเปิดตัว “โหมดช้อปปิ้ง” โดยไม่มีการประกาศล่วงหน้า Alexandria Wang กล่าวว่าโหมดนี้จะผสมผสานความชอบของผู้ใช้ต่อครีเอเตอร์และแบรนด์ที่ติดตามบน Instagram, Facebook, Threads เพื่อให้คำแนะนำการช้อปปิ้งแบบส่วนบุคคล

พร้อมกับการเปิดตัว Muse Spark หน่วยงานประเมินบุคคลที่สามก็ได้ให้คำวิจารณ์ หลังจากได้รับสิทธิ์การเข้าถึงล่วงหน้าและทำการทดสอบแล้ว สรุปได้ว่า: Meta กลับมาแล้ว! ในดัชนีวิเคราะห์ AI ที่สำคัญ คะแนนของ Muse Spark อยู่ในอันดับรองจาก Gemini 3.1 Pro, GPT-5.4 และ Claude Opus 4.6

รายละเอียดทางเทคนิค: เส้นทางปรับโครงสร้างใหม่ 9 เดือน

หัวใจของการพัฒนาความสามารถของ Muse Spark อยู่ที่การปรับโครงสร้างใหม่อย่างสมบูรณ์ที่ทีมทำในช่วง 9 เดือนที่ผ่านมา ซึ่งครอบคลุม โครงสร้างพื้นฐานใหม่ สถาปัตยกรรมโมเดลใหม่ และไปป์ไลน์ข้อมูลใหม่

สรุปประเด็นทางเทคนิคได้ดังนี้:
* การฝึกก่อนที่มีประสิทธิภาพ: ในขั้นตอนการฝึกก่อน Muse Spark สามารถบรรลุประสิทธิภาพระดับเดียวกันกับ LLaMA 4 โดยใช้ทรัพยากรการคำนวณ น้อยกว่า 10 เท่า
* การเรียนรู้แบบเสริมกำลังที่เสถียร: กระบวนการฝึกการเรียนรู้แบบเสริมกำลังแสดงให้เห็นถึงการปรับปรุงประสิทธิภาพที่ราบรื่นและคาดการณ์ได้ พร้อมด้วยความสามารถในการปรับตัวและขยายขอบเขตที่ดี
* การปรับปรุงการให้เหตุผลระหว่างการทดสอบ: ด้วยการนำกลไก “การลงโทษความยาวการคิด” โมเดลได้เรียนรู้ที่จะทำ “การบีบอัดความคิด” นั่นคือการใช้โทเค็นน้อยลงเพื่อแก้ปัญหาที่ซับซ้อน

Meta อธิบายในบล็อกทางเทคนิคว่า การปรับปรุงทั้งหมดมุ่งเป้าไปที่การเพิ่มประสิทธิภาพการคำนวณ เพื่อให้ทรัพยากรการคำนวณแต่ละหน่วยสร้างคุณค่ามากขึ้น จากการทดลองเปรียบเทียบด้วยเส้นโค้งการขยายขอบเขต “ทรัพยากรการคำนวณ-ประสิทธิภาพ” ที่ได้จากการประมาณด้วยโมเดลขนาดเล็ก พบว่า Muse Spark ต้องการทรัพยากรการคำนวณน้อยกว่าหนึ่งลำดับความสำคัญ (10.3 เท่า) เพื่อให้บรรลุประสิทธิภาพเทียบเท่ากับ LLaMA 4

ในขั้นตอนการเรียนรู้แบบเสริมกำลังหลังการฝึกก่อน สถาปัตยกรรมใหม่รับประกันความเสถียรของการฝึก เมื่อจำนวนก้าว RL เพิ่มขึ้น อัตราความสำเร็จของโมเดลในงานฝึกก็เพิ่มขึ้นแบบลอการิทึมเชิงเส้น ซึ่งบ่งชี้ว่ามันเพิ่มความน่าเชื่อถือโดยไม่ทำลายความหลากหลายของการให้เหตุผล ในงานที่ไม่เคยเห็นมาก่อน ความแม่นยำก็เพิ่มขึ้นเช่นกัน ซึ่งพิสูจน์ถึงความสามารถในการปรับตัว

เพื่อมอบความสามารถ “การให้เหตุผลระหว่างการทดสอบ” (การคิดไตร่ตรองก่อนเผชิญปัญหาซับซ้อน) ให้กับโมเดล ทีมงานก็ใช้การเรียนรู้แบบเสริมกำลังในการฝึกเช่นกัน เพื่อแก้ปัญหาที่กระบวนการให้เหตุผลใช้โทเค็นจำนวนมาก พวกเขาใช้กลยุทธ์สำคัญสองประการ:
1. การลงโทษเวลาในการคิด: ส่งเสริมให้โมเดลใช้เส้นทางการให้เหตุผลที่สั้นลงเพื่อได้คำตอบที่ถูกต้อง จึงเรียนรู้ที่จะบีบอัดเชนความคิด
2. การทำงานร่วมกันของเอเจนต์หลายตัว: ให้โมเดลหรือโมดูลหลายตัวทำงานร่วมกัน เพื่อเพิ่มประสิทธิภาพโดยรวมในขณะที่รักษาความเร็วในการตอบสนอง

ในการประเมินคณิตศาสตร์ระดับยากสูง เช่น AIME โมเดลแสดงพฤติกรรมวิวัฒนาการ “สามขั้นตอน” ที่น่าสนใจ: ในช่วงแรกมีแนวโน้มที่จะคิดนานขึ้น; หลังจากถูกกระตุ้นด้วยการลงโทษก็เรียนรู้ที่จะสรุปการให้เหตุผลให้กระชับ; ในที่สุดก็ปรับปรุงวิธีแก้ปัญหาเพิ่มเติมบนพื้นฐานที่มีประสิทธิภาพ บรรลุประสิทธิภาพที่แข็งแกร่งขึ้นด้วยทรัพยากรที่น้อยลง

ข้อบกพร่องที่ยังคงมีและกรณี “พลิกแพลง”

แม้จะมีความก้าวหน้าอย่างเห็นได้ชัด แต่ข้อบกพร่องของ Muse Spark ในงานเขียนโปรแกรมและงานเอเจนต์ก็ถูกเปิดเผยอย่างรวดเร็วหลังการเปิดตัว มีบางกรณีที่ไม่เป็นไปตามความคาดหวัง

ตัวอย่างเช่น มีผู้ใช้พยายามให้มันสร้างเว็บไซต์ ขอติดต่อกัน 3 ครั้งก็ไม่สามารถใช้งานพื้นฐานได้สำเร็จ แม้แต่หน้า frontend ง่ายๆ ก็ยังสร้างไม่ได้

ในงานเขียนโปรแกรมง่ายๆ อีกงานหนึ่ง (“เขียนฟังก์ชันการหาอนุพันธ์อัตโนมัติและโครงข่ายประสาทเทียมในไฟล์ Python ไฟล์เดียว”) Muse Spark สร้างโค้ดยาว一大段แต่รันไม่ได้ มีผู้ใช้ล้อเลียนว่ากระบวนการฝึกของมันดูเหมือนจะมีปัญหา หลังจากฝึกไป 1800 รอบ ฟังก์ชันการสูญเสียยังคงหยุดนิ่ง ไม่ได้เรียนรู้อย่างมีประสิทธิภาพ

(ในสภาวะปกติ เมื่อการฝึกดำเนินไป ฟังก์ชันการสูญเสียควรลดลงอย่างต่อเนื่อง ซึ่งบ่งชี้ว่าโมเดลกำลังเรียนรู้)

แล้วเพื่อนๆ ที่ได้ลองใช้แล้ว คิดอย่างไรกับโมเดลแรกของ Muse Spark?

ลิงก์ที่เกี่ยวข้อง:
– Introducing Muse Spark
– ความเห็นของ Jason Wei
– ความเห็นของ jhyuxm
– ความเห็นของ Dr. Yang Song

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/29372

Like (0)

0 0

Meta กลับมาอีกครั้ง! อเล็กซานเดอร์ หวัง อัจฉริยะชาวจีน นำทีมเปิดตัวโมเดล Muse Spark ที่ทรงพลังที่สุด เปิดศักราชใหม่แห่งปัญญาส่วนบุคคลขั้นสูง

Previous 4 hours ago

Claude Mythos สุดยอด! AI เรียนรู้เองจนพบช่องโหว่ Zero-Day หลายพันจุด ใช้งบเพียง 1 ใน 1,000 ของมนุษย์

Next 3 hours ago

ข่าวสารอุตสาหกรรม AI

MeepleLM: ระบบประเมินเกมกระดานเสมือนจริงด้วยโมเดลภาษาขนาดใหญ่ครั้งแรกบนกรอบ MDA และโปรไฟล์ผู้เล่น

ทีม MeepleLM ส่งบทความ QbitAI | บัญชี WeChat QbitAI ผู้ประเมินประสบการณ์บอร์ดเกมจากโมเดลภาษาขนาดใหญ่มาแล้ว! ไม่เพียงแต่สามารถให้คำวิจารณ์และข้อเสนอแนะได้อย่างรวดเร็ว แต่ยังสามารถจำ…

2026年2月12日
186000
ข่าวสารอุตสาหกรรม AI

ทีม HKUST เปิดตัว RebuttalAgent: ใช้ทฤษฎีจิตวิเคราะห์เจตนาผู้ตรวจ เพื่อตอบโต้จุดอ่อนในบทความวิชาการ AI

เมื่อต้องเผชิญกับการตรวจสอบโดยผู้ทรงคุณวุฒิ (peer review) ผู้เขียนหลายคนเคยมีประสบการณ์แบบนี้: ตอบทุกคำถามของผู้ตรวจสอบอย่างชัดเจน แสดงท่าทีถ่อมตัวอย่างเพียงพอ แต่ทำไมสุดท้ายกลับไม…

2026年2月3日
191000
ข่าวสารอุตสาหกรรม AI

OpenAI ระดมทุนได้ 122 พันล้านดอลลาร์ ทำลายสถิติใหม่ หลังการระดมทุนมีมูลค่าการประเมินสูงถึง 8.52 แสนล้านดอลลาร์ เปิดให้นักลงทุนรายบุคคลเข้าร่วมเป็นครั้งแรก

OpenAI ระดมทุนได้ 122,000 ล้านดอลลาร์ ทำลายสถิติ มูลค่าหลังการระดมทุนสูงถึง 852,000 ล้านดอลลาร์ OpenAI ประกาศระดมทุนรอบใหม่ที่ทำลายสถิติ โดยระดมทุนได้ 122,000 ล้านดอลลาร์ (ประมาณ 8…

2026年4月1日
49000
ข่าวสารอุตสาหกรรม AI

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%

คำสำคัญ: การตัดแต่งโทเค็นภาพ, โมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ, การฝึกฝนที่มีประสิทธิภาพ, ความไม่ตรงกันระหว่างการฝึกฝนและการอนุมาน, การฝึกฝนแบบสองโหมด ในปีที่ผ่านมา โมเดลภาษาขนาดใหญ่…

2026年2月5日
194000
ข่าวสารอุตสาหกรรม AI

OpenAI ปิดตัว Sora กระทันหัน: เครื่องจักรเผาเงินหยุดทำงาน เปลี่ยนจุดเน้นกลยุทธ์สู่โมเดลใหญ่รุ่นต่อไปและ AGI

คาดไม่ถึงเลยว่า เมื่อสักครู่ OpenAI เพิ่งประกาศปิดตัวโมเดลสร้างวิดีโอ Sora แถลงการณ์อย่างเป็นทางการระบุว่า: “เราจะต้องบอกลาการใช้งาน Sora ขอบคุณผู้ใช้ทุกท่านที่ใช้ Sora ในการ…

2026年3月25日
159000

การประเมินประสิทธิภาพ: กลับสู่กลุ่มผู้นำอีกครั้ง

รายละเอียดทางเทคนิค: เส้นทางปรับโครงสร้างใหม่ 9 เดือน

ข้อบกพร่องที่ยังคงมีและกรณี “พลิกแพลง”

☕ สนับสนุนค่ากาแฟทีมงาน

相关推荐

MeepleLM: ระบบประเมินเกมกระดานเสมือนจริงด้วยโมเดลภาษาขนาดใหญ่ครั้งแรกบนกรอบ MDA และโปรไฟล์ผู้เล่น

ทีม HKUST เปิดตัว RebuttalAgent: ใช้ทฤษฎีจิตวิเคราะห์เจตนาผู้ตรวจ เพื่อตอบโต้จุดอ่อนในบทความวิชาการ AI

DualSpeed: กรอบการตัดโทเค็นภาพแบบสองโหมดที่ปฏิวัติวงการ เร่งความเร็วการฝึก MLLM 4 เท่า พร้อมคงประสิทธิภาพ 99%

OpenAI ปิดตัว Sora กระทันหัน: เครื่องจักรเผาเงินหยุดทำงาน เปลี่ยนจุดเน้นกลยุทธ์สู่โมเดลใหญ่รุ่นต่อไปและ AGI