ยักษ์โอเพ่นซอร์สที่มีพารามิเตอร์ล้านล้าน! Yuan3.0 Ultra เปิดตัวแล้ว ออกแบบมาสำหรับ AI แบบมัลติโมดัลสำหรับองค์กรโดยเฉพาะ

โมเดลพื้นฐานขนาดใหญ่แบบมัลติโมดัล Yuan3.0 Ultra เปิดตัวเป็นโอเพนซอร์สอย่างเป็นทางการ

ทีม YuanLab.ai ได้เปิดตัวโมเดลพื้นฐานขนาดใหญ่แบบมัลติโมดัล Yuan3.0 Ultra เป็นโอเพนซอร์สอย่างเป็นทางการ

ในฐานะโมเดลแฟลกชิปของซีรีส์ Yuan 3.0 ที่สร้างขึ้นสำหรับขนาด พารามิเตอร์ล้านล้าน มันเป็นหนึ่งในสามโมเดลใหญ่แบบมัลติโมดัลระดับล้านล้านพารามิเตอร์ที่เปิดเป็นโอเพนซอร์สในอุตสาหกรรมในปัจจุบัน โมเดลนี้ได้นำการเพิ่มประสิทธิภาพประสิทธิภาพการฝึกโมเดล MoE เข้ามาในการออกแบบโครงสร้างโมเดลอย่างเป็นระบบ และได้รับการปรับให้เหมาะสมอย่างลึกซึ้งในด้านการประยุกต์ใช้ในองค์กรและการเรียกใช้เครื่องมือของเอเจนต์ โดยแสดงความสามารถโดดเด่นในงานระดับองค์กร เช่น การทำความเข้าใจเอกสารมัลติโมดัล การสร้างเสริมด้วยการค้นคืน (RAG) การวิเคราะห์ข้อมูลตาราง การสรุปเนื้อหา และการเรียกใช้เครื่องมือ

ความสามารถเหล่านี้ทำให้โมเดลสามารถประมวลผลรูปแบบข้อมูลที่ซับซ้อนในสภาพแวดล้อมองค์กรได้อย่างมีคุณภาพสูง เช่น เอกสารที่ผสมผสานข้อความและภาพ ตารางที่มีโครงสร้างหลายระดับ และการค้นคืนความรู้ข้ามเอกสาร ซึ่งให้การสนับสนุนความสามารถหลักสำหรับการสร้าง Agent AI ขององค์กรที่ขับเคลื่อนด้วยข้อมูลมัลติโมดัลบนเฟรมเวิร์กเอเจนต์ เช่น OpenClaw

Yuan3.0 Ultra ใช้ สถาปัตยกรรมโมเดลมัลติโมดัลแบบรวมศูนย์ ซึ่งสามารถสร้างแบบจำลองร่วมกันของข้อมูลภาพและภาษาได้ โดยเครือข่ายหลักทางภาษาถูกสร้างขึ้นบนพื้นฐานของสถาปัตยกรรมผู้เชี่ยวชาญแบบผสม (MoE) ขนาดพารามิเตอร์เริ่มต้นในขั้นตอนการฝึกคือ 1515B ซึ่งได้รับการปรับให้เหมาะสมเป็น 1010B ผ่านวิธี LAEP เพิ่มประสิทธิภาพประสิทธิภาพการคำนวณในการฝึกล่วงหน้า 49% โดยมีพารามิเตอร์ที่ถูกกระตุ้น 68.8B

นอกจากนี้ โมเดลยังได้นำกลไก Localized Filtering Attention (LFA) เข้ามาใช้ ซึ่งช่วยเสริมความสามารถในการสร้างแบบจำลองความสัมพันธ์ทางความหมายได้อย่างมีประสิทธิภาพ เมื่อเทียบกับโครงสร้าง Attention แบบคลาสสิก จะได้ประสิทธิภาพความแม่นยำของโมเดลที่สูงกว่า

ยักษ์โอเพ่นซอร์สที่มีพารามิเตอร์ล้านล้าน! Yuan3.0 Ultra เปิดตัวแล้ว ออกแบบมาสำหรับ AI แบบมัลติโมดัลสำหรับองค์กรโดยเฉพาะ

ปัจจุบัน พารามิเตอร์และโค้ดของ Yuan3.0 Ultra ได้ถูกเปิดเป็นโอเพนซอร์สแล้ว

ความสามารถแบบมัลติโมดัลสำหรับสถานการณ์ธุรกิจที่ซับซ้อนขององค์กร

เอเจนต์ระดับองค์กรมักต้องจัดการกับรูปแบบข้อมูลหลายชนิดพร้อมกัน เช่น เอกสาร ตาราง และฐานข้อมูล และทำงานให้สำเร็จผ่านการให้เหตุผลหลายขั้นตอนและการเรียกใช้เครื่องมือ Yuan3.0 Ultra ได้สร้างความสามารถโดยอิงตามความต้องการในการประมวลผลข้อมูลและการดำเนินงานในกระบวนการธุรกิจจริงขององค์กรตั้งแต่ขั้นตอนการออกแบบ

การทำความเข้าใจข้อมูลเอกสารและแผนภูมิที่ซับซ้อน

ในธุรกิจจริงขององค์กร ข้อมูลสำคัญจำนวนมากอยู่ใน เอกสาร เช่น แผนงานทางเทคนิค รายงานงบการเงิน วัสดุวิจัยอุตสาหกรรม ซึ่งเนื้อหาเหล่านี้มักมีโครงสร้างผสมผสานข้อความและภาพ ตารางที่ซับซ้อน และความสัมพันธ์ของข้อมูลข้ามหน้า

Yuan3.0 Ultra แสดงผลนำในการประเมินความเข้าใจเอกสารมัลติโมดัล เช่น DocMatix และ MMTab จากความสามารถนี้ โมเดลสามารถวิเคราะห์โครงสร้างเอกสารผสมผสานข้อความและภาพและดึงข้อมูลตัวชี้วัดสำคัญได้อย่างแม่นยำ สนับสนุนให้ระบบเอเจนต์ทำงานด้านความเข้าใจเอกสาร การดึงข้อมูล และการสรุปรายงานได้อย่างมีคุณภาพสูง สามารถนำไปใช้ในสถานการณ์ต่างๆ เช่น การวิเคราะห์งบการเงิน การตรวจสอบสัญญา และการวิเคราะห์เอกสารทางเทคนิค

การค้นคืนและบูรณาการข้อมูลจากหลายแหล่ง

ความรู้ภายในองค์กรมักกระจายอยู่ใน คลังเอกสาร ระบบคลังความรู้ และฐานข้อมูลธุรกิจ แหล่งข้อมูลมีความซับซ้อนและโครงสร้างไม่เป็นหนึ่งเดียว การรับข้อมูลที่มีประสิทธิภาพในสภาพแวดล้อมเช่นนี้ ไม่เพียงต้องการความสามารถในการค้นคืน แต่ยังต้องการการบูรณาการความหมายและการวิเคราะห์เชิงสังเคราะห์ของเนื้อหาจากหลายแหล่ง

Yuan3.0 Ultra แสดงผลนำในการประเมินการสร้างเสริมด้วยการค้นคืน เช่น ChatRAG และ SummEval ด้วยความสามารถนี้ โมเดลสามารถดำเนินกระบวนการประมวลผลข้อมูลที่สมบูรณ์ของ การค้นคืน ความเข้าใจ และการสร้างเชิงสังเคราะห์ ในสภาพแวดล้อมความรู้ขององค์กรได้ สนับสนุนให้เอเจนต์ใช้ความรู้ส่วนตัวขององค์กรเพื่อทำงานที่ซับซ้อนให้สำเร็จ

การวิเคราะห์ข้อมูลและการช่วยเหลือการตัดสินใจทางธุรกิจ

ในสถานการณ์การดำเนินงานขององค์กร การตัดสินใจทางธุรกิจจำนวนมากพึ่งพา การสืบค้นฐานข้อมูล การวิเคราะห์รายงาน และการบูรณาการข้อมูลข้ามระบบ กระบวนการดั้งเดิมมักต้องเขียนคำสั่งสืบค้นฐานข้อมูล (SQL) ด้วยมือและจัดทำรายงานวิเคราะห์ ซึ่งมีประสิทธิภาพต่ำ

Yuan3.0 Ultra แสดงผลดีเยี่ยมในการประเมินมาตรฐาน Text-to-SQL เช่น Spider และ BIRD ด้วยความสามารถนี้ โมเดลสามารถสนับสนุนงานของเอเจนต์ เช่น การสืบค้นข้อมูล การวิเคราะห์การดำเนินงาน และการสร้างรายงาน ได้อย่างมีคุณภาพสูง สนับสนุนองค์กรในการสร้าง ระบบวิเคราะห์ธุรกิจและการตัดสินใจ

ไม่ไล่ตามผู้เชี่ยวชาญที่มากขึ้น แต่ไล่ตามผู้เชี่ยวชาญที่มีประสิทธิภาพมากขึ้น

ทีมวิจัยพบจากการศึกษาอัลกอริทึมโมเดลขนาดใหญ่อย่างยาวนานว่า วิวัฒนาการภาระงานของผู้เชี่ยวชาญในกระบวนการฝึกโมเดลล่วงหน้าสามารถแบ่งออกเป็นสองขั้นตอน:
* ขั้นตอนที่หนึ่ง: ขั้นตอนเปลี่ยนผ่านเริ่มต้น เกิดขึ้นในช่วงต้นของการฝึกโมเดลล่วงหน้า ในเวลานี้ภาระงานของผู้เชี่ยวชาญผันผวนรุนแรง ได้รับผลกระทบจากการกำหนดค่าเริ่มต้นแบบสุ่มอย่างชัดเจน
* ขั้นตอนที่สอง: ขั้นตอนเสถียร ในเวลานี้ภาระงาน token ระหว่างผู้เชี่ยวชาญแต่ละคนมีแนวโน้มเสถียร จำนวน token ที่ผู้เชี่ยวชาญแต่ละคนได้รับแสดงความผันผวนที่ค่อนข้างเล็กเท่านั้น

ในขั้นตอนการฝึกที่เสถียร ภาระงาน token ของผู้เชี่ยวชาญไม่สมดุลอย่างมาก ผู้เชี่ยวชาญส่วนน้อยรับผิดชอบการคำนวณจำนวนมาก ในขณะที่ผู้เชี่ยวชาญบางส่วนอยู่ในสถานะภาระงานต่ำเป็นเวลานาน ส่งผลให้ทรัพยากรการคำนวณสูญเปล่า จากมุมมองของกลไกการเรียนรู้ ปรากฏการณ์นี้สะท้อนให้เห็นถึง ความเชี่ยวชาญเฉพาะด้าน ที่โมเดลขนาดใหญ่ก่อตัวขึ้นในระหว่างกระบวนการฝึก — ผู้เชี่ยวชาญที่แตกต่างกันค่อยๆ พัฒนาความชอบที่มั่นคงต่อรูปแบบ โครงสร้างความหมาย หรือประเภทงานเฉพาะในระหว่างการฝึกเป็นเวลานาน ทำให้เกิดโครงสร้างการแบ่งงานเฉพาะทางภายในโมเดลอย่างเป็นธรรมชาติ

ดังนั้น สำหรับโมเดล MoE ขนาดใหญ่ ปัญหาสำคัญอยู่ที่วิธีการระบุและกำจัดโครงสร้างส่วนเกินที่ค่อยๆ แข็งตัวหลังการฝึก เพื่อให้บรรลุการใช้ทรัพยากรการคำนวณอย่างมีประสิทธิภาพ ในขณะที่รักษาความสามารถเฉพาะทางของโมเดล

เพื่อแก้ไขปัญหานี้ Yuan3.0 Ultra ได้เสนออัลกอริทึม Layer-Adaptive Expert Pruning (LAEP) สำหรับการฝึกล่วงหน้า LAEP สามารถระบุผู้เชี่ยวชาญที่มีส่วนร่วมต่ำได้แบบไดนามิกตามข้อมูลสถิติภาระงานของผู้เชี่ยวชาญที่เกิดขึ้นในระหว่างกระบวนการฝึกล่วงหน้า และทำการตัดแต่งโครงสร้างโมเดลและการจัดเรียงผู้เชี่ยวชาญใหม่แบบปรับตัวได้ ทำให้ทรัพยากรการคำนวณมุ่งเน้นไปที่ผู้เชี่ยวชาญที่ทำงานได้จริง

ยักษ์โอเพ่นซอร์สที่มีพารามิเตอร์ล้านล้าน! Yuan3.0 Ultra เปิดตัวแล้ว ออกแบบมาสำหรับ AI แบบมัลติโมดัลสำหรับองค์กรโดยเฉพาะ

ผลการทดลองแสดงว่า:
* พารามิเตอร์โมเดลลดลง 33.3%
* ประสิทธิภาพการฝึกล่วงหน้าโดยรวมเพิ่มขึ้น 49%

ยักษ์โอเพ่นซอร์สที่มีพารามิเตอร์ล้านล้าน! Yuan3.0 Ultra เปิดตัวแล้ว ออกแบบมาสำหรับ AI แบบมัลติโมดัลสำหรับองค์กรโดยเฉพาะ

ไม่ไล่ตาม “การคิดที่ยาวขึ้น” แต่ไล่ตาม “การคิดที่มีประสิทธิภาพมากขึ้น”

กลยุทธ์การฝึกของ Yuan3.0 Ultra มุ่งเน้นที่กระบวนทัศน์การเรียนรู้แบบเสริมแรง Fast-thinking ต่างจากการยืดห่วงโซ่การให้เหตุผลเพียงอย่างเดียว โมเดลใช้วิธีการให้เหตุผลแบบเส้นทางสั้นที่มีประสิทธิภาพเป็นค่าเริ่มต้น ทำให้ทรัพยากรการคำนวณถูกใช้กับขั้นตอนที่มีการเพิ่มข้อมูลสูงเป็นอันดับแรก

ในกระบวนการเรียนรู้แบบเสริมแรงขนาดใหญ่ ทีมงานได้ปรับให้เหมาะสมอย่างเป็นระบบเกี่ยวกับกลไกรางวัลยับยั้งการสะท้อนคิด (RIRM) โดยการนำข้อจำกัดรางวัลมาสู่จำนวนครั้งของการสะท้อนคิด ทำให้โมเดลลดการสะท้อนคิดที่ไม่มีประสิทธิภาพลงอย่างแข็งขันหลังจากได้รับคำตอบที่เชื่อถือได้ ในขณะที่ยังคงรักษาความลึกของการให้เหตุผลที่จำเป็นในปัญหาที่ซับซ้อน กลไกนี้ช่วยบรรเทาปรากฏการณ์ “การคิดมากเกินไป” ในโหมดการคิดเร็วได้อย่างมีประสิทธิภาพ

ยักษ์โอเพ่นซอร์สที่มีพารามิเตอร์ล้านล้าน! Yuan3.0 Ultra เปิดตัวแล้ว ออกแบบมาสำหรับ AI แบบมัลติโมดัลสำหรับองค์กรโดยเฉพาะ

ผลการฝึกแสดงว่า ภายใต้กลยุทธ์การคิดเร็วที่ถูกควบคุมนี้ ความแม่นยำของโมเดลเพิ่มขึ้นอย่างมีนัยสำคัญ ในขณะที่จำนวน Token ที่สร้างขึ้นในระหว่างกระบวนการให้เหตุผลลดลงอย่างต่อเนื่อง บรรลุการเพิ่มประสิทธิภาพความแม่นยำและประสิทธิภาพการคำนวณไปพร้อมกัน

โมเดลพื้นฐานโอเพนซอร์ส ผลักดันความฉลาดของโมเดลขนาดใหญ่ที่นำไปปฏิบัติได้จริง

โมเดลขนาดใหญ่ Yuan3.0 Ultra เปิดเป็นโอเพนซอร์สอย่างสมบูรณ์ เนื้อหาที่เผยแพร่รวมถึงน้ำหนักโมเดล (เวอร์ชัน 16bit และ 4bit) รายงานทางเทคนิค วิธีการฝึกที่สมบูรณ์ และผลการประเมิน สนับสนุนให้ชุมชนดำเนินการฝึกซ้ำและการปรับแต่งตามอุตสาหกรรมบนพื้นฐานนี้

ในจำนวนนี้ วิธี LAEP ที่โมเดลเสนอคือการสำรวจและปฏิบัติของทีม YuanLab.ai เกี่ยวกับสถาปัตยกรรมโมเดลพื้นฐานรุ่นต่อไป ซึ่งให้เส้นทางใหม่สำหรับนวัตกรรมโครงสร้างโมเดล MoE ขนาดใหญ่ของอุตสาหกรรมและการเพิ่มประสิทธิภาพประสิทธิภาพการคำนวณในการฝึกล่วงหน้า

ทีมงานหวังว่าการเปิดเป็นโอเพนซอร์สของ Yuan3.0 Ultra จะช่วยผลักดันโมเดลขนาดใหญ่จาก “การแสดงความสามารถ” สู่ “การนำไปปฏิบัติในระดับใหญ่” เพื่อให้โมเดลพื้นฐานมัลติโมดัลที่ปรับให้เหมาะสมอย่างลึกซึ้งและมุ่งเน้นการประยุกต์ใช้เอเจนต์แก่ผู้ใช้ระดับองค์กร

นอกจากนี้ ซีรีส์โมเดลพื้นฐานขนาดใหญ่ Yuan3.0 จะรวมเวอร์ชันต่างๆ เช่น Flash, Pro และ Ultra โดยมีจำนวนพารามิเตอร์ 40B, 200B และ 1T ตามลำดับ และผลงานที่เกี่ยวข้องจะทยอยเผยแพร่

  • ลิงก์โค้ด: https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra
  • ลิงก์เอกสาร: https://github.com/Yuan-lab-LLM/Yuan3.0-Ultra/blob/main/Docs/Yuan3.0_Ultra%20Paper.pdf
  • ลิงก์ Huggingface: https://huggingface.co/YuanLabAI/Yuan3.0-Ultra-int4
  • ลิงก์ ModelScope: https://modelscope.cn/models/YuanLabAI/Yuan3.0-Ultra-int4
  • ลิงก์ WiseModel: https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Ultra-int4

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/24357

Like (0)
Previous 9 hours ago
Next 9 hours ago

相关推荐