MiroMind กลับมาแล้ว! MiroThinker-1.7 ตัวแทนอัจฉริยะด้านการอนุมานขั้นสูง ครองอันดับหนึ่งหลายรายการใน SOTA ประสิทธิภาพการทำนาย F1 จากการทดสอบจริงเหนือกว่า ChatGPT

3 hours ago • การอนุมานโมเดลขนาดใหญ่ • 13 views

นกกระสา ส่งมาจาก 凹非寺

ทีมโมเดลขนาดใหญ่ MiroMind นำโดยเฉิน เทียนเฉียว ได้เปิดตัวตัวแทนปัญญาประดิษฐ์เชิงอนุมานรุ่นใหม่อย่างเป็นทางการ: MiroThinker-1.7 และ MiroThinker-H1

MiroMind กลับมาแล้ว! MiroThinker-1.7 ตัวแทนอัจฉริยะด้านการอนุมานขั้นสูง ครองอันดับหนึ่งหลายรายการใน SOTA ประสิทธิภาพการทำนาย F1 จากการทดสอบจริงเหนือกว่า ChatGPT

“หนัก” หมายความว่าอย่างไร? มันสืบทอดยีนการอนุมานเชิงลึกจากเวอร์ชัน V1.5 โดยมีเป้าหมายเพื่อจัดการงานที่ซับซ้อนมากขึ้นและสร้างผลลัพธ์ที่แม่นยำยิ่งขึ้น

ในการทดสอบมาตรฐานงานวิจัยเชิงลึกหลายด้าน ชุด MiroThinker แสดงผลโดดเด่น โดย MiroThinker-H1 ทำลายสถิติ SOTA (State-of-the-Art) ในหลายงาน แซงหน้าโมเดลปิดแหล่งชั้นนำเช่น Gemini-3.1-Pro, GPT-5.4-Thinking, Claude-4.6-Opus:

BrowseComp (การทดสอบมาตรฐานโมเดลขนาดใหญ่ประเภทการค้นหาบนเว็บ): 88.2%
BrowseComp-ZH (เวอร์ชันปรับภาษาไทยของ BrowseComp): 84.4%
GAIA-Val-165 (ชุดตรวจสอบการทดสอบมาตรฐาน GAIA): 88.5%
HLE-Text (การทดสอบขั้นสุดท้ายของมนุษย์): 47.7%

นอกจากนี้ โมเดลโอเพนซอร์ส MiroThinker-1.7 (235B) และ MiroThinker-1.7-mini (30B) ขนาดเล็กยังได้สร้างสมดุลระหว่างประสิทธิภาพและประสิทธิผล นี่หมายความว่า MiroMind ได้จัดเตรียมโซลูชันโมเดลที่หลากหลายเพื่อตอบสนองความต้องการการอนุมานที่มีความซับซ้อนต่างกัน

โมเดลใหม่ไม่เพียงแต่แสดงประสิทธิภาพแข็งแกร่งในงานทั่วไป แต่ยังโดดเด่นในสาขาวิชาชีพเช่นเทคโนโลยีการเงิน มันก้าวพ้นขอบเขตการสนทนาของโมเดลภาษาขนาดใหญ่แบบดั้งเดิม และสามารถรับผิดชอบงานปัญญาที่ซับซ้อนสูงและมีห่วงโซ่ยาวในโลกจริงได้ สิ่งนี้แลกมาด้วยการเสียสละความเร็วในการอนุมานในระดับหนึ่ง ซึ่งแสดงให้เห็นถึงแนวคิดที่แตกต่างในการออกแบบโมเดลของ MiroMind: ในขณะที่ผู้ผลิตรายอื่นมุ่งเน้นที่ความเร็ว ชุด MiroThinker ถูกสร้างขึ้นมาเพื่องานที่ซับซ้อนและระยะยาวโดยเฉพาะ

แข่งรถ ซื้อทอง: ผลการทดสอบจริงของ MiroThinker

ต่อไปนี้คือส่วนการทดสอบจริง อินเทอร์เฟซการโต้ตอบของ MiroThinker คล้ายกับหน้าต่างการสนทนาของโมเดลขนาดใหญ่ทั่วไป รองรับการอัปโหลดไฟล์และการป้อนเสียง และสามารถเปิดใช้งานโมเดลขนาดใหญ่ขึ้นและมีการอนุมานลึกซึ้งยิ่งขึ้นผ่าน “โหมดมืออาชีพ”

ก่อนอื่น เราใช้มันเพื่อทำนาย การแข่งขันจริง F1 สนามเซี่ยงไฮ้ ที่เต็มไปด้วยความไม่แน่นอน ที่จุดสำคัญสามจุด ได้แก่ 2 ชั่วโมงก่อนแข่ง, 1 ชั่วโมงระหว่างแข่ง และครึ่งชั่วโมงสุดท้ายของการแข่งขัน เราให้ MiroThinker ทำนายอันดับแบบเรียลไทม์และเปรียบเทียบกับผลลัพธ์สุดท้าย

2 ชั่วโมงก่อนการแข่งขัน เราใส่คำสั่ง: “ในการแข่งขัน F1 สนามเซี่ยงไฮ้ที่กำลังจะมาถึงนี้ ให้ทำนายอันดับของผู้เข้าแข่งขัน”

กระบวนการอนุมานของโมเดลแสดงให้เห็น เส้นทางที่สมบูรณ์ของการค้นหาและบูรณาการข้อมูล: ยืนยันข้อมูลการแข่งขัน → รวบรวมข้อมูลการแข่งขันรอบคัดเลือก การแข่งขันสปรินต์ และข้อมูลฤดูกาล → วิเคราะห์ตัวแปรเช่นกฎและสภาพอากาศ → ให้การทำนายโดยรวม ทุกขั้นตอนได้รับการตรวจสอบซ้ำแล้วซ้ำเล่า

ข้อสรุปการทำนายก่อนแข่งที่ให้มานั้นชัดเจน: ทำนายว่าเมอร์เซเดสนำหน้า ตามด้วยเฟอร์รารี แมคคลาเรนและเรดบูลอยู่ในกลุ่มที่สอง โมเดลยังใช้คำศัพท์เฉพาะทางเช่น “จบการแข่งขัน”

จากนั้น โมเดลให้ตรรกะการทำนายโดยย่อและคำแนะนำในการชมการแข่งขัน

เพื่อเป็นการเปรียบเทียบ เราให้คำถามเดียวกันกับ ChatGPT, Gemini และ DeepSeek คำตอบของ ChatGPT ค่อนข้างสั้น; Gemini ให้จุดสนใจของการแข่งขัน แต่ความสมบูรณ์ของคำตอบไม่เท่ากับ MiroThinker; DeepSeek มุ่งเน้นไปที่ผลงานในอดีตและสภาพรถเป็นหลัก MiroThinker เป็นโมเดลเดียวที่ให้ความสนใจกับสภาพอากาศแบบเรียลไทม์อย่างชัดเจนในการอนุมาน

1 ชั่วโมงระหว่างการแข่งขัน ความสามารถในการดึงข้อมูลแบบเรียลไทม์ของ MiroThinker เด่นชัดขึ้น มันให้ความสนใจกับกรณีการถอนตัว และวิเคราะห์จังหวะของนักแข่งและกลยุทธ์ของทีม จากนั้นจึงปรับการทำนายเล็กน้อย

จนถึง 30 นาทีสุดท้าย อันดับที่ MiroThinker ทำนายได้ ตรงกันอย่างสมบูรณ์ กับผลการแข่งขันสุดท้าย

การทำนายทั้งสามครั้งนี้แสดงให้เห็นว่า MiroThinker ประสบความสำเร็จในการ รวบรวมข้อมูลอย่างค่อยเป็นค่อยไปและปรับปรุงการทำนายอย่างต่อเนื่อง ที่น่าสนใจคือ ในการทำนายรอบแรก โมเดลต่างๆ ทำนายอันดับที่สามแตกต่างกันไป และผลการแข่งขันจริงแตกต่างกันมากเนื่องจากเหตุการณ์ไม่คาดฝันต่างๆ (เช่น การถอนตัว กลยุทธ์ทีม) ซึ่งบ่งชี้ถึงความสำคัญของการอนุมานและปรับตัวแบบเรียลไทม์

นอกจากนี้ เรายังลองใช้ MiroThinker ในการทำนายทางการเงิน: ประมาณการราคาทองคำ (XAU/USD) ล่วงหน้า 15 วันสำหรับวันที่ 25 กุมภาพันธ์ 2026

โมเดลทำนายราคาทองคำที่ $5185/oz ในวันจริงนั้น Fortune รายงานที่ $5181, 150 Currency รายงานที่ $5185.89, CME GCG26 ปิดที่ $5206.40 ความคลาดเคลื่อนในการทำนายของโมเดลอยู่ที่เพียง 0.08% (ประมาณ $4) ซึ่งอยู่ในช่วงที่สมเหตุสมผล

โดยรวมแล้ว ไม่ว่าจะเป็นการทำนายสถานการณ์ทั่วไประยะสั้น หรือการประมาณการสถานการณ์เฉพาะทางระยะกลางถึงยาว MiroThinker สามารถให้การอนุมานที่มีตรรกะชัดเจนและมีหลักฐานสนับสนุนเพียงพอ โดยผลการทำนายสอดคล้องกับความเป็นจริงในระดับสูง แม้ว่าความเร็วในการตอบสนองจะไม่ใช่ระดับ “วินาที” และมักต้องการเวลาคิดหนึ่งถึงสองนาที แต่ก็โดดเด่นในด้านความสมบูรณ์ของคำตอบและความลึกของโซ่ตรรกะ

แกนกลางทางเทคนิค: โซลเวอร์หนักและการเพิ่มความสามารถที่แม่นยำ

การเพิ่มความสามารถของ MiroThinker มาจากความก้าวหน้าทางเทคนิคหลักของมัน นั่นคือ โซลเวอร์หนัก

วิธีทั่วไปในอุตสาหกรรมปัจจุบันเพื่อเพิ่มความลึกของการอนุมานคือการขยายเวลาในการคำนวณสายโซ่ความคิดของโมเดลผ่านการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ในขณะที่ความก้าวหน้าของ MiroThinker-1.7 อยู่ที่它不仅延长思考时间，更强调推理过程的可验证性和每一步决策的有效性 สิ่งนี้สะท้อนให้เห็นอย่างชัดเจนในการอัปเกรดเทคโนโลยีหลักสองประการ:

1. อัปเกรดการฝึกฝนตัวแทนอัจฉริยะดั้งเดิม
MiroMind พบว่าหากคุณภาพของการตัดสินใจในแต่ละขั้นตอนของโมเดลไม่สูง การเพิ่มจำนวนรอบการโต้ตอบเพียงอย่างเดียวจะขยายข้อผิดพลาด ดังนั้น กุญแจสำคัญในการเพิ่มประสิทธิภาพการอนุมานคือการเสริมสร้าง ความสามารถดั้งเดิมของตัวแทนอัจฉริยะ นั่นคือ:
* การวางแผนที่น่าเชื่อถือมากขึ้น: สามารถแยกย่อยปัญหาและเลือกเส้นทางได้อย่างถูกต้องตั้งแต่ระยะเริ่มต้น
* การอนุมานที่แม่นยำยิ่งขึ้น: ทุกการตัดสินใจสามารถตรวจสอบและสะท้อนคิดได้
* ไม่หลงทางในระยะยาว: รักษาการจัดตำแหน่งกับเป้าหมายสุดท้ายอย่างต่อเนื่องในงานที่ซับซ้อน

เพื่อจุดประสงค์นี้ MiroThinker-1.7 ได้แนะนำขั้นตอน การฝึกฝนระยะกลาง ในระหว่างการฝึก ขั้นตอนนี้ใช้ข้อมูลงานคุณภาพสูงจำนวนมากเพื่อฝึกฝนความสามารถในการวางแผน การอนุมาน และการสรุปของโมเดลอย่างเข้มข้น ส่งผลให้สร้างความสามารถพื้นฐานของตัวแทนอัจฉริยะที่แข็งแกร่งขึ้น เช่น การแยกย่อยเป้าหมาย การเรียกใช้เครื่องมือและการทำความเข้าใจผลลัพธ์ การบูรณาการคำตอบ เป็นต้น

บนพื้นฐานของการเสริมสร้างความสามารถในการอนุมานดั้งเดิม โมเดลยังได้รับการปรับแต่งเพิ่มเติมผ่านเทคโนโลยีเช่น การปรับแต่งภายใต้การดูแล (SFT), การปรับให้เหมาะสมตามความชอบ (DPO) และ การเรียนรู้แบบเสริมกำลัง (RL) เพื่อทำให้ความสามารถของตัวแทนอัจฉริยะกลายเป็นส่วนหนึ่งภายในอย่างลึกซึ้ง จึงทำให้สามารถอนุมานได้อย่างมั่นคงสำหรับงานที่ซับซ้อนและมีระยะยาว

2. โหมดการอนุมานหนักที่มีการตรวจสอบเป็นแกนกลาง

การเพิ่มคุณภาพของการอนุมานขั้นตอนเดียว ไม่เพียงแต่พึ่งพาความสามารถในการอนุมานของโมเดลเอง แต่ยังต้องแนะนำกลไกการตรวจสอบเพื่อสร้างข้อจำกัด โหมดนี้แบ่งออกเป็นหลักเป็นการตรวจสอบเฉพาะที่และการตรวจสอบโดยรวม:

การตรวจสอบเฉพาะที่: ในแต่ละขั้นตอนของการอนุมาน ระบบจะหยุดชั่วคราวและตรวจสอบตนเอง มีเพียงขั้นตอนที่ผ่านการตรวจสอบเท่านั้นที่จะได้รับอนุญาตให้สำรวจต่อไปตามเส้นทางปัจจุบัน วิธีนี้ช่วยทำลายความดื้อรั้นเชิงความน่าจะเป็นของโมเดล AI แบบดั้งเดิม และค้นพบเส้นทางที่มีความน่าจะเป็นทันทีต่ำกว่าแต่ถูกต้องในทางปฏิบัติ
การตรวจสอบโดยรวม: หลังจากสร้างเส้นทางการอนุมานที่สมบูรณ์หลายเส้นทาง โมเดลจะย้อนกลับไปยังห่วงโซ่การอนุมานทั้งหมด เพื่อให้แน่ใจว่าคำตอบสุดท้ายขึ้นอยู่กับการอนุมานเชิงตรรกะที่เข้มงวดที่สุด ไม่ใช่ข้อสรุปที่ดูเหมือนสอดคล้องกันเองในเชิงความหมายหรือผิวเผิน

กล่าวโดยย่อ อันแรกมุ่งเน้นที่การเสริมสร้างความสามารถในการอนุมานดั้งเดิมของตัวแทนอัจฉริยะ ในขณะที่อันหลังเพิ่มความน่าเชื่อถือของการตรวจสอบข้าม การรวมกันอย่างลึกซึ้งของทั้งสองทำให้โมเดลสามารถแสดงศักยภาพในการโต้ตอบที่แม่นยำและสามารถตรวจสอบได้เมื่อเผชิญกับปัญหาการอนุมานที่ซับซ้อน

การค้นพบที่น่าสนใจประการหนึ่งคือ หลังจากแนะนำกลไกการตรวจสอบ มีปรากฏการณ์ “ขัดต่อสัญชาตญาณ” ที่ จำนวนขั้นตอนการโต้ตอบของโมเดลลดลงอย่างเห็นได้ชัด โดยทั่วไปถือว่ายิ่งขั้นตอนการคิดมาก (หรือยิ่ง “หนัก”) ประสิทธิภาพของโมเดลก็ยิ่งแข็งแกร่งขึ้น ปรากฏการณ์นี้บ่งชี้ว่าตัวตรวจสอบยังทำหน้าที่เป็นตัวกรองในกระบวนการนี้ สามารถช่วยโมเดลกรองขั้นตอนที่ไม่มีประสิทธิภาพหรือให้ข้อมูลเพิ่มต่ำได้ทันเวลา และจัดสรรทรัพยากรการคำนวณให้กับลิงก์สำคัญที่ช่วยแก้ไขปัญหาจริงๆ แม้ว่าจำนวนขั้นตอนทั้งหมดจะลดลง แต่คุณภาพของการให้เหตุผลเชิงตรรกะในแต่ละขั้นตอนสูงขึ้น ทำให้กระบวนการอนุมานทั้งหมดมีประสิทธิภาพและแม่นยำยิ่งขึ้น สิ่งนี้นำไปสู่แนวคิดหลักของชุดโมเดล MiroThinker นั่นคือ การขยายการโต้ตอบที่มีประสิทธิภาพ

จับความสำคัญของการโต้ตอบ: การแซงในโค้งด้วยการอนุมานที่ “ช้า”

ประสิทธิผลของการพัฒนาตั้งแต่ V1.5 ถึง V1.7 ยืนยันแนวคิดการโต้ตอบที่ MiroThinker เน้น: ช้าลง คิดมากขึ้น

ต่างจากการเพิ่มจำนวนรอบการสนทนาหรือการเรียกใช้เครื่องมือเพียงอย่างเดียวเพื่อเพิ่มคะแนนมาตรฐานอย่างรวดเร็ว การอนุมานที่ “ช้า” ของ MiroThinker ไม่ได้ไล่ตามการตอบสนองทันที แต่เป็นการหยุดชั่วคราว ตรวจสอบ และชั่งน้ำหนักก่อนดำเนินการ เพื่อให้แน่ใจว่าสามารถ “อนุมานลึกและอนุมานถูก” ในสถานการณ์ที่ซับซ้อน กลยุทธ์นี้มีจุดมุ่งหมายเพื่อหลีกเลี่ยงการสะสมข้อผิดพลาดและการล่มของระบบที่เกิดจากข้อผิดพลาดในขั้นตอนกลาง

ในการต่อสู้ระหว่างข้อจำกัดด้านพลังการคำนวณและงานที่ซับซ้อน MiroThinker ไม่ได้เพิ่มพลังการคำนวณอย่างมืดบอด แต่เหมือนนักคิดที่เชี่ยวชาญในการคำนวณเส้นทางที่ดีที่สุด ลงทุนทรัพยากรอย่างแม่นยำในลิงก์การอนุมานที่สำคัญที่สุด ผลลัพธ์แสดงให้เห็นว่าการมุ่งเน้นที่การเพิ่มคุณภาพของการโต้ตอบที่มีประสิทธิภาพ “ความช้า” ไม่ได้หมายถึงการล้าหลัง แต่กลับให้เส้นทางที่มั่นคงยิ่งขึ้นสำหรับโมเดลภาษาขนาดใหญ่ในการก้าวเข้าสู่โลกกายภาพจริง

สไตล์ “มั่นคงและก้าวหน้า” นี้ยังสะท้อนให้เห็นในการสร้างทีม

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/25945