
เมื่อเร็วๆ นี้ Baidu ได้เปิดตัวโมเดลขนาดใหญ่แบบโมดอลครบ (Native Full-Modal Large Model) อย่างเป็นทางการ นั่นคือ ERNIE-5.0 (Wenxin 5.0) โมเดลนี้มีพารามิเตอร์ขนาด 2.4 ล้านล้าน ใช้เทคโนโลยีการสร้างแบบจำลองแบบครบโมดอลแบบเนทีฟ (Native Full-Modal Unified Modeling) รองรับการป้อนข้อมูลและส่งออกข้อมูลหลากหลายประเภท เช่น ข้อความ ภาพ เสียง วิดีโอ
สรุปประเด็นหลัก:
-
จุดเด่นสามประการ
- ความสามารถในการเข้าใจบริบทภาษาจีนค่อนข้างดี: จับใจความเนื้อหาที่มีสไตล์ เช่น การเล่นคำหรือภาษาสไตล์ซีรีส์ “Legend of Zhen Huan” ได้ดี
- ความสามารถในการใช้เหตุผลจากภาพใช้ได้: แสดงผลน่าประหลาดใจในการทดสอบความสามารถด้านมิติ เช่น การคลี่รูปทรงหกเหลี่ยม และทำงานได้ดีในสถานการณ์ต่างๆ เช่น การนับวัตถุในภาพ
- งานเขียนเชิงสร้างสรรค์มีความสมบูรณ์สูง: บรรลุความคาดหวังในงานต่างๆ เช่น เรียงความนักเรียนประถม หรือนิยายวิทยาศาสตร์
-
จุดด้อยสามประการ
- ความสามารถด้านโค้ดต่ำอย่างเห็นได้ชัด: การสร้างโค้ด HTML สำหรับเกมหรือเครื่องมือจำนวนมากล้มเหลวหรือได้ผลไม่ดี
- ความแม่นยำในการคำนวณคณิตศาสตร์ต่ำ: ทำผิดพลาดในการคำนวณพื้นฐาน เช่น การคูณตัวเลขจำนวนมาก
- มีช่องโหว่ในการใช้เหตุผลตามสามัญสำนึก: ถูกหลอกได้ง่ายในคำถามหลอกลวง (เช่น ปัญหานกอินทรีบิน)
สรุปสั้นๆ ในหนึ่งประโยค: ERNIE-5.0 แสดงความมั่นคงในการเข้าใจภาษาจีนและการเขียนเชิงสร้างสรรค์ แต่ยังมีพื้นที่สำหรับการพัฒนาอีกมากในด้านการสร้างโค้ดและความสามารถในการใช้เหตุผลเชิงตรรกะ
สารบัญบทความ
- อ่านสรุปผลอย่างรวดเร็ว
- 一、 การทดสอบความสามารถพื้นฐาน
- 1.1 การใช้เหตุผลทางคณิตศาสตร์ (การคำนวณตัวเลขใหญ่, กับดักตรรกะ ฯลฯ)
- 1.2 การประมวลผลข้อความ (การแยกแยะความหมาย, คำถามจาก “弱智吧” ฯลฯ)
- 二、 การทดสอบความสามารถด้านโค้ด
- 2.1 ประเภทเกม (Gold Miner, การยิงอวกาศ ฯลฯ)
- 2.2 ประเภทเครื่องมือ (เลียนแบบ Google, ทำซ้ำ Switch ฯลฯ)
- 2.3 ฉาก 3 มิติ (การจำลองคลื่นทะเล, สวน voxel)
- 2.4 การออกแบบ UI (สภาพอากาศ iOS, หน้า Landing ระดับภาพยนตร์)
- 2.5 แอนิเมชัน SVG (โครงสร้างเครื่องยนต์, การเคลื่อนที่ของดาวเคราะห์)
- 三、 การทดสอบความสามารถเชิงสร้างสรรค์
- 3.1 การสร้างเนื้อหา (เขียนต่อนวนิยาย, สไตล์ Zhen Huan, วาทศิลป์ในที่ทำงาน)
- 3.2 การสร้าง PPT (เหตุการณ์สำคัญประจำปี)
- 3.3 การออกแบบและการจัดหน้า (โปสเตอร์ที่ทำงาน)
- 四、 การทดสอบความสามารถแบบหลายโมดอล
- 4.1 การรู้จำตัวอักษรด้วยแสง (OCR) (กู้คืนตาราง, การดึงข้อความ)
- 4.2 การทำความเข้าใจภาพ (การแปลงมิติ, หาความแตกต่าง, การระบุพันธุ์แมว)
- 五、 การทดสอบการใช้งานเชิงวิชาชีพ
- 5.1 การวิเคราะห์ข้อมูล (การวิจัยภาพรวมโครงสร้าง Agent)
- 六、 การทดสอบความสามารถแบบบูรณาการ
- 6.1 การทดสอบแบบบูรณาการ (เครื่องพิมพ์ดีดย้อนยุค, หน้า Landing สำหรับเกม, เว็บไซต์ “A Record of a Mortal’s Journey to Immortality”)
- สรุป
一、 การทดสอบความสามารถพื้นฐาน
1.1 การใช้เหตุผลทางคณิตศาสตร์
การคำนวณตัวเลขใหญ่
Prompt:
การคำนวณตัวเลขใหญ่: 178939247893 * 299281748617 เท่ากับเท่าไหร่?
ผลลัพธ์:
ผลลัพธ์: โมเดลคำนวณผิด คำตอบที่ถูกต้องคือ 53,553,251,005,627,872,913,981 แม้ว่า ERNIE-5.0 จะมีกระบวนการให้เหตุผลอย่างละเอียด แต่ผลลัพธ์สุดท้ายไม่ถูกต้อง
การใช้เหตุผลเรขาคณิตสามมิติ
Prompt:
ไม้ไผ่ยาว 5.5 เมตร สามารถลอดผ่านประตูสูง 4 เมตร กว้าง 3 เมตร ได้หรือไม่? โปรดพิจารณาเรขาคณิตสามมิติ
ผลลัพธ์:
ผลลัพธ์: ความสามารถในการใช้เหตุผลเชิงมิติทำงานได้ โมเดลพิจารณาความยาวเส้นทแยงมุมของประตูอย่างถูกต้อง และให้คำตอบที่ถูกต้อง
คำถามกับดักตรรกะ
Prompt:
สมมติว่ามีสามทีมสตาร์ทอัพ (A, B, C) กำลังแข่งขันเพื่อรับเงินทุนโครงการหนึ่ง การคัดเลือกมีกฎดังนี้:
1. แต่ละทีมส่งแผนธุรกิจหนึ่งฉบับ หัวข้อต้องเป็น “พลังงานยั่งยืน” “เมืองอัจฉริยะ” หรือ “สุขภาพการแพทย์” อย่างใดอย่างหนึ่งเท่านั้น และแต่ละหัวข้อสามารถมีทีมเลือกได้เพียงทีมเดียว
2. ทีม B เลือก “เมืองอัจฉริยะ”
3. หากทีม A เลือก “พลังงานยั่งยืน” แผนธุรกิจของทีม C ต้องมีความสร้างสรรค์มากกว่าแผนของทีม A ถึงจะชนะ
4. ในที่สุดจะมีเพียงทีมเดียวที่ได้รับเงินทุน
5. ภายหลังทราบว่า แผนของทีม C มีความสร้างสรรค์น้อยกว่าแผนของทีม A เล็กน้อย
ถาม: ทีมใดได้รับเงินทุนโครงการในที่สุด? และอธิบายกระบวนการให้เหตุผลของคุณ
ผลลัพธ์:
ผลลัพธ์: ไม่สามารถมองเห็นกับดักตรรกะได้ คำตอบที่ถูกต้องคือ “ไม่สามารถระบุผู้ชนะได้อย่างแน่นอนเพียงคนเดียว” แต่ ERNIE-5.0 สรุปผลว่า “A ชนะแน่นอน” แม้ว่ากระบวนการให้เหตุผลจะละเอียด
คำถามพี่น้องของเสี่ยวหง
Prompt:
เสี่ยวหงมีพี่ชาย 2 คน น้องสาว 3 คน แล้วพี่ชายของเสี่ยวหงมีน้องสาวกี่คน?
ผลลัพธ์:
ผลลัพธ์: ตอบถูก โมเดลเข้าใจถูกต้องว่า “น้องสาว” รวมถึงตัวเสี่ยวหงเอง
สาเหตุนกอินทรีบิน
Prompt:
ในวันหนึ่งในอนาคต ขณะที่นักเรียนหลี่กำลังผลิตวัสดุแม่เหล็กลอยตัวตัวนำยิ่งยวดในห้องแล็บ ก็พบว่าหนูในห้องแล็บบินอยู่ในอากาศโดยบังเอิญ จากการวิเคราะห์พบว่า เป็นเพราะหนูกินวัสดุแม่เหล็กลอยตัวเข้าไปโดยไม่ตั้งใจ วันต่อมา นักเรียนหลี่พบว่าอีกัวในห้องแล็บก็บินอยู่ในอากาศเช่นกัน จากการวิเคราะห์พบว่า เป็นเพราะอีกัวกินหนูเข้าไป วันต่อมา นักเรียนหลี่พบว่านกอินทรีในห้องแล็บก็บินอยู่ในอากาศเช่นกัน คุณคิดว่าสาเหตุคืออะไร?
ผลลัพธ์:
ผลลัพธ์: ตกอยู่ในกับดักตรรกะโดยสมบูรณ์ โมเดลมองข้ามความจริงที่นกอินทรีเป็นสัตว์ปีกที่บินได้ตามธรรมชาติ ขาดการตัดสินตามสามัญสำนึก
1.2 การประมวลผลข้อความ
การกลับด้านสตริง
Prompt:
เขียนตัวอักษรทั้งหมดของประโยค “I love MiMo-V2-Flash” กลับด้าน
ผลลัพธ์:
ผลลัพธ์: ตอบผิด การเขียนตัวอักษรกลับด้านค่อนข้างแม่นยำ แต่หลังจากเขียน “Flash” กลับด้าน ตัวอักษรแรก “F” กลายเป็นตัวพิมพ์เล็ก
การแยกแยะความหมาย
Prompt:
หัวเว่ยที่ปรากฏต่อไปนี้ เป็นแบรนด์ในอุตสาหกรรม 3C หรือไม่?
– หลิวเต๋อหัวว่ยโปรโมตละครใหม่
ผลลัพธ์:
ผลลัพธ์: เข้าใจความหมายของประโยคถูกต้อง โมเดลระบุว่า “หัวเว่ย” ในที่นี้เป็นส่วนหนึ่งของ “หลิวเต๋อหัวว่ย” ไม่ใช่ชื่อแบรนด์
ความเข้าใจความรู้
Prompt:
จะเข้าใจ “แต่ตินเจินไม่พูดภาษาจีน แต่ตินเจินพูดภาษาจีน” อย่างไร?
ผลลัพธ์:
ผลลัพธ์: วิเคราะห์ลึกซึ้งและครอบคลุม โมเดลเข้าใจความหมายการเล่นคำของ “ตันเต้” (Dante) และ “ตินเจิน” (Ding Zhen) ได้ถูกต้อง แสดงให้เห็นถึงความสามารถในการเข้าใจบริบทภาษาจีนที่ค่อนข้างดี
ซีรีส์ “弱智吧” (บาร์คนปัญญาอ่อน)
Prompt1:
หอยนางรมต้มสุกแล้วเรียกว่าอะไร?
ผลลัพธ์:
Prompt2:
ใช้น้ำมาผสมน้ำ จะได้น้ำเข้มข้นหรือน้ำเจือจาง?
ผลลัพธ์:
ผลลัพธ์:
* คำถามหอยนางรม: ไม่เข้าใจเจตนาของคำถามทายปัญญา (คำตอบที่คาดหวังคือ “หอยสุก”) ตีความเกินจริง
* คำถามน้ำผสมน้ำ: ตอบถูก
การสร้างกลยุทธ์แบบเปิด
Prompt:
1. โดยรวม: เงินทุนไม่เพียงพอ 40.4%, ขาดความรู้ 23.9%, ความไม่แน่นอนในอนาคต 21.7%, ข้อจำกัดนโยบาย 14%
2. เมืองระดับ 1: เงินทุนไม่เพียงพอ 44.4%, ขาดความรู้ 15.8%, ความไม่แน่นอนในอนาคต 22.7%, ข้อจำกัดนโยบาย 16.9%
3. เมืองระดับ 2: เงินทุนไม่เพียงพอ 38.3%, ขาดความรู้ 27.9%, ความไม่แน่นอนในอนาคต 21.2%, ข้อจำกัดนโยบาย 12.5%
โปรดวิเคราะห์ความแตกต่างและสาเหตุของความยากลำบากในการซื้อที่อยู่อาศัยของเยาวชนในเมืองระดับ 1 และ 2 จากข้อมูลข้างต้น และให้คำแนะนำจากมุมมองของรัฐบาล ผู้ซื้อบ้าน ครอบครัว และคู่สมรส
ผลลัพธ์:
ผลลัพธ์: แสดงผลยอดเยี่ยม การวิเคราะห์ข้อมูลลึกซึ้ง การระบุสาเหตุความแตกต่างแม่นยำ คำแนะนำที่ให้แบ่งตามมุมมองครอบคลุมและตรงประเด็น
二、 การทดสอบความสามารถด้านโค้ด
2.1 การพัฒนาเว็บ – ประเภทเกม
เกม Gold Miner
Prompt:
โปรดสร้างเกม “Gold Miner” คลาสสิก กลไกการเล่นหลัก 道具 และระบบด่านควรเป็นไปตามการตั้งค่าดังต่อไปนี้:
กลไกการเล่นหลัก:
– การแกว่งและการยิงตะขอ: ด้านบนของหน้าจอเกมจะมีคนงานเหมืองและม้วนเชือกของเขา ตะขอจะแกว่งไปมาอัตโนมัติ เมื่อผู้เล่นกดปุ่มใดๆ (หรือคลิกเมาส์) ตะขอจะยิงออกไปเป็นเส้นตรงตามทิศทางปัจจุบัน
– การจับและดึงกลับ: หากตะขอสัมผัสกับวัตถุใดๆ ใต้ดินในเส้นทางที่ยื่นออกไป มันจะจับวัตถุนั้นและเริ่มดึงกลับโดยอัตโนมัติ ความเร็วในการดึงกลับขึ้นอยู่กับน้ำหนักของวัตถุที่จับ เช่น ก้อนทองเล็กดึงกลับเร็ว แต่หินก้อนใหญ่ดึงกลับช้ามาก
– เป้าหมายด่าน: แต่ละด่านมีขีดจำกัดเวลาที่ชัดเจน (เช่น 60 วินาที) และจำนวนเงินเป้าหมาย ผู้เล่นต้องจับวัตถุที่มีมูลค่ารวมเกินเป้าหมายภายในเวลาที่กำหนดจึงจะผ่านด่านได้
การตั้งค่าวัตถุใต้ดิน:
– ทอง: มีก้อนทองหลายขนาดและรูปร่าง ยิ่งมีปริมาตรมาก มูลค่าก็ยิ่งสูง แต่ก็ยิ่งหนักด้วย
– เพชร: มีปริมาตรเล็ก มูลค่าสูงมาก ดึงกลับเร็วมาก เป็นเป้าหมายที่ควรจับเป็นอันดับแรก
– หิน: มีมูลค่าต่ำมาก แต่หนักผิดปกติ การจับจะเสียเวลาอันมีค่าไปมาก ควรหลีกเลี่ยง
– ถุงโชค (ถุงเครื่องหมายคำถาม): ถุงที่มีมูลค่าแบบสุ่ม อาจให้เงินจำนวนมาก ยาน้ำกำลัง หรือเงินจำนวนเล็กน้อย
– ถังระเบิด: หากตะขอจับมันโดยไม่ตั้งใจ มันจะระเบิดทันที และทำลายวัตถุทั้งหมดในรัศมีรอบๆ (รวมถึงทองและเพชร)
ระบบร
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23029
