
Kimi-K2.5-Thinking เป็นโมเดลตรรกะแฟลกชิปล่าสุดที่เปิดตัวโดย Moon Dark Side ซึ่งถูกเรียกอย่างเป็นทางการว่า “โมเดลที่ฉลาดที่สุดของ Kimi จนถึงปัจจุบัน” โมเดลนี้แสดงผลลัพธ์ที่ดีที่สุดในสาขาโอเพ่นซอร์สในด้าน Agent, โค้ด, ภาพ, วิดีโอ และงานอัจฉริยะทั่วไปหลายอย่าง โดยมีแกนหลักอยู่ที่การใช้สถาปัตยกรรม Deep Thinking ซึ่งมีความสามารถในการให้เหตุผลที่แข็งแกร่ง
สรุปหลัก:
-
จุดเด่นสามประการ:
- ความสามารถในการให้เหตุผลเชิงลึกที่ยอดเยี่ยม: แสดงผลได้ดีในงานคำนวณทางคณิตศาสตร์และตรรกะ สามารถให้กระบวนการให้เหตุผลโดยละเอียด
- ความสามารถในการเข้าใจความหมายภาษาจีนที่แข็งแกร่ง: แสดงผลได้ดีในงานที่มีลักษณะเฉพาะของภาษาจีน เช่น ความกำกวมในการตัดประโยค มุกวัฒนธรรม
- สไตล์การเขียนเชิงสร้างสรรค์ที่หลากหลาย: สามารถเลียนแบบสไตล์วรรณกรรมประเภทต่างๆ ได้ค่อนข้างดี
- ความสามารถในการสร้างแบบจำลอง 3 มิติและการเรนเดอร์พื้นผิวที่โดดเด่น: ให้ผลที่น่าประทับใจเมื่อทำการจำลองวัตถุต่างๆ เช่น กล้อง, เตาไมโครเวฟ, Switch
-
จุดด้อยสามประการ:
- ความเร็วในการตอบสนองช้า: เวลาในการให้เหตุผลโดยทั่วไปอยู่ระหว่าง 10 วินาทีถึง 500 วินาที
- ความเสถียรในการสร้างโค้ดไม่เพียงพอ: ล้มเหลวในการจำลองเกมที่ซับซ้อน (เช่น Tank Battle) เครื่องมือสร้างบางส่วนมีข้อบกพร่องในการทำงาน
- ความสามารถในการให้เหตุผลเชิงพื้นที่แบบมัลติโมดัลมีจำกัด: แสดงผลไม่ดีในงานต่างๆ เช่น การคลี่รูปหกหน้า, การระบุตำแหน่งเป้าหมาย, การจดจำสี
สรุปในหนึ่งประโยค: Kimi-K2.5-Thinking เป็นโมเดลประเภทคิดที่มีความสามารถในการให้เหตุผลเชิงลึกที่ยอดเยี่ยม ความเข้าใจภาษาจีนที่แม่นยำ และการเรนเดอร์พื้นผิว 3 มิติที่โดดเด่น เหมาะสำหรับสถานการณ์ที่ต้องการการวิเคราะห์โดยละเอียดและการให้เหตุผลที่ซับซ้อน แต่ยังมีพื้นที่สำหรับการปรับปรุงในด้านความเร็วในการตอบสนอง ความเสถียรของโค้ด และความสามารถในการให้เหตุผลเชิงพื้นที่ภาพ
สารบัญบทความ
- สรุปอ่านเร็ว
- 一、 การทดสอบความสามารถพื้นฐาน
- 1.1 การให้เหตุผลทางคณิตศาสตร์ (การคำนวณตัวเลขใหญ่, กับดักตรรกะ ฯลฯ)
- 1.2 การประมวลผลข้อความ (การแยกแยะความหมาย, คำถามจากบาร์คนโง่ ฯลฯ)
- 二、 การทดสอบความสามารถด้านโค้ด
- 2.1 ประเภทเกม (Gold Miner, Space Shooter ฯลฯ)
- 2.2 ประเภทเครื่องมือ (เลียนแบบ Google, จำลอง Switch ฯลฯ)
- 2.3 ฉาก 3 มิติ (การจำลองคลื่นทะเล, สวน Voxel)
- 2.4 การออกแบบ UI (สภาพอากาศ iOS, แลนดิ้งเพจระดับภาพยนตร์)
- 2.5 แอนิเมชัน SVG (โครงสร้างเครื่องยนต์, การเคลื่อนที่ของดาวเคราะห์)
- 三、 การทดสอบความสามารถเชิงสร้างสรรค์
- 3.1 การสร้างเนื้อหา (เขียนต่อนวนิยาย, สไตล์ Zhen Huan, วาทศิลป์ในที่ทำงาน)
- 3.2 การทำ PPT (บันทึกเหตุการณ์สำคัญประจำปี)
- 3.3 การออกแบบและการจัดหน้า (โปสเตอร์ในที่ทำงาน)
- 四、 การทดสอบความสามารถแบบมัลติโมดัล
- 4.1 การจดจำ OCR (การคืนค่าแบบฟอร์ม, การดึงข้อความ)
- 4.2 การเข้าใจภาพ (การแปลงรูปทรงพื้นที่, หาความแตกต่าง, การระบุพันธุ์แมว)
- 4.3 การเข้าใจวิดีโอ (การวิเคราะห์สภาพแวดล้อม, การจับการเคลื่อนไหว)
- 五、 การทดสอบการใช้งานเชิงวิชาชีพ
- 5.1 การวิเคราะห์ข้อมูล (การวิจัยภาพรวมสถาปัตยกรรม Agent)
- 六、 การทดสอบความสามารถแบบบูรณาการ
- 6.1 การทดสอบแบบบูรณาการ (เครื่องพิมพ์โบราณ, แลนดิ้งเพจเกม, เว็บไซต์凡人修仙传)
- สรุป
一、 การทดสอบความสามารถพื้นฐาน
1.1 การให้เหตุผลทางคณิตศาสตร์
การคำนวณตัวเลขใหญ่
Prompt:
การคำนวณตัวเลขใหญ่: 178939247893 * 299281748617 เท่ากับเท่าไหร่?
- ผลลัพธ์:

ผลลัพธ์การคำนวณคือ 53,553,251,005,629,872,913,981 โดยมีข้อผิดพลาดในหลักสุดท้าย (ในคำตอบที่ถูกต้องคือ 627 ไม่ใช่ 629) แต่โมเดลให้แนวคิดการตรวจสอบโดยละเอียด แสดงให้เห็นถึงความสามารถในการให้เหตุผลทางคณิตศาสตร์ที่แข็งแกร่ง
การให้เหตุผลเรขาคณิตสามมิติ
Prompt:
ไม้ไผ่ยาว 5.5 เมตร สามารถลอดผ่านประตูสูง 4 เมตร กว้าง 3 เมตรได้หรือไม่? โปรดพิจารณาเรขาคณิตสามมิติ
- ผลลัพธ์:

ตอบถูกต้อง กระบวนการให้เหตุผลละเอียด มีการคำนวณที่แม่นยำตั้งแต่เส้นทแยงมุมบนระนาบไปจนถึงมุมเอียงสามมิติ แสดงให้เห็นถึงความสามารถในการให้เหตุผลเชิงพื้นที่เรขาคณิตที่ยอดเยี่ยม
คำถามกับดักตรรกะ
Prompt:
สมมติว่ามีสามทีมสตาร์ทอัพ (A, B, C) กำลังแข่งขันเพื่อรับเงินทุนโครงการหนึ่ง การคัดเลือกมีกฎดังนี้:
1. แต่ละทีมส่งแผนธุรกิจหนึ่งฉบับ หัวข้อต้องเป็น “พลังงานยั่งยืน”, “เมืองอัจฉริยะ” หรือ “สุขภาพการแพทย์” อย่างใดอย่างหนึ่งเท่านั้น และแต่ละหัวข้อสามารถมีทีมเลือกได้เพียงทีมเดียว
2. ทีม B เลือก “เมืองอัจฉริยะ”
3. หากทีม A เลือก “พลังงานยั่งยืน” แผนธุรกิจของทีม C ต้องมีความสร้างสรรค์มากกว่าแผนของทีม A ถึงจะชนะ
4. ในที่สุดจะมีเพียงทีมเดียวที่ได้รับเงินทุน
5. ภายหลังทราบว่า แผนของทีม C มีความสร้างสรรค์น้อยกว่าแผนของทีม A เล็กน้อย
ถามว่า: ทีมใดได้รับเงินทุนโครงการในที่สุด? และอธิบายกระบวนการให้เหตุผลของคุณ
- ผลลัพธ์:

โมเดลให้ข้อสรุปว่าทีม A ชนะ กระบวนการให้เหตุผลสมบูรณ์แต่มีการข้ามขั้นตอนตรรกะ คำตอบที่ถูกต้องควรเป็น “ไม่สามารถระบุผู้ชนะได้อย่างแน่นอน แต่สามารถระบุได้ว่า C ไม่ชนะ ผู้ชนะอาจเป็นได้เพียง A หรือ B เท่านั้น” โมเดลตัดสินใจเกินไปโดยตัด B ออก
คำถามพี่น้องของเสี่ยวหง
Prompt:
เสี่ยวหงมีพี่ชาย 2 คน น้องสาว 3 คน แล้วพี่ชายของเสี่ยวหงมีน้องสาวกี่คน
- ผลลัพธ์:

ตอบถูกต้อง คำตอบคือ 4 คน การวิเคราะห์ชัดเจนเข้าใจง่าย
สาเหตุการบินของนกอินทรี
Prompt:
ในวันหนึ่งในอนาคต คุณหลี่กำลังผลิตวัสดุแม่เหล็กลอยตัวตัวนำยิ่งยวดในห้องแล็บ แล้วพบว่าหนูในห้องแล็บบินอยู่ในอากาศ จากการวิเคราะห์พบว่า เป็นเพราะหนูเผลอกินวัสดุแม่เหล็กลอยตัวเข้าไป วันต่อมา คุณหลี่พบว่าอีกัวในห้องแล็บก็บินอยู่ในอากาศเช่นกัน จากการวิเคราะห์พบว่า เป็นเพราะอีกัวกินหนูเข้าไป วันที่สาม คุณหลี่พบว่านกอินทรีในห้องแล็บก็บินอยู่ในอากาศเช่นกัน คุณคิดว่าสาเหตุคืออะไร
- ผลลัพธ์:

โมเดลให้คำตอบจากการให้เหตุผลห่วงโซ่อาหาร (นกอินทรีกินอีกัว) แต่ก็ได้กล่าวถึงคำตอบสามัญสำนึกที่ว่า “นกอินทรีบินได้อยู่แล้ว” ด้วย แสดงให้เห็นว่ามีความสามารถในการตัดสินใจตามสามัญสำนึกในระดับหนึ่ง ซึ่งดีกว่าการตกหลุมพรางตรรกะเพียงอย่างเดียว
1.2 การประมวลผลข้อความ
การกลับลำดับสตริง
Prompt:
เขียนตัวอักษรทั้งหมดของประโยค “I love Kimi-K2.5-Thinking” กลับลำดับ
- ผลลัพธ์:

ตอบถูกต้อง ผลลัพธ์คือ “gniknihT-5.2K-imiK evol I” การดำเนินการระดับตัวอักษรถูกต้องไม่มีข้อผิดพลาด
การแยกแยะความหมาย
Prompt:
หัวเว่ยที่ปรากฏต่อไปนี้เป็นแบรนด์ในอุตสาหกรรม 3C หรือไม่?
– หลิวเต๋อหัวประชาสัมพันธ์ละครใหม่
- ผลลัพธ์:

ตอบถูกต้อง ระบุได้อย่างแม่นยำว่า “หัวเว่ย” เป็นการรวมกันของ “หลิวเต๋อหัว” และ “เพื่อ” ไม่ใช่แบรนด์ 3C แสดงให้เห็นถึงความสามารถในการเข้าใจการแบ่งคำภาษาจีนที่ยอดเยี่ยม
การเข้าใจความรู้
Prompt:
จะเข้าใจ “แต่ติงเจินไม่พูดภาษาจีน แต่ติงเจินพูดภาษาจีนได้” อย่างไร
- ผลลัพธ์:

ตอบได้ยอดเยี่ยม ตีความตัวละครสองคนคือ “ตันเต้” (กวีชาวอิตาลี) และ “ติงเจิน” (ดาราอินเทอร์เน็ตชาวจีน) ได้อย่างแม่นยำ และวิเคราะห์จุดขำของการตัดประโยคที่กำกวมโดยละเอียด แสดงให้เห็นถึงความสามารถในการเข้าใจความหมายภาษาจีนที่ยอดเยี่ยม
ชุดคำถามจากบาร์คนโง่
Prompt1:
หอยนางรมต้มสุกแล้วเรียกว่าอะไร?
- ผลลัพธ์:

Prompt2:
ใช้น้ำผสมน้ำ จะได้น้ำเข้มข้นหรือน้ำเจือจาง
- ผลลัพธ์:

ตอบทั้งสองข้อได้เหมาะสม สำหรับคำถามหอยนางรมให้การวิเคราะห์หลายมุมมอง (ยังเรียกว่าหอยนางรม, หอยนางรมสุก, หอยเชลล์แห้ง ฯลฯ) สำหรับคำถามน้ำผสมน้ำชี้ได้ถูกต้องว่า “ยังคงเป็นน้ำ” แสดงให้เห็นถึงการตัดสินใจตามสามัญสำนึกและอารมณ์ขันที่ดี
การสร้างกลยุทธ์แบบเปิด
Prompt:
1. โดยรวม: เงินทุนไม่เพียงพอ 40.4%, ขาดความรู้ 23.9%, ความไม่แน่นอนในอนาคต 21.7%, ข้อจำกัดนโยบาย 14%
2. เมืองระดับ 1: เงินทุนไม่เพียงพอ 44.4%, ขาดความรู้ 15.8%, ความไม่แน่นอนในอนาคต 22.7%, ข้อจำกัดนโยบาย 16.9%
3. เมืองระดับ 2: เงินทุนไม่เพียงพอ 38.3%, ขาดความรู้ 27.9%, ความไม่แน่นอนในอนาคต 21.2%, ข้อจำกัดนโยบาย 12.5%
โปรดวิเคราะห์ความแตกต่างและสาเหตุของความยากลำบากในการซื้อที่อยู่อาศัยของเยาวชนในเมืองระดับ 1 และ 2 จากข้อมูลข้างต้น และให้คำแนะนำจากมุมมองของรัฐบาล, ผู้ซื้อบ้าน, ครอบครัว, คู่สมรส
- ผลลัพธ์:

การวิเคราะห์ครอบคลุม เริ่มจากความแตกต่างของข้อมูลและให้คำแนะนำจากหลายมุมมอง มีทั้งความลึกและความกว้าง
二、 การทดสอบความสามารถด้านโค้ด
2.1 การพัฒนาเว็บ – ประเภทเกม
เกม Gold Miner
Prompt:
โปรดสร้างเกม “Gold Miner” คลาสสิก กลไกการเล่นหลัก, ไอเทม และระบบด่านควรเป็นไปตามการตั้งค่าดังต่อไปนี้:
กลไกการเล่นหลัก:
– การแกว่งและการยิงตะขอ: ด้านบนของอินเทอร์เฟซเกมจะมีคนงานเหมืองและม้วนเชือกของเขา โดยตะขอจะแกว่งไปมาอัตโนมัติ เมื่อผู้เล่นกดปุ่มใดๆ (หรือคลิกเมาส์) ตะขอจะยิงออกไปเป็นเส้นตรงตามทิศทางปัจจุบัน
– การจับและดึงกลับ: หากตะขอสัมผัสกับไอเทมใดๆ ใต้ดินในเส้นทางที่ยื่นออกไป มันจะจับไอเทมนั้นและเริ่มดึงกลับโดยอัตโนมัติ ความเร็วในการดึงกลับขึ้นอยู่กับน้ำหนักของไอเทมที่จับ เช่น ก้อนทองเล็กดึงกลับเร็ว ในขณะที่หินก้อนใหญ่ดึงกลับช้ามาก
– เป้าหมายด่าน: แต่ละด่านมีขีดจำกัดเวลาที่ชัดเจน (เช่น 60 วินาที) และจำนวนเงินเป้าหมาย ผู้เล่นต้องจับไอเทมที่มีมูลค่าร
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23019
