Step-3.5-Flash แห่ง Step-Scale Stars: การอนุมานความเร็วสูง 300 tps, คำตอบใหม่สำหรับยุคเอเจนต์

2026年2月2日 pm10:10 • ข่าวสารอุตสาหกรรม AI • 230 views

ข้อสรุปหลัก: ความเร็วคือความสามารถในการแข่งขันที่สำคัญในยุคเอเจนต์

ภูมิหลังของโมเดล:

หลังจากที่ StepFun (阶跃星辰) เข้าร่วมการประเมินโมเดลภาษาขนาดใหญ่ในประเทศเมื่อเดือนกรกฎาคมปีที่แล้ว ก็เงียบหายไปชั่วระยะหนึ่ง นี่ไม่ใช่การหยุดนิ่ง แต่เป็นการทุ่มเทวิจัยและพัฒนา ตอนนี้ ผลงานชิ้นใหม่ Step-3.5-Flash ได้เปิดตัวอย่างเป็นทางการแล้ว สะท้อนให้เห็นถึงแนวคิดของทีมเกี่ยวกับความต้องการโมเดลในยุคเอเจนต์ (Agent)

ในด้านความสามารถหลัก โมเดลนี้ก้าวข้ามขีดจำกัดอย่างเห็นได้ชัด: ระดับสติปัญญาของมันได้กระโดดจากกลุ่มท้ายตารางมาอยู่ในกลุ่มที่สอง ประสิทธิภาพโดยเฉลี่ยเทียบเท่ากับ DeepSeek V3.2 ที่มีขนาดใหญ่กว่า ซึ่งเพียงพอสำหรับงานที่ขับเคลื่อนโดยเอเจนต์ จุดเด่นที่โดดเด่นที่สุดคือ ความเร็วในการให้เหตุผลที่ยอดเยี่ยม: ในขณะที่โมเดลในประเทศมี TPS (จำนวนโทเคนที่สร้างต่อวินาที) 50 เป็นเรื่องปกติ และ 100 TPS ต้องใช้เวอร์ชัน “Turbo” Step-3.5-Flash มีความเร็วเฉลี่ยใกล้เคียง 200 TPS และสูงสุดถึง 300 TPS ได้ ความได้เปรียบด้านความเร็วนี้ช่างโดดเด่น จนความยาวผลลัพธ์เฉลี่ย 33K ของมันก็ดูเหมือนจะยอมรับได้

มุมมองของ StepFun คือ: ในยุคเอเจนต์ โมเดลไม่ได้ยิ่งใหญ่ยิ่งดี “เล็กกระทัดรัด ชนะด้วยความเร็ว” กลายเป็นกลยุทธ์ใหม่ – ใช้สายโซ่เครื่องมือเอเจนต์ที่สมบูรณ์เพื่อทดลองและแก้ไขข้อผิดพลาดอย่างรวดเร็ว และสุดท้ายวัดผลด้วยประสิทธิภาพการทำงาน Step-3.5-Flash คือผลลัพธ์ของการนำแนวคิดนี้ไปปฏิบัติ

การประเมินความสามารถเชิงตรรกะ:

หมายเหตุ 1: ตารางด้านบนเน้นการเปรียบเทียบ แสดงเฉพาะโมเดลบางส่วนที่สามารถเปรียบเทียบได้ ไม่ใช่การจัดอันดับทั้งหมด
หมายเหตุ 2: รายละเอียดคำถามและวิธีการทดสอบดูได้ที่: การประเมินความสามารถเชิงตรรกะของโมเดลภาษาขนาดใหญ่ แบบขวาง เดือน 26-01 (เพิ่มคำถาม #56)
*หมายเหตุ 3: รายการอันดับเต็มอัปเดตที่ https://llm2014.github.io/llm_benchmark/

Step-3.5-Flash (เวอร์ชัน 3.5) ก้าวหน้ามากเมื่อเทียบกับรุ่นก่อนหน้า Step-3 ต่อไปนี้จะเปรียบเทียบ Step-3 กับ DeepSeek V3.2 (DS3.2) เป็นหลัก

การปรับปรุงหลัก:

การสรุปและความเข้าใจเชิงลึก: ปัญหาประเภทการสรุปเป็น “จุดบอดทางสติปัญญา” ของรุ่นก่อน ซึ่งมีแนวโน้มจะใช้วิธี brute force เพื่อค้นหากฎ ในขณะที่เวอร์ชัน 3.5 แสดงให้เห็นถึงวิธีการที่ชาญฉลาดกว่า: มันจะจัดสรรงบประมาณโทเคนสูงถึง 4K สำหรับความเป็นไปได้ต่างๆ เพื่อทำการทดสอบอย่างเป็นระบบ และจะไม่ละทิ้งทิศทางใดทิศทางหนึ่งก่อนจะได้ข้อสรุป ในปัญหาประเภทนี้ เวอร์ชัน 3.5 มีประสิทธิภาพใกล้เคียงกับ DS3.2 และบางส่วนก็ดีกว่า
การปฏิบัติตามคำสั่ง: การปรับปรุงในด้านนี้มีจำกัด เวอร์ชัน 3.5 ดีกว่าที่มีความเสถียรมากกว่า มีความสม่ำเสมอที่ดีกว่าในการทดสอบหลายรอบ แต่ขีดจำกัดความสามารถไม่ได้เพิ่มขึ้นอย่างชัดเจน โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับคำสั่งที่ซับซ้อนซึ่งต้องการความเข้าใจโดยอ้อม ประสิทธิภาพของมันคล้ายกับรุ่นก่อนหน้า ขีดจำกัดล่างดีขึ้นเล็กน้อย แต่ขีดจำกัดบนยังคงเหมือนเดิม ในทางตรงกันข้าม DS3.2 แข็งแกร่งกว่าอย่างเห็นได้ชัดในด้านนี้ ในคำถามประเภทคำสั่งที่เวอร์ชัน 3.5 อาจเสียคะแนน DS3.2 มักจะได้คะแนนเต็มอย่างเสถียร
การคำนวณทางคณิตศาสตร์: ความสามารถในการคำนวณคล้ายกับกรณีการปฏิบัติตามคำสั่ง ข้อได้เปรียบหลักของเวอร์ชัน 3.5 คือความเสถียร สำหรับการคำนวณที่ค่อนข้างซับซ้อน โมเดลรุ่นก่อนหน้าจะทำให้ผลลัพธ์ผิดพลาดเป็นวงกว้างเนื่องจากการขยายของข้อผิดพลาด เวอร์ชัน 3.5 ยังมีข้อบกพร่องในการควบคุมข้อผิดพลาด ยิ่งขั้นตอนการคำนวณมาก อัตราความผิดพลาดก็ยิ่งสูง อย่างไรก็ตาม DS3.2 ในด้านนี้ไม่ได้ดีกว่าเวอร์ชัน 3.5 มากนัก ทั้งสองมีขีดจำกัดล่างใกล้เคียงกัน
ภาพหลอนบริบท: ปัญหาภาพหลอนของรุ่นก่อนหน้าค่อนข้างรุนแรง เกือบไม่สามารถทำงานที่เกี่ยวข้องได้ เวอร์ชัน 3.5 มีความก้าวหน้าในด้านนี้ สำหรับปัญหาการดึงข้อมูล บางครั้งสามารถทำได้ด้วยความแม่นยำค่อนข้างสูง แต่ขีดจำกัดล่างยังต่ำอยู่ ส่วนใหญ่ความแม่นยำไม่สูง และเมื่อปริมาณข้อมูลที่ต้องดึงเพิ่มขึ้น อัตราความสำเร็จจะลดลงอย่างรวดเร็ว คำถาม #56 ที่เพิ่มเข้ามาใหม่ ต้องการให้จำและดึงข้อมูลซ้ำๆ มากกว่า 50 ครั้ง ความแม่นยำของเวอร์ชัน 3.5 ลดลงจนเทียบเท่ากับ Gemini 3 Flash และ Sonnet 4.5 ในโหมดที่ไม่ใช่การให้เหตุผล

ข้อบกพร่องที่ยังคงมีอยู่:

ความสามารถในการสนทนาหลายรอบ: ในการทดสอบทายคำมาตรฐาน เวอร์ชัน 3.5 สามารถจดจำการตั้งค่าเริ่มต้นได้ตลอดเวลา แต่มักจะติดอยู่กับรายละเอียดย่อยเร็วเกินไป ตัวอย่างเช่น เมื่อคำเป้าหมายคือ “ป้ายโฆษณา” และโมเดลได้ใช้วิธีแบ่งครึ่งเพื่อระบุอย่างถูกต้องแล้วว่าเป็น “วัตถุแสดงผลสาธารณะ” มันจะเริ่มค้นหาแบบสุ่มในหมวดย่อย “ป้ายจราจร” ในปัญหาการเขียนโปรแกรม ข้อบกพร่องนี้แสดงออกมาในรูปแบบที่ต้องการการแทรกแซงจากมนุษย์บ่อยครั้งเพื่อแก้ไขทิศทาง ความสามารถในการระบุตำแหน่งและแก้ไขปัญหาทางตรรกะด้วยตนเองค่อนข้างอ่อน
ประสิทธิภาพของผลลัพธ์: ดังที่กล่าวไว้ก่อนหน้านี้ ปริมาณการใช้โทเคนของเวอร์ชัน 3.5 เพิ่มขึ้น 103% เมื่อเทียบกับรุ่นก่อนหน้า โดยเฉพาะอย่างยิ่งในปัญหาการให้เหตุผลที่มีห่วงโซ่ยาว กระบวนการคิดมักใช้โทเคนมากกว่าหนึ่งเท่าของรุ่นก่อนหน้า แต่ในที่สุดอัตราความถูกต้องเพิ่มขึ้นเพียงเล็กน้อยหรือไม่เพิ่มเลย ในห่วงโซ่ความคิด (CoT) มีการไตร่ตรองที่ไร้ประโยชน์จำนวนมาก บ่อยครั้งที่คำตอบชัดเจนในตอนกลางของการให้เหตุผลแล้ว แต่โมเดลยังคงใช้โทเคนหลายพันตัวเพื่อยืนยันซ้ำซ้อน โชคดีที่ราคาต่อโทเคนของเวอร์ชัน 3.5 ต่ำ แม้จะดังกล่าว แต่โดยรวมแล้วยังมีอัตราส่วนราคาต่อประสิทธิภาพที่ดี

สรุป:

StepFun เปรียบเสมือนนักวิชาการที่ทุ่มเทวิจัยและพัฒนา นำเสนอผลิตภัณฑ์ที่เป็นเอกลักษณ์สู่ตลาดเป็นครั้งคราว ตั้งแต่ Step-2 พารามิเตอร์ล้านล้านในอดีต จนถึง Step-3.5-Flash ที่เร็วสูงสุด 300 TPS ในปัจจุบัน

การขับเคลื่อนเอเจนต์อย่างมีประสิทธิภาพเป็นคำถามเปิด ผู้ผลิตโมเดลรายใหญ่ต่างมีมุมมองของตนเอง StepFun ได้ให้คำตอบของตัวเอง – ความเร็วในการให้เหตุผลที่ยอดเยี่ยม และด้วยเหตุนี้จึงได้รับชิปสำคัญในการแข่งขันโมเดลภาษาขนาดใหญ่อย่างต่อเนื่อง โมเดลโอเพ่นซอร์สที่มีข้อได้เปรียบทั้งด้านความเร็ว ความสามารถ และต้นทุน ความน่าดึงดูดใจของมันไม่ต้องพูดถึง

ติดตาม “Whale Habitat” (鲸栖) Mini Program เพื่อรับข่าวสาร AI ล่าสุด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง