มกราคม 2026: ภาพรวมล่าสุดของโมเดล AI ขนาดใหญ่ – Alibaba, Tencent, Zhipu และบริษัทยักษ์ใหญ่ปล่อยความก้าวหน้าใหม่ด้านเสียง การมองเห็น และเอเจนต์อัจฉริยะอย่างหนาแน่น

2026年2月2日 pm12:05 • ข่าวสารอุตสาหกรรม AI • 228 views

5 มกราคม

【ปิดต้นทาง】 Alibaba Tongyi เปิดตัวโมเดลสังเคราะห์เสียง CosyVoice cosyvoice-v3-flash เพิ่ม 24 โทนเสียงใหม่เพื่อตอบสนองความต้องการหลากหลายสถานการณ์ โทนเสียงใหม่รวมถึง: ภาษาถิ่น (หลงเจียอี้, หลงเหล่าเทีย), การตลาดต่างประเทศ, การอ่านบทกวี (หลงเฟย), ผู้ช่วยเสียง (หลงเสี่ยวชุน, หลงเสี่ยวเซี่ย, YUMI), การเข้าสังคมและเพื่อนคู่ใจ (หลงเฉิง, หลงเจ๋อ, หลงเจ๋อ, หลงเหยียน, หลงซิง, หลงเทียน, หลงหว่าน, หลงเหยียน, หลงเฟยเฟย, หลงเฮ่า), หนังสือเสียง (หลงซานซู, หลงหยวน, หลงเยว่, หลงซิว, หลงหนาน), การประกาศข่าว (หลงชู)

6 มกราคม

【ปิดต้นทาง】 Alibaba Tongyi Qianwen เปิดตัวโมเดลรู้จำเสียง qwen3-asr-flash และ qwen3-asr-flash-2025-09-08 รองรับโหมดเข้ากันได้กับ OpenAI มอบอินเทอร์เฟซมาตรฐานสำหรับการรู้จำไฟล์เสียงให้กับนักพัฒนา มีเป้าหมายเพื่อทำให้กระบวนการบูรณาการง่ายขึ้น และเพิ่มประสิทธิภาพการพัฒนาแอปพลิเคชันแปลงเสียงเป็นข้อความ

7 มกราคม

【เปิดต้นทาง】 ทีม Youtu ของ Tencent เปิดต้นทางโมเดลภาษาขนาดใหญ่ขนาดเล็ก Youtu-LLM-2B โมเดลนี้มีพารามิเตอร์เพียง 1.96 พันล้านตัว รองรับคอนเท็กซ์ยาว 128k และมีความสามารถเอเจนต์ (agentic) ดั้งเดิม

8 มกราคม

【เปิดต้นทาง】 ทีม Qwen เปิดตัวซีรีส์โมเดล Qwen3-VL-Embedding และ Qwen3-VL-Reranker สร้างบนพื้นฐานของโมเดล Qwen3-VL ที่เพิ่งเปิดต้นทาง ออกแบบมาเฉพาะสำหรับสถานการณ์การค้นหาข้อมูลหลายโหมดและการทำความเข้าใจข้ามโหมด โมเดล Embedding สร้างการแสดงเวกเตอร์ข้ามโหมดผ่านพื้นที่ความหมายร่วมกัน โมเดล Reranker ใช้สำหรับประเมินความเกี่ยวข้องของคู่ข้อมูลอินพุตแบบผสมโหมดอย่างแม่นยำ กระบวนการดึงข้อมูลสองขั้นตอนที่ทำงานร่วมกันมีเป้าหมายเพื่อเพิ่มความแม่นยำอย่างมีนัยสำคัญ โมเดลสืบทอดการรองรับภาษา 30+ ภาษาจาก Qwen3-VL และให้มิติเวกเตอร์ที่ยืดหยุ่น คำสั่งที่ปรับแต่งได้ และการปรับให้เหมาะสมด้วยควอนไทเซชัน

12 มกราคม

【ปิดต้นทาง】 Alibaba Tongyi Qianwen เปิดตัวโมเดลสแนปช็อตสร้างภาพ qwen-image-plus-2026-01-09 เป็นเวอร์ชันกลั่นและเร่งความเร็วของ qwen-image-max โมเดลนี้รองรับการสร้างภาพคุณภาพสูงอย่างรวดเร็ว โดยรักษาคุณภาพการสร้างไว้ในขณะที่เพิ่มความเร็วในการอนุมานอย่างมาก มอบโซลูชันที่มีประสิทธิภาพสำหรับสถานการณ์สร้างภาพความถี่สูง

13 มกราคม

【เปิดต้นทาง】 Zhipu AI ร่วมกับ Huawei เปิดต้นทางโมเดลสร้างภาพรุ่นใหม่ GLM-Image โมเดลนี้พัฒนาทั้งกระบวนการตั้งแต่ข้อมูลไปจนถึงการฝึกอบรมบนอุปกรณ์ Ascend Atlas 800T A2 และเฟรมเวิร์ก AI Ascend MindSpore เป็นโมเดลหลายโหมด SOTA แรกที่ฝึกอบรมครบกระบวนการบนชิปจีน โมเดลใช้สถาปัตยกรรมไฮบริด “ออโต้รีเกรสซีฟ+ดิฟฟิวชันเอ็นโคเดอร์” ที่นวัตกรรมใหม่ มีเป้าหมายเพื่อให้ความเข้าใจคำสั่งระดับโลกและการวาดรายละเอียดเฉพาะที่ไปด้วยกันอย่างสมดุล แก้ปัญหาการสร้างในสถานการณ์ที่ต้องใช้ความรู้เข้มข้น เช่น โปสเตอร์, PPT ได้อย่างมีประสิทธิภาพ ในด้านการเรนเดอร์ข้อความ ได้อันดับหนึ่งในหมวดเปิดต้นทางบนกระดานคะแนน CVTG-2K และ LongText-Bench โดยเฉพาะอย่างยิ่งเก่งในการสร้างตัวอักษรจีน

【เปิดต้นทาง】 มหาวิทยาลัยชิงหวา, มหาวิทยาลัยเหรินหมิน, Mianbi AI และชุมชน OpenBMB ร่วมกันเปิดต้นทางโมเดลเอเจนต์ AgentCPM-Explore นี่คือโมเดลขนาด 4B สำหรับปลายทางที่สามารถจัดการงานเอเจนต์ที่ยาวและยาก 8 งาน เช่น GAIA, Xbench รองรับการโต้ตอบกับสิ่งแวดล้อมที่มั่นคงและไม่ซ้ำกันมากกว่า 100 รอบ พร้อมเปิดต้นทางทูลเชนกระบวนการทั้งหมด รวมถึงแพลตฟอร์มจัดตารางเครื่องมือแซนด์บ็อกซ์ AgentDock, เฟรมเวิร์กการเรียนรู้เสริมแบบอะซิงโครนัส AgentRL และแพลตฟอร์มประเมินเอเจนต์ AgentToLeaP รองรับการทำซ้ำและการขยายแบบกำหนดเองโดยชุมชนอย่างสมบูรณ์

14 มกราคม

【เปิดต้นทาง】 Baichuan Intelligent เปิดตัว Baichuan-M3-235B โมเดลภาษาขนาดใหญ่เสริมทางการแพทย์แบบเปิดต้นทาง นวัตกรรมหลักอยู่ที่การสร้างแบบจำลองกระบวนการตัดสินใจทางคลินิกอย่างชัดเจน แทนที่จะสร้างคำตอบผิวเผินง่ายๆ ผ่านเทคโนโลยี Fact-Aware RL บรรลุอัตราการหลอน (hallucination) ที่ต่ำโดยไม่ต้องพึ่งพาเครื่องมือภายนอก ในด้านการปรับใช้ การควอนไทซ์ W4 ลดการใช้หน่วยความจำลงเหลือ 26% ของต้นฉบับ ร่วมกับเทคโนโลยีการถอดรหัสเชิงคาดการณ์ Gated Eagle3 เพิ่มความเร็วในการอนุมาน 96%

16 มกราคม

【เปิดต้นทาง】 โมเดลอนุมานเสียงดั้งเดิม Step-Audio-R1.1 ของ Step星辰 ขึ้นอันดับหนึ่งในกระดานคะแนน Artificial Analysis Speech Reasoning ที่อัปเดตล่าสุด ด้วยความแม่นยำ 96.4% แซงหน้าโมเดลหลักเช่น Grok, Gemini, GPT-Realtime รีเฟรชผลลัพธ์ที่ดีที่สุดในประวัติศาสตร์ โมเดลนี้เป็นผู้นำอย่างครอบคลุมในการประนีประนอมระหว่างประสิทธิภาพและความเร็ว ให้ทั้งความสามารถในการสนทนาแบบเรียลไทม์และการอนุมานเสียงที่ซับซ้อน

【เปิดต้นทาง】 Black Forest Labs เปิดต้นทางตระกูลโมเดล FLUX.2 [klein] รวมถึงขนาด 4B และ 9B เป็นซีรีส์โมเดลสร้างภาพที่เร็วที่สุดในปัจจุบัน ซีรีส์นี้รวมความสามารถในการสร้างและแก้ไขไว้ในสถาปัตยกรรมกะทัดรัดเดียว บรรลุการอนุมานแบบ end-to-end ต่ำกว่า 0.5 วินาทีบนฮาร์ดแวร์สมัยใหม่ ในขณะที่ใช้ GPU ระดับผู้บริโภคเพียง 13GB VRAM ก็สามารถรันได้ ทางการยังให้เวอร์ชันควอนไทซ์ FP8 และ NVFP4 ซึ่งบน GPU RTX บรรลุการเร่งความเร็วในการอนุมานสูงสุด 1.6 เท่าและ 2.7 เท่าตามลำดับ และลดการใช้ VRAM ลง 40% และ 55% ตามลำดับ

【เปิดต้นทาง】 ทีม LongCat ของ Meituan เปิดตัวและเปิดต้นทาง LongCat-Flash-Thinking-2601 อย่างเป็นทางการ ในฐานะเวอร์ชันอัปเกรดของโมเดลที่เผยแพร่แล้ว เวอร์ชัน 2601 บรรลุระดับ SOTA ของโมเดลเปิดต้นทางบนเกณฑ์การประเมินหลักเช่น Agentic Search (การค้นหาเอเจนต์), Agentic Tool Use (การเรียกใช้เครื่องมือเอเจนต์), TIR (การให้เหตุผลเชิงโต้ตอบเครื่องมือ) นี่เป็นโมเดลแรกที่เปิดต้นทางอย่างสมบูรณ์และรองรับประสบการณ์ออนไลน์ฟรีใน “โหมดคิดทบทวน” สามารถเริ่มกระบวนการคิดแบบขนานได้ 8 กระบวนการพร้อมกัน

【ปิดต้นทาง】 Alibaba Tongyi Qianwen เปิดตัวโมเดลสแนปช็อตล่าสุด qwen3-tts-vc-realtime-2026-01-15 สำหรับสังเคราะห์เสียงเรียลไทม์ ผลลัพธ์การโคลนเสียงได้รับการปรับปรุงเพิ่มเติมจากเวอร์ชันก่อนหน้า ทำให้เป็นธรรมชาติและใกล้เคียงกับเสียงต้นฉบับมากขึ้น มีเป้าหมายเพื่อมอบความสามารถโคลนโทนเสียงคุณภาพสูงกว่าให้กับแอปพลิเคชันสังเคราะห์เสียงเรียลไทม์

17 มกราคม

【ปิดต้นทาง】 Alibaba Tongyi เปิดตัวโมเดลสร้างวิดีโอจากภาพ wan2.6-i2v-flash รองรับการสร้างวิดีโอที่มีเสียงและไม่มีเสียง โดยวิดีโอทั้งสองประเภทคิดค่าบริการแยกกันตามกฎการคิดค่าบริการของตนเอง โมเดลนี้มีความสามารถในการเล่าเรื่องหลายมุมมองและความสามารถในการประมวลผลเสียง มีเป้าหมายเพื่อมอบรูปแบบการแสดงออกที่หลากหลายยิ่งขึ้นและเครื่องมือสร้างสรรค์ที่ยืดหยุ่นมากขึ้นสำหรับการสร้างวิดีโอ

20 มกราคม

【ปิดต้นทาง】 Alibaba Tongyi Qianwen เปิดตัวซีรีส์โมเดลแก้ไขภาพ Max
Alibaba Tongyi Qianwen เปิดตัวซีรีส์โมเดลแก้ไขภาพ Max รวมถึงสองเวอร์ชันคือ qwen-image-edit-max และ qwen-image-edit-max-2026-01-16 ซีรีส์โมเดลนี้มีความสามารถในการแก้ไขที่มั่นคงและหลากหลายยิ่งขึ้น เสริมความสามารถในการออกแบบอุตสาหกรรมและการให้เหตุผลทางเรขาคณิต และเพิ่มความสม่ำเสมอของตัวละครและความแม่นยำในการแก้ไข มอบการสนับสนุนทางเทคนิคที่ทรงพลังยิ่งขึ้นสำหรับสถานการณ์แก้ไขภาพระดับมืออาชีพ

【เปิดต้นทาง】 Zhipu AI เปิดตัวโมเดลคิดแบบผสม GLM-4.7-Flash
Zhipu AI เปิดตัวโมเดลคิดแบบผสม GLM-4.7-Flash มีพารามิเตอร์ทั้งหมด 30B พารามิเตอร์ที่เปิดใช้งานเพียง 3B ในฐานะโมเดล SOTA ระดับเดียวกัน มอบตัวเลือกใหม่ที่ให้ทั้งประสิทธิภาพและประสิทธิภาพสำหรับการปรับใช้แบบเบา ในเกณฑ์การทดสอบหลักเช่น SWE-bench Verified, τ²-Bench ผลการดำเนินงานโดยรวมเกินกว่า gpt-oss-20b, Qwen3-30B-A3B-Thinking-2507 ได้คะแนน SOTA เปิดต้นทางในซีรีส์โมเดลขนาดเดียวกันและใกล้เคียง บรรลุประสิทธิภาพที่ดีที่สุดด้วยพารามิเตอร์ที่เปิดใช้งานน้อยที่สุด

【เปิดต้นทาง】 LightOn เปิดตัว LightOnOCR-2-1B โมเดลภาษาภาพประสิทธิภาพสูงแบบ end-to-end
LightOn เปิดตัว LightOnOCR-2-1B โมเดลภาษาภาพประสิทธิภาพสูงแบบ end-to-end พารามิเตอร์ 1 พันล้านตัว สำหรับแปลงเอกสาร (PDF, สแกน, ภาพ) เป็นข้อความที่สะอาดและเรียงลำดับตามธรรมชาติ โดยไม่ต้องพึ่งพาไปป์ไลน์ที่เปราะบาง เวอร์ชันที่สองได้รับการฝึกอบรมบนคลังข้อมูลที่ใหญ่ขึ้นและมีคุณภาพสูงกว่า เพิ่มการครอบคลุมเอกสารภาษาฝรั่งเศส เอกสาร arXiv และสแกน ปรับปรุงความสามารถในการประมวลผล LaTeX และบรรลุการทำให้เป็นมาตรฐานที่สะอาดยิ่งขึ้น รองรับการแยกวิเคราะห์อเนกประสงค์สำหรับตาราง, ใบเสร็จ, แบบฟอร์ม, เลย์เอาต์หลายคอลัมน์ และสัญลักษณ์ทางคณิตศาสตร์ และบูรณาการความสามารถในการทำนายกรอบขอบเขตภาพ

22 มกราคม

【เปิดต้นทาง】 FlashLabs เปิดตัวโมเดลหลายโหมดขั้นสูง Chroma-4B
โมเดลหลายโหมดขั้นสูง Chroma-4B ที่พัฒนาโดย FlashLabs เปิดตัวอย่างเป็นทางการ มีเป้าหมายเพื่อทำความเข้าใจและสร้างเนื้อหาข้ามหลายโหมด รวมถึงข้อความและเสียง ในฐานะโมเดลมนุษย์เสมือน Chroma สามารถประมวลผลอินพุตทางการได้ยิน และตอบสนองพร้อมกันทั้งในรูปแบบข้อความและเสียงสังเคราะห์ ทำให้เกิดการโต้ตอบด้วยเสียงที่เป็นธรรมชาติ

【ปิดต้นทาง】 Baidu เปิดตัวเวอร์ชันอย่างเป็นทางการของโมเดลขนาดใหญ่หลายโหมดดั้งเดิม Wenxin 5.0
Baidu ประกาศในงาน Wenxin Moment ว่าโมเดลขนาดใหญ่หลายโหมดดั้งเดิม Wenxin 5.0 เวอร์ชันอย่างเป็นทางการเปิดให้บริการแล้ว มีพารามิเตอร์สูงถึง 2.4 ล้านล้าน ใช้เทคโนโลยีการสร้างแบบจำลองหลายโหมดแบบรวมเป็นหนึ่งเดียวดั้งเดิม รองรับการป้อนข้อมูลและส่งออกข้อมูลหลายประเภท เช่น ข้อความ, ภาพ, เสียง, วิดีโอ ปัจจุบัน ผู้ใช้ส่วนบุคคลสามารถทดลองใช้ได้ในแอป Wenxin และเว็บไซต์ทางการ Wenxin Yiyan ส่วนองค์กรและนักพัฒนาสามารถเรียกใช้ผ่านแพลตฟอร์ม Qianfan ของ Baidu

23 มกราคม

【เปิดต้นทาง】 Tongyi Qianwen เปิดต้นทางซีรีส์โมเดลข้อความเป็นเสียงหลายภาษาประสิทธิภาพสูง Qwen3-TTS
ทีม Qwen ของ Tongyi Qianwen เปิดต้นทางซีรีส์โมเดลข้อความเป็นเสียงหลายภาษาประสิทธิภาพสูง Qwen3-TTS รองรับ 10 ภาษา (รวมถึงจีน, อังกฤษ, ญี่ปุ่น, เกาหลี เป็นต้น) และโทนเสียงภาษาถิ่น ออกแบบมาเฉพาะสำหรับแอปพลิเคชันทั่วโลก คุณสมบัติหลักรวมถึง: การแสดงเสียงที่มีประสิทธิภาพบนพื้นฐานของ Qwen3-TTS-Tokenizer-12Hz ที่พัฒนาด้วยตนเอง รักษาข้อมูลพารา-ภาษาศาสตร์และบรรลุการสร้างใหม่คุณภาพสูง; ใช้สถาปัตยกรรม end-to-end แบบหลายโค้ดบุ๊กไม่ต่อเนื่อง กำจัดคอขวดข้อมูลและข้อผิดพลาดแบบต่อเนื่องของ LM+DiT แบบดั้งเดิม; รองรับการสร้างสตรีมมิ่งความหน่วงแฝงต่ำสุด ความหน่วงแฝง end-to-end เพียง 97ms ตอบสนองความต้องการการโต้ตอบแบบเรียลไทม์

27 มกราคม

【ปิดต้นทาง】 Alibaba Tongyi เปิดตัว qwen3-max-2026-01-23
Alibaba Tongyi เปิดตัว qwen3-max-2026-01-23 เมื่อเทียบกับเวอร์ชัน 23 กันยายน 2025 ผสานโหมดคิดและโหมดไม่คิดได้อย่างมีประสิทธิภาพ เพิ่มประสิทธิภาพโดยรวมของโมเดลอย่างมีนัยสำคัญ ในโหมดคิด โมเดลบูรณาการเครื่องมือสามอย่าง: การค้นหาเว็บ, การดึงข้อมูลจากเว็บเพจ และตัวแปลรหัส โดยการแนะนำเครื่องมือภายนอกในกระบวนการคิด บรรลุความแม่นยำที่สูงขึ้นในปัญหาที่ซับซ้อน มอบการสนับสนุนที่ทรงพลังสำหรับสถานการณ์ที่ต้องการการให้เหตุผลเชิงลึกและการทำงานร่วมกันของเครื่องมือหลายอย่าง

【ปิดต้นทาง】 Mistral เปิดตัว Mistral Vibe 2.0 เอเจนต์เข้ารหัสดั้งเดิมสำหรับเทอร์มินัล
Mistral เปิดตัว Mistral Vibe 2.0 เวอร์ชันอัปเกรดสำคัญของเอเจนต์เข้ารหัสดั้งเดิมสำหรับเทอร์มินัล ขับเคลื่อนโดยตระกูลโมเดล Devstral 2 ที่ล้ำสมัยที่สุด รองรับการสร้างซับเอเจนต์แบบกำหนดเอง, การยืนยันความชัดเจนก่อนดำเนินการ, การโหลดสกิลผ่านคำสั่งสแลช, การกำหนดค่าเวิร์กโฟลว์แบบกำหนดเองให้ตรงกับวิธีการทำงาน ให้อำนาจทีมในการสร้าง, บำรุงรักษา และส่งมอบโค้ดได้เร็วขึ้น