ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง “การพูดจากภาพ” และ “การคิดจากข้อความ”

2026年2月5日 pm12:20 • ข่าวสารอุตสาหกรรม AI • 191 views

ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง "การพูดจากภาพ" และ "การคิดจากข้อความ"

บทความนี้แนะนำผลงานวิจัยจากมหาวิทยาลัยฟู่ตานและห้องปฏิบัติการชีวิตอนาคตอาลีบาบา ซึ่งงานนี้ได้รับการตีพิมพ์ใน ICLR 2026 แล้ว

ปัจจุบัน วิธีการให้เหตุผลเชิงภาพ (Visual Reasoning) ได้พัฒนาออกมาเป็นสองรูปแบบการคิดหลัก: รูปแบบหนึ่งคือการคิดด้วยข้อความล้วน ซึ่งสอดคล้องกับโมเดลภาษาขนาดใหญ่ (LLM) อีกรูปแบบหนึ่งคือการคิดเชิงภาพ ซึ่งใกล้เคียงกับลักษณะของภาพเองมากขึ้น ทั้งสองรูปแบบนี้มีข้อดีในงานที่แตกต่างกัน แต่งานวิจัยที่มีอยู่มักมุ่งเน้นเพียงรูปแบบเดียว และยังไม่ได้ใช้ประโยชน์จากความเสริมกันระหว่างทั้งสองรูปแบบอย่างเต็มที่

เพื่อแก้ไขปัญหานี้ บทความนี้เสนอกรอบการให้เหตุผลแบบปรับตัวได้ที่เรียกว่า Mixture-of-Visual-Thoughts เป้าหมายหลักคือการรวมรูปแบบการให้เหตุผลที่แตกต่างกันไว้ในโมเดลเดียว และชี้นำให้โมเดลเลือกรูปแบบการให้เหตุผลที่เหมาะสมที่สุดตามปัญหาที่เจอโดยอัตโนมัติ เพื่อให้บรรลุเป้าหมายนี้ นักวิจัยได้ออกแบบกรอบการเรียนรู้สองขั้นตอนชื่อ AdaVaR: ขั้นแรก ใช้การปรับแต่งแบบมีผู้สอน (Supervised Fine-Tuning) เพื่อให้โมเดลเรียนรู้รูปแบบการให้เหตุผลที่แตกต่างกัน จากนั้น ออกแบบอัลกอริทึมการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) เฉพาะที่ชื่อ AdaGRPO เพื่อชี้นำให้โมเดลเรียนรู้วิธีเลือกรูปแบบการให้เหตุผลตามบริบทของปัญหา

ชื่อบทความ: Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
ลิงก์บทความ: https://arxiv.org/pdf/2509.22746
ลิงก์โค้ด: https://github.com/Future-Living-Lab/mixture-of-visual-thoughts
ดาวน์โหลดโมเดล: https://huggingface.co/collections/ZejunLi/adavar-models

ภูมิหลัง: รูปแบบการคิดที่แตกต่างกันในการให้เหตุผลเชิงภาพ

ปัจจุบัน มีการสำรวจวิธีการให้เหตุผลเชิงภาพสำหรับโมเดลภาษาขนาดใหญ่ที่ประมวลผลภาพและภาษา (Large Vision-Language Models) อย่างกว้างขวาง กรอบการให้เหตุผลหลักประกอบด้วยสองรูปแบบต่อไปนี้:

ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง "การพูดจากภาพ" และ "การคิดจากข้อความ"
รูปที่ 1: การเปรียบเทียบโดยสังเขปของสองรูปแบบการให้เหตุผล

รูปแบบการคิดด้วยข้อความล้วน: สอดคล้องกับ LLM ใช้คำอธิบายกระบวนการให้เหตุผลด้วยภาษาธรรมชาติทั้งหมด
รูปแบบการคิดเชิงภาพ: ใช้ข้อมูลที่มีโครงสร้าง (เช่น พิกัดกรอบสี่เหลี่ยม) เพื่อเชื่อมโยงแนวคิดสำคัญในกระบวนการให้เหตุผลกับพื้นที่เฉพาะในภาพ ยิ่งไปกว่านั้น สามารถตัดและปรับขนาดพื้นที่เฉพาะส่วนที่เกี่ยวข้องแล้วป้อนเข้าสู่โมเดล เพื่อช่วยให้โมเดลใช้ข้อมูลภาพที่มีรายละเอียดมากขึ้น ซึ่งคล้ายกับแนวคิด “คิดด้วยภาพ” ที่กล่าวถึงใน GPT-4o

การออกแบบที่แตกต่างกันของทั้งสองรูปแบบนี้ ทำให้แสดงข้อดีข้อเสียต่างกันในงานที่แตกต่างกัน ตัวอย่างต่อไปนี้ใช้โมเดลการให้เหตุผลที่สร้างจาก Qwen2.5-VL-7B (ค่าบวก/ลบ แสดงถึงการเพิ่มขึ้น/ลดลงของประสิทธิภาพเมื่อเทียบกับโมเดลฐาน):

ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง "การพูดจากภาพ" และ "การคิดจากข้อความ"
รูปที่ 2: การเปลี่ยนแปลงประสิทธิภาพของโมเดลรูปแบบการให้เหตุผลต่างๆ ที่สร้างจาก Qwen2.5-VL-7B เมื่อเทียบกับโมเดลฐาน

รูปแบบการคิดด้วยข้อความ ถนัดในการจัดการปัญหาภาพเชิงนามธรรม (เช่น โจทย์คณิตศาสตร์เรขาคณิต) มากกว่า แต่สามารถเกิดภาพหลอน (Hallucination) ได้ และมีประสิทธิภาพไม่ดีในงานที่ต้องการการค้นหาภาพ (มีปัญหาการคิดมากเกินไปและอคติทางภาษา)
รูปแบบการคิดเชิงภาพ ถนัดในการระบุตำแหน่งและใช้ข้อมูลภาพที่เป็นรูปธรรม สามารถยับยั้งภาพหลอนได้อย่างมีประสิทธิภาพ แต่การปรับปรุงมีจำกัดเมื่อจัดการกับปัญหาคณิตศาสตร์เชิงนามธรรม (สำหรับแนวคิดเชิงนามธรรม เช่น มุม ขนาด การระบุตำแหน่งเชิงภาพให้ข้อมูลที่มีประโยชน์ได้ยาก)

จากแรงบันดาลใจนี้ บทความนี้มุ่งสำรวจคำถามหลัก: เราสามารถรวมข้อดีที่เสริมกันของรูปแบบการคิดที่แตกต่างกันในโดเมนต่างๆ เข้าด้วยกัน เพื่อเพิ่มความสามารถในการให้เหตุผลเชิงภาพทั่วไปของโมเดลได้หรือไม่?

Mixture-of-Visual-Thoughts: กรอบการให้เหตุผลเชิงภาพแบบปรับตัวได้

จากแนวคิดข้างต้น บทความนี้เสนอ Mixture-of-Visual-Thoughts หรือเรียกสั้นๆ ว่า MoVT นี่คือกรอบการให้เหตุผลเชิงภาพแบบปรับตัวได้ มีจุดมุ่งหมายเพื่อสร้างโมเดลการให้เหตุผลแบบรวมศูนย์ที่สามารถ: (1) มีรูปแบบการคิดที่หลากหลาย; (2) เลือกรูปแบบที่เหมาะสมที่สุดตามปัญหาโดยอัตโนมัติ

เพื่อเป็นการสำรวจเบื้องต้นของกรอบ MoVT นักวิจัยได้เสนอกรอบการเรียนรู้ AdaVaR ผ่านการฝึกสองขั้นตอนเพื่อสร้างโมเดลที่มีความสามารถในการให้เหตุผลแบบปรับตัวได้:

การรวมรูปแบบ: ที่จุดเริ่มต้นของลำดับการให้เหตุผล จะเพิ่มโทเค็นพิเศษนำหน้า (Special Prefix Token) ที่สอดคล้องกับรูปแบบต่างๆ เช่น <text>, <ground> เพื่อใช้เป็นตัวบ่งชี้ช่วยให้โมเดลแยกแยะรูปแบบการให้เหตุผล จากนั้นใช้การปรับแต่งแบบมีผู้สอนกับข้อมูลที่รวมกัน เพื่อให้โมเดลเรียนรู้รูปแบบการคิดที่แตกต่างกัน
การเลือกรูปแบบ: ออกแบบอัลกอริทึมการเรียนรู้แบบเสริมกำลัง AdaGRPO เพื่อชี้นำให้โมเดลเลือกรูปแบบ ขั้นตอนหลักคือ: i. โดยการกำหนดโทเค็นนำหน้ารูปแบบให้คงที่ ชี้นำให้โมเดลใช้รูปแบบการคิดที่แตกต่างกันสร้างเส้นทางการให้เหตุผลหลายเส้นสำหรับปัญหาเดียวกัน; ii. ออกแบบวิธีการคำนวณค่า Advantage (ความได้เปรียบ) เฉพาะ: ทั้งการคำนวณ Advantage ในระดับเส้นทางเพื่อเพิ่มความสามารถในการให้เหตุผลของโมเดล และการคำนวณ Advantage สัมพัทธ์ระหว่างรูปแบบ เพื่อชี้นำให้โมเดลเลือกรูปแบบการคิดที่ดีกว่า

รายละเอียดและคำอธิบายของวิธีการเฉพาะจะกล่าวถึงในส่วนถัดไป

นักวิจัยได้ทำการประเมินบนชุดข้อมูลหลายชุดในหลายสถานการณ์ ดังแสดงในรูปที่ 2 ต่างจากโมเดลรูปแบบเดียวที่โดดเด่นเฉพาะในบางสถานการณ์ โมเดล AdaVaR แสดงการปรับปรุงประสิทธิภาพที่สม่ำเสมอในงานหลายอย่าง จากประสิทธิภาพเฉลี่ยของชุดข้อมูล 8 ชุด โมเดล AdaVaR-3B สามารถเทียบเคียงกับ Qwen2.5-VL-7B ได้ ในขณะที่ประสิทธิภาพของโมเดล AdaVaR-7B ดีกว่า GPT-4o เสียอีก

AdaVaR: วิธีการรวมและฝึกฝนรูปแบบการคิด

รวมรูปแบบการคิดที่แตกต่างกันด้วยโทเค็นนำหน้า

ขั้นแรก เป้าหมายของนักวิจัยคือให้รูปแบบการคิดหลายรูปแบบอยู่ร่วมกันในโมเดลเดียว เพื่อจุดประสงค์นี้ พวกเขาออกแบบรูปแบบลำดับการให้เหตุผลแบบรวมศูนย์ โดยใช้โทเค็นนำหน้ารูปแบบพิเศษเพื่อแยกแยะรูปแบบต่างๆ:

โดยส่วนสีน้ำเงินคือโทเค็นนำหน้ารูปแบบ ส่วนสีแดงคือกระบวนการคิดที่สอดคล้องกัน ภายใต้การสร้างแบบออโตรีเกรสซีฟ (Autoregressive Generation) การสร้างลำดับการให้เหตุผลเช่นนี้เทียบเท่ากับการดำเนินการสองขั้นตอนในการสร้างครั้งเดียว: (1) สร้างโทเค็นนำหน้าตามปัญหา เพื่อทำการเลือกรูปแบบ; (2) คิดตามรูปแบบที่เลือก การเพิ่มโทเค็นนำหน้ารูปแบบไม่เพียงช่วยให้โมเดลแยกแยะรูปแบบต่างๆ แต่ยังสนับสนุนการแทรกแซงรูปแบบการคิดในอัลกอริทึมการเรียนรู้แบบเสริมกำลังในภายหลัง

จากรูปแบบรวมศูนย์นี้ นักวิจัยรวบรวมข้อมูลที่สอดคล้องกับสองรูปแบบเพื่อปรับแต่งโมเดลแบบมีผู้สอน ทำให้โมเดลมีความสามารถเบื้องต้นในการคิดด้วยสองรูปแบบ

AdaGRPO: ชี้นำให้โมเดลเลือกรูปแบบ

ต่อไป นักวิจัยหวังว่าโมเดลจะสามารถเลือกรูปแบบการให้เหตุผลที่เหมาะสมตามปัญหาโดยอัตโนมัติ พวกเขาทำการเรียนรู้นี้ในสภาพแวดล้อมการเรียนรู้แบบเสริมกำลัง แนวคิดหลักคือ: สำหรับปัญหาเดียวกัน โมเดลจะใช้สองรูปแบบสร้างเส้นทางการให้เหตุผลรูปแบบละ n เส้น คล้ายกับวิธีอื่นๆ นักวิจัยใช้ความถูกต้องของคำตอบเป็นแนวทาง ใช้การตัดสินถูกผิดตามกฎเป็นสัญญาณรางวัล จากนั้น ออกแบบวิธีการคำนวณค่า Advantage แบบสองระดับโดยอิงจากการเปรียบเทียบระหว่างเส้นทางและระหว่างรูปแบบ เพื่อส่งเสริมให้โมเดลสร้างเส้นทางการให้เหตุผลที่ดีขึ้น และเลือกรูปแบบการคิดที่ดีกว่าในเวลาเดียวกัน

ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง "การพูดจากภาพ" และ "การคิดจากข้อความ"
รูปที่ 3: การเปรียบเทียบระหว่าง AdaGRPO กับ GRPO

เพื่อจุดประสงค์นี้ นักวิจัยออกแบบ AdaGRPO บนพื้นฐานของ GRPO โดยปรับปรุงหลักดังต่อไปนี้:

การสำรวจแบบชี้นำด้วยคำนำหน้า: กระบวนการสร้างเส้นทางใน GRPO เป็นอิสระ ซึ่งอาจนำไปสู่การสำรวจรูปแบบที่ไม่สมดุล (เช่น เส้นทางทั้งหมดที่สร้างสำหรับปัญหาเดียวกันมาจากรูปแบบเดียวกัน) ใน AdaGRPO นักวิจัยกำหนดโทเค็นนำหน้ารูปแบบให้คงที่ บังคับให้เส้นทาง n แรกและเส้นทาง n หลังที่โมเดลสร้างมาจากรูปแบบการคิดด้วยข้อความและรูปแบบการคิดเชิงภาพตามลำดับ
การคำนวณค่า Advantage แบบปรับตัวได้: GRPO คำนวณเฉพาะค่า Advantage ในระดับเส้นทาง A_i = (r_i – Mean) / Std เพื่อเพิ่มความสามารถในการให้เหตุผล และกำหนดค่า Advantage เดียวกันให้กับโทเค็นทั้งหมดในเส้นทาง เพื่อชี้นำการเลือกรูปแบบอย่างชัดเจน AdaGRPO ออกแบบดังนี้:
- a. เพิ่ม Advantage สัมพัทธ์ระหว่างรูปแบบ: ใช้ความน่าจะเป็นชนะสัมพัทธ์ (Relative Win Rate) อธิบาย Advantage สัมพัทธ์ระหว่างสองรูปแบบ A_t และ A_v (เช่น A_t แสดงถึงความน่าจะเป็นที่รางวัลที่ได้จากรูปแบบการให้เหตุผลด้วยข้อความสำหรับปัญหานี้สูงกว่ารูปแบบเชิงภาพ และในทางกลับกัน)

b. กลยุทธ์การกำหนดฟังก์ชัน Advantage

ดังที่กล่าวไว้ในส่วนก่อนหน้า โทเค็นนำหน้ารูปแบบและกระบวนการคิดมีบทบาทต่างกันในลำดับการให้เหตุผล ดังนั้น ในอัลกอริทึม AdaGRPO เราจึงกำหนด Advantage ที่แตกต่างกันให้กับโทเค็นที่แตกต่างกัน: กำหนด Advantage (A_t) และ (A_v) ให้กับโทเค็นนำหน้ารูปแบบ เพื่อส่งเสริมให้โมเดลทำการเลือกรูปแบบที่เหมาะสม; กำหนด Advantage (A_i) ให้กับโทเค็นในกระบวนการคิด เพื่อเพิ่มความสามารถในการให้เหตุผลของโมเดลโดยตรง

การสร้างข้อมูลการเรียนรู้แบบค่อยเป็นค่อยไป

เรายังออกแบบกลยุทธ์การเรียนรู้แบบค่อยเป็นค่อยไป (Curriculum Learning) เพื่อสร้างข้อมูลฝึก ในการฝึกช่วงแรก โมเดลเรียนรู้บนชุดข้อมูลผสมที่ง่าย (เช่น โจทย์เรขาคณิตและงานนับวัตถุ) เมื่อการฝึกดำเนินไป ข้อมูลจะค่อยๆ เปลี่ยนเป็นชุดผสมของงานที่ซับซ้อนหลายงาน และความยากของโจทย์จะเพิ่มขึ้นจากง่ายไปยาก กลยุทธ์นี้มีจุดมุ่งหมายเพื่อชี้นำให้โมเดลค่อยๆ เรียนรู้ความสามารถในการให้เหตุผลจากง่ายไปซับซ้อน และเรียนรู้ที่จะเลือกรูปแบบการให้เหตุผลที่เหมาะสมตามงานต่างๆ โดยอัตโนมัติ

ผลการทดลอง

เราสร้างโมเดล AdaVaR-3B และ AdaVaR-7B ที่สอดคล้องกันบนพื้นฐานของโมเดล Qwen2.5-VL-3B และ Qwen2.5-VL-7B บนชุดข้อมูลมาตรฐาน 8 ชุด เราเปรียบเทียบอย่างครอบคลุมกับวิธีการให้เหตุผลอื่นๆ ที่สร้างจากโมเดลฐานเดียวกัน

ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง "การพูดจากภาพ" และ "การคิดจากข้อความ"
ตารางที่ 1: การเปรียบเทียบประสิทธิภาพของโมเดลต่างๆ พื้นหลังสีเหลืองหมายถึงโมเดลการให้เหตุผลด้วยข้อความล้วน พื้นหลังสีเขียวหมายถึงโมเดลการให้เหตุผลแบบ Grounded ที่ใช้ภาพ พื้นหลังสีน้ำเงินหมายถึงโมเดล AdaVaR ที่เสนอในบทความนี้

ผลการทดลองหลักมีดังนี้:

ข้อจำกัดของโมเดลรูปแบบเดียว: ผลการทดลองยืนยันการกล่าวถึงในส่วนภูมิหลังว่าโมเดลที่พึ่งพารูปแบบการคิดรูปแบบเดียวมักเป็นผู้เชี่ยวชาญเฉพาะด้าน และยากที่จะได้รับประสิทธิภาพทั่วไปที่เพิ่มขึ้น กล่าวคือ:
- โมเดลการให้เหตุผลด้วยข้อความ (เช่น VLAA-Thinker-3B และ OVR-7B) ทำได้ดีในงานคณิตศาสตร์ แต่มีประสิทธิภาพไม่ดีในปัญหาที่เกี่ยวข้องกับการระบุและระบุตำแหน่งวัตถุ
- โมเดลการให้เหตุผลแบบ Grounded ทำได้ดีในชุดข้อมูลคำถามตอบภาพ เช่น V* และ POPE แต่โดยทั่วไปไม่ดีในงานคณิตศาสตร์ ยกเว้น DeepEyes โมเดลอื่นๆ ล้วนรักษาความสามารถในการให้เหตุผลทางคณิตศาสตร์เดิมของโมเดลฐานได้ยาก
ข้อได้เปรียบโดยรวมของ AdaVaR: AdaVaR-3B และ AdaVaR-7B เป็นตัวแปรเดียวที่เหนือกว่าโมเดลฐาน Qwen2.5-VL ในทุกงานที่ประเมิน ทำได้ดีที่สุดในชุดข้อมูลเช่น MathVista, WeMath, POPE และทำได้ดีที่สุดหรือรองลงมาใน MMStar และ MathVision
นำด้านประสิทธิภาพโดยรวม: จากความแม่นยำเฉลี่ย AdaVaR-3B/7B เป็นตัวที่ดีที่สุดในกลุ่มพารามิเตอร์ของตัวเอง AdaVaR-3B เป็นโมเดล 3B เดียวที่ถึงระดับ Qwen2.5-VL-7B ในขณะที่ประสิทธิภาพเฉลี่ยของ AdaVaR-7B ดีกว่า GPT-4o เสียอีก

การวิเคราะห์เชิงลึกเกี่ยวกับกลไกการให้เหตุผลแบบปรับตัวได้

เพื่อทำความเข้าใจกลไกการทำงานของการให้เหตุผลแบบปรับตัวได้อย่างลึกซึ้ง เราสำรวจคำถามสำคัญต่อไปนี้เพิ่มเติม:

ความก้าวหน้าใหม่ในการให้เหตุผลด้วยภาพแบบปรับตัวได้: แนวทาง MoVT ทำให้ AI เรียนรู้การสลับอย่างชาญฉลาดระหว่าง "การพูดจากภาพ" และ "การคิดจากข้อความ"
ตารางที่ 2: ประสิทธิภาพของโมเดลในรูปแบบต่างๆ และในขั้นตอนการฝึกที่แตกต่างกัน ตัวห้อย T และ G แทนการใช้งานรูปแบบข้อความและรูปแบบ Grounded ตามลำดับ GRD% แทนส

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23030

AI หลายรูปแบบ ICLR 2026 การอนุมานทางภาพ การเรียนรู้แบบปรับตัวได้การเรียนรู้แบบเสริมกำลัง

Like (0)

0 0

Generate poster

PaperBanana: มหาวิทยาลัยปักกิ่งร่วมมือกับ Google เปิดตัวเครื่องมือสร้างภาพประกอบ AI สำหรับงานวิจัย สร้างแผนภูมิระดับท็อปคอนเฟอเรนซ์ได้ในคลิกเดียว
Previous 2026年2月5日 pm12:12

Baidu ERNIE-5.0 (Wenxin 5.0) ทดลองใช้งาน (พร้อม prompt แบบเต็ม)
Next 2026年2月5日 pm12:39

相关推荐

 ข่าวสารอุตสาหกรรม AI

IPO ที่ใหญ่ที่สุดในประวัติศาสตร์! SpaceX ยื่นคำขออย่างลับๆ มูลค่าการประเมิน 1.75 ล้านล้านดอลลาร์ มัสก์สร้างสถิติอีกครั้ง

IPO ที่ใหญ่ที่สุดในประวัติศาสตร์: SpaceX ยื่นคำขออย่างลับๆ มูลค่าตามราคาตลาดอาจสูงถึง 1.75 ล้านล้านดอลลาร์ ตามรายงานของบลูมเบิร์ก SpaceX ได้ยื่นคำขอเสนอขายหุ้นแก่ประชาชนทั่วไปเป็นค…

2026年4月3日
65000

มกราคม 2026: ภาพรวมล่าสุดของโมเดล AI ขนาดใหญ่ – Alibaba, Tencent, Zhipu และบริษัทยักษ์ใหญ่ปล่อยความก้าวหน้าใหม่ด้านเสียง การมองเห็น และเอเจนต์อัจฉริยะอย่างหนาแน่น

5 มกราคม 【ปิดต้นทาง】 Alibaba Tongyi เปิดตัวโมเดลสังเคราะห์เสียง CosyVoice cosyvoice-v3-flash เพิ่ม 24 โทนเสียงใหม่เพื่อตอบสนองความต้องการหลากหลายสถานการณ์ โทนเสียงใหม่รวมถึง: ภาษาถ…

ข่าวสารอุตสาหกรรม AI 2026年2月2日
227000

ข่าวสารอุตสาหกรรม AI

Baidu Wenxin เปิดตัวสถาปัตยกรรม Group-MAS แบบแรก: กลุ่ม Multi-Agent จะปรับปรุงฉากความร่วมมือของ AI อย่างไร

ในกลุ่มแอป Wenxin เมื่อเร็วๆ นี้ มี “AI หลายตัว” อยู่ไม่น้อย กลุ่มนี้ไม่ใช่กลุ่มทั่วไป แต่เป็นฟีเจอร์แชทกลุ่ม “หลายคน, หลาย Agent” แห่งแรกในอุตสาหกรรม ที่แอ…

2026年2月2日
176000

ข่าวสารอุตสาหกรรม AI

AI Ping: แพลตฟอร์มนำทางและประเมิน API แบบจำลองขนาดใหญ่ด้วยปัญญาประดิษฐ์ สิ้นสุดยุคแห่งความสับสนในการเลือก

衡宇发自凹非寺 สิ่งที่ทำให้ปวดหัวยิ่งกว่าการเผชิญหน้ากับกล่องดำของโมเดลใหญ่ ก็คือการต้องเลือกบริการ API ที่ทั้งน่าเชื่อถือและคุ้มค่าเงิน นี่เกือบจะเป็นช่วงเวลามืดมนที่สุดที่ทีมพัฒนาที่เ…

2026年2月2日
209000

ข่าวสารอุตสาหกรรม AI

การวิเคราะห์เชิงลึกเกี่ยวกับสวิตช์ CPO ของ NVIDIA: ก้าวข้ามข้อจำกัดด้านพลังประมวลผล AI และนำการปฏิวัติการเชื่อมต่อโรงงาน AI ระดับกิกะวัตต์

เมื่อวันที่ 3 กุมภาพันธ์ 2026 NVIDIA ได้จัดสัมมนาออนไลน์ในหัวข้อ “สวิตช์ CPO (Co-Packaged Silicon Photonics) สำหรับโรงงาน AI ระดับ Gigawatt” ซึ่งทำให้เทคโนโลยี CPO กลับ…

2026年2月6日
209000