DAC-RL: กรอบการฝึกฝนการเรียนรู้แบบเสริมกำลังด้วยการอนุมานแบบแบ่งแยกและเอาชนะครั้งแรก ทำลายขีดจำกัดการคิดแบบเป็นโซ่ บรรลุการเพิ่มประสิทธิภาพการอนุมาน 6.3%

2026年2月5日 am12:00 • ข่าวสารอุตสาหกรรม AI • 201 views

คำสำคัญ: การให้เหตุผลแบบแบ่งแยกและเอาชนะ, การเรียนรู้แบบเสริมกำลัง, ความสามารถในการปรับขยายได้ในระหว่างการทดสอบ, การคิดแบบเป็นโซ่, การฝึกโมเดลภาษาขนาดใหญ่

ในปีที่ผ่านมา โมเดลภาษาขนาดใหญ่ (LLMs) ได้แสดงความสามารถที่น่าทึ่งในงานการให้เหตุผลที่ซับซ้อน โดยเฉพาะวิธีการให้เหตุผลทีละขั้นตอนตามแนวคิดการคิดแบบเป็นโซ่ (Chain-of-Thought, CoT) ซึ่งได้กลายเป็นมาตรฐานในการแก้ปัญหาคณิตศาสตร์ ตรรกะ และการเขียนโปรแกรม

อย่างไรก็ตาม เมื่อความยากของปัญหาสูงขึ้นถึงระดับการแข่งขัน (เช่น โอลิมปิกคณิตศาสตร์นานาชาติ การพิสูจน์ทฤษฎีบทขั้นสูง) CoT แบบดั้งเดิมมักจะไม่เพียงพอ โครงสร้างการให้เหตุผลที่เป็นลำดับขั้นอย่างเคร่งครัดของมันยังจำกัดความสามารถในการปรับขยายได้ในระหว่างการทดสอบอีกด้วย

ทางเลือกที่ตรงไปตรงมาและเป็นคลาสสิกคือการให้เหตุผลแบบแบ่งแยกและเอาชนะ (Divide-and-Conquer, DAC) นั่นคือ การแยกปัญหาที่ซับซ้อนออกเป็นปัญหาย่อยหลายๆ ปัญหา แก้ไขแยกกัน แล้วจึงรวมคำตอบเพื่อให้ได้คำตอบสุดท้าย แม้ว่าจะมีงานวิจัยบางชิ้นพยายามนำแนวคิดที่คล้ายกันมาใช้ในขั้นตอนการให้เหตุผล (เช่น Tree-of-Thought, DeAR เป็นต้น) แต่วิธีการเหล่านี้มักจำกัดอยู่แค่ในขั้นตอนการให้เหตุผล ต้องพึ่งพาการออกแบบคำสั่ง (prompt engineering) ที่ซับซ้อน และ ไม่ได้ปรับให้สอดคล้องกับการฝึกหลัง (post-training) แบบทั่วไปในระดับการฝึกของโมเดล ทำให้ศักยภาพของมันยังไม่ถูกปลดปล่อยออกมาอย่างเต็มที่

DAC-RL: กรอบการฝึกฝนการเรียนรู้แบบเสริมกำลังด้วยการอนุมานแบบแบ่งแยกและเอาชนะครั้งแรก ทำลายขีดจำกัดการคิดแบบเป็นโซ่ บรรลุการเพิ่มประสิทธิภาพการอนุมาน 6.3%

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability
https://arxiv.org/pdf/2602.02477
โค้ด: https://github.com/MasterVito/DAC-RL
9000 คำ อ่าน 30 นาที พอดแคสต์ 15 นาที

บทความที่เราจะวิเคราะห์ในวันนี้คือ “Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability” จาก UCLA และ Microsoft ที่เพิ่งเผยแพร่ ซึ่งมุ่งเน้นไปที่ปัญหาสำคัญนี้โดยเฉพาะ และได้เสนอกรอบการเรียนรู้แบบเสริมกำลังแบบครบวงจร DAC-RL ซึ่งเป็นครั้งแรกที่รวมกระบวนการฝึกการให้เหตุผลแบบแบ่งแยกและเอาชนะ (Divide-and-Conquer, DAC) เข้ากับการปรับปรุงโมเดล

DAC-RL: กรอบการฝึกฝนการเรียนรู้แบบเสริมกำลังด้วยการอนุมานแบบแบ่งแยกและเอาชนะครั้งแรก ทำลายขีดจำกัดการคิดแบบเป็นโซ่ บรรลุการเพิ่มประสิทธิภาพการอนุมาน 6.3%
ภาพที่ 1 | ภาพรวมขั้นตอนหลังการฝึก LLM การเปรียบเทียบการให้เหตุผลแบบ DAC และ CoT และวิธีการหลังการฝึก DAC ที่เราเสนอ หากขาดการฝึกเฉพาะทาง การให้เหตุผลแบบ DAC จะไม่สามารถทำงานได้ ในขณะที่วิธีการหลังการฝึกเฉพาะทางสำหรับ DAC จะทำให้กระบวนทัศน์การให้เหตุผลขั้นสูงนี้ยังคงประสิทธิภาพที่แข็งแกร่งในงานปลายทาง ภาพด้านบนแสดงความแตกต่างของความสามารถในการให้เหตุผลของ LLM ภายใต้โหมดการฝึกที่ต่างกันอย่างชัดเจน ด้านซ้ายคือขั้นตอนหลังการฝึกแบบดั้งเดิม โมเดลพึ่งพาเฉพาะการให้เหตุผลแบบ CoT เมื่อทำงานกับงานง่ายและซับซ้อน และทำงานได้ไม่ดีกับ DAC เนื่องจากไม่ได้รับการฝึกเฉพาะทาง ด้านขวาคือขั้นตอนที่นำการฝึก DAC มาใช้ โมเดลสามารถใช้การให้เหตุผลแบบ DAC ได้อย่างมีประสิทธิภาพในงานหลากหลายประเภท การเปรียบเทียบนี้พิสูจน์อย่างชัดเจนถึงความจำเป็นของการฝึกเฉพาะทาง DAC ในการปลดล็อกความสามารถการให้เหตุผลขั้นสูงของโมเดล และวางรากฐานทางทฤษฎีเชิงภาพสำหรับการเสนอกรอบ DAC-RL ในภายหลัง

การทดลองแสดงให้เห็นว่าโมเดลที่ผ่านการฝึกด้วย DAC-RL มีประสิทธิภาพเหนือกว่า CoT แบบดั้งเดิมอย่างมีนัยสำคัญในเกณฑ์มาตรฐานการให้เหตุผลทางคณิตศาสตร์ระดับการแข่งขันหลายชุด โดยเฉพาะอย่างยิ่งในด้านขีดจำกัดประสิทธิภาพสูงสุดและความสามารถในการปรับขยายได้ในระหว่างการทดสอบ ซึ่งแสดงให้เห็นถึงข้อได้เปรียบที่ชัดเจน

สารบัญบทความ

ศูนย์ ปัญหาสำคัญ
- ปัญหาที่หนึ่ง: สาเหตุพื้นฐานของความไม่สอดคล้องระหว่างการฝึกและการให้เหตุผล
- ปัญหาที่สอง: ประสิทธิผลและอคติที่อาจเกิดขึ้นในการออกแบบรางวัล
หนึ่ง พื้นหลัง: จากความคิดแบบเป็นโซ่สู่ความคิดแบบแบ่งแยกและเอาชนะ
- 1.1 ข้อดีและข้อจำกัดของการคิดแบบเป็นโซ่
- 1.2 ศักยภาพและสถานะปัจจุบันของการให้เหตุผลแบบแบ่งแยกและเอาชนะ
- 1.3 ปัญหาหลัก: ความไม่ตรงกันระหว่างการฝึกและการให้เหตุผล
สอง ระเบียบวิธี: กรอบการฝึก DAC-RL
- 2.1 ขั้นตอนโดยรวม: การให้เหตุผลสองขั้นตอนแบบแบ่งแยกและเอาชนะ
- 2.2 การออกแบบรางวัลในขั้นตอนการแบ่งแยก
- 2.3 การออกแบบรางวัลในขั้นตอนการเอาชนะ
สาม อัลกอริทึมการฝึกและรายละเอียดการนำไปใช้
- 3.1 กลยุทธ์การปรับปรุงการเรียนรู้แบบเสริมกำลัง
- 3.2 รหัสเทียมของขั้นตอนการฝึก
- 3.3 การตั้งค่าพารามิเตอร์หลักและการกำหนดค่าการฝึก
สี่ ผลการทดลองและการวิเคราะห์
- 4.1 ชุดข้อมูลมาตรฐานและโมเดล
- 4.2 ผลลัพธ์หลัก: DAC ยกระดับขีดจำกัดประสิทธิภาพสูงสุดอย่างมีนัยสำคัญ
- 4.3 การฝึก DAC ลึก: การปรับปรุงเพิ่มเติมสำหรับปัญหาที่ยากมาก
ห้า การวิเคราะห์เชิงลึก: ทำไม DAC จึงมีประสิทธิภาพมากกว่า?
- 5.1 ลดความซ้ำซ้อนในการให้เหตุผล
- 5.2 การปรับปรุงการกำหนดค่าในระหว่างการทดสอบ
- 5.3 การแลกเปลี่ยนต้นทุนของการปรับให้สอดคล้อง
หก งานที่เกี่ยวข้อง
- 6.1 การประยุกต์ใช้การให้เหตุผลแบบแบ่งแยกและเอาชนะใน LLM
- 6.2 การใช้การเรียนรู้แบบเสริมกำลังสำหรับการให้เหตุผลของ LLM
- 6.3 ข้อเสนอหลักของบทความนี้
เจ็ด สรุปและแนวโน้มในอนาคต

ศูนย์ ปัญหาสำคัญ

ปัญหาที่หนึ่ง: สาเหตุพื้นฐานของความไม่สอดคล้องระหว่างการฝึกและการให้เหตุผล

บทความระบุว่ามี “ความไม่สอดคล้องกันโดยพื้นฐาน” ระหว่างการฝึกหลังแบบทั่วไป โดยเฉพาะอย่างยิ่งการฝึกที่อิงตาม CoT กับการให้เหตุผลแบบ DAC (Divide-and-Conquer) ซึ่งทำให้แม้แต่ในปัญหาง่ายๆ โมเดลก็ยากที่จะใช้ศักยภาพการให้เหตุผลแบบ DAC ได้โดยตรง ความไม่สอดคล้องนี้มีสาเหตุมาจากด้านใดบ้าง?

เป็นเพราะชุดข้อมูลการฝึกขาดตัวอย่างการแบ่งแยกที่มีโครงสร้าง ทำให้โมเดลไม่สามารถเรียนรู้ความสามารถ “เมื่อไหร่ควรแบ่งแยก” และ “จะแบ่งแยกอย่างไร”?
หรือเป็นเพราะเป้าหมายการปรับปรุง (เช่น การฝึกด้วยความน่าจะเป็นสูงสุด) ไม่สอดคล้องกับรูปแบบความคิด “การเขียนโปรแกรมแบบพลวัต” หรือ “การแก้ปัญหาแบบเรียกซ้ำ” ที่ DAC ต้องการโดยพื้นฐาน?
หรือว่าเป็นเพราะสถาปัตยกรรมของโมเดลเอง เช่น กลไกการสร้างแบบลำดับของ Transformer ไม่สามารถสนับสนุนโครงสร้างการให้เหตุผลแบบ “แบ่งแยกและเอาชนะ” ที่เป็นลำดับชั้นและหลายสาขาได้โดยธรรมชาติ?

บทความระบุว่า มี “ความไม่สอดคล้องกันโดยพื้นฐาน” ระหว่างการฝึกหลังแบบทั่วไป โดยเฉพาะการฝึก CoT กับการให้เหตุผลแบบ DAC ความไม่สอดคล้องนี้แสดงให้เห็นในสามด้านหลักดังนี้:

| มิติ | รายละเอียด |
| :— | :— |
| ข้อจำกัดของข้อมูลการฝึก | ข้อมูลการฝึกหลังที่มีอยู่ส่วนใหญ่เป็นรูปแบบการให้เหตุผลแบบเป็นโซ่ทีละขั้นตอน (CoT) ขาดตัวอย่างการแบ่งแยกที่มีโครงสร้างชัดเจน โมเดลไม่เคยเรียนรู้รูปแบบ “การแยกปัญหาเป็นปัญหาย่อยและแก้ไขแยกกัน” จึงไม่สามารถสร้างกลยุทธ์แบ่งแยกที่มีประสิทธิภาพได้เอง
ภาพการทดลองที่ 2 ดูในส่วนถัดไป สามารถยืนยันได้ว่า โมเดลที่ไม่ได้ฝึก DAC โดยเฉพาะ เมื่อใช้การให้เหตุผลแบบ DAC โดยตรง จะมีประสิทธิภาพต่ำกว่าการให้เหตุผลแบบ CoT มาตรฐาน โมเดลไม่ได้ซึมซับความคิดแบบแบ่งแยก |
| ความไม่ตรงกันของเป้าหมายการปรับปรุง | เป้าหมายการฝึกด้วยความน่าจะเป็นสูงสุดแบบดั้งเดิม ส่งเสริมให้สร้างลำดับการให้เหตุผลที่ต่อเนื่องและเป็นแบบเดียว มุ่งเน้นความแม่นยำในการทำนายโทเค็นเฉพาะที่
การให้เหตุผลแบบ DAC เป็นกระบวนการวางแผนแบบพลวัตและหลายสาขา ต้องการความสามารถในการแบ่งแยกปัญหาทั้งหมดและการรวมปัญหาย่อย ความแตกต่างของเป้าหมายทั้งสองทำให้โมเดลยากที่จะเรียนรู้จุดตัดสินใจในการแบ่งแยกและหยุดแบ่งแยก |
| ข้อจำกัดของสถาปัตยกรรมโมเดล | 1. กลไกการสร้างแบบลำดับที่มีอยู่ใน Transformer ไม่สนับสนุนโครงสร้างการให้เหตุผลแบบต้นไม้หรือกราฟโดยธรรมชาติ
2. การให้เหตุผลแบบ DAC ที่มีอยู่ (เช่น Tree-of-Thought) พึ่งพาการออกแบบคำสั่งภายนอกเพื่อจำลองการแบ่งแยกและเอาชนะ โมเดลไม่มีการฝึกที่สอดคล้องกัน การสร้างจึงไม่มีประสิทธิภาพและเบี่ยงเบนโครงสร้างได้ง่าย
3. กรอบ DAC-RL รวมกลยุทธ์แบ่งแยกและเอาชนะเข้าสู่การฝึกผ่านการเรียนรู้แบบเสริมกำลัง โดยไม่แก้ไขสถาปัตยกรรมพื้นฐาน แต่ยังคงมีอคติเชิงโครงสร้างอยู่ |

ความขัดแย้งหลักคือ โมเดลถูกปลูกฝังนิสัย “การให้เหตุผลแบบเส้นตรง” ในการฝึก ในขณะที่ DAC ต้องการ “การให้เหตุผลแบบลำดับชั้น” การเปลี่ยนรูปแบบความคิดนี้ต้องทำผ่านกระบวนทัศน์การฝึกเฉพาะทาง เช่น DAC-RL ในบทความนี้เท่านั้นจึงจะสามารถทำได้

ปัญหาที่สอง: ประสิทธิผลและอคติที่อาจเกิดขึ้นในการออกแบบรางวัล

ความเสี่ยงและข้อจำกัดที่อาจเกิดขึ้นจากรางวัลทางอ้อม

บทความใช้ความถูกต้องของคำตอบสุดท้ายเป็นรางวัลทดแทนสำหรับการแก้ปัญหาย่อย และออกแบบกลไกรางวัลสำหรับขั้นตอนการแบ่งแยกตามนี้ รางวัลทางอ้อมนี้เพียงพอที่จะชี้นำโมเดลให้เรียนรู้กลยุทธ์การแบ่งแยกที่มีความหมายจริงๆ หรือไม่?

มีโอกาสที่โมเดลจะใช้ “การแบ่งแยกที่ดูสมเหตุสมผลภายนอก” เพื่อหลีกเลี่ยงปัญหาย่อยที่ยากจริงๆ แต่ยังคงได้คำตอบที่ถูกต้องโดยบังเอิญหรือไม่?
หากไม่สามารถทราบคำตอบจริงของปัญหาย่อยได้ อาจมีความสัมพันธ์เท็จที่ว่า “ยิ่งแบ่งแยกละเอียด อัตราความถูกต้องของคำตอบสุดท้ายยิ่งสูง” ซึ่งจะส่งเสริมให้โมเดลแบ่งแยกมากเกินไปหรือไม่?
บทความได้ออกแบบการทดลองควบคุม เช่น การติดป้ายกำกับคุณภาพปัญหาย่อยด้วยมือ เพื่อตรวจสอบความสมเหตุสมผลเชิงตรรกะของกลยุทธ์การแบ่งแยกที่เรียนรู้ แทนที่จะพึ่งพาเพียงความถูกต้องของคำตอบสุดท้ายหรือไม่?

บทความใช้ความถูกต้องของคำตอบสุดท้ายเป็นรางวัลทางอ้อมสำหรับการแก้ปัญหาย่อย การออกแบบนี้แม้จะมีเหตุผลในทางทฤษฎี (บทแทรก 2.1) แต่ยังคงมีอคติและข้อจำกัดที่อาจเกิดขึ้นดังต่อไปนี้:

| มิติ | รายละเอียด |
| :— | :— |
| รางวัลทางอ้อมอาจนำไปสู่การแบ่งแยกแบบผิวเผิน | โมเดลอาจเรียนรู้ที่จะสร้างปัญหาย่อยที่ดูสมเหตุสมผลในรูปแบบแต่ไม่เกี่ยวข้องเชิงตรรกะ ตราบใดที่ปัญหาย่อยเหล่านี้ชี้ไปยังคำตอบที่ถูกต้องโดยบังเอิญ ก็จะได้รับรางวัล
บทความยอมรับว่า ในช่วงแรกที่พยายามใช้ความแม่นยำในขั้นตอนการเอาชนะเป็นรางวัลการแบ่งแยกโดยตรง โมเดลมีแนวโน้มที่จะส่งออกวิธีแก้ปัญหาโดยตรงในขั้นตอนการแบ่งแยก แทนที่จะเป็นการแบ่งแยกจริงๆ ซึ่งแสดงให้เห็นว่าการออกแบบรางวัลมักจะชักนำให้โมเดล “ใช้ทางลัด” |
| การแบ่งแยกมากเกินไปและความสัมพันธ์เท็จ | บทความส่งเสริมการแบ่งแยกโดยการกำหนดจำนวนปัญหาย่อยขั้นต่ำ แต่ไม่สามารถรับประกันคุณภาพและความจำเป็นของการแบ่งแยก
ในทางทฤษฎี โมเดลอาจใช้ “การแบ่งแยกมากเกินไป” เพื่อเพิ่มโอกาสได้รับรางวัลบวก เนื่องจากชุดปัญหาย่อยที่มากขึ้นหมายถึงโอกาสในการลองมากขึ้น แม้ว่าผู้เขียนจะกำหนดให้แต่ละชุดปัญหาย่อยต้องสร้างวิธีแก้ปัญหาที่ถูกต้องอย่างน้อยหนึ่งวิธี แต่สิ่งนี้อาจยังคงส่งเสริมให้โมเดลสร้างปัญหาย่อยที่ซ้ำซ้อนจำนวนมาก แทนที่จะเป็นการแบ่งแยกที่กระชับ |
| ขาดการประเมินคุณภาพปัญหาย่อยโดยตรง | กลไกรางวัลของบทความไม่ได้นำการติดป้ายกำกับด้วยมือหรือการตรวจสอบเชิงตรรกะมาใช้เพื่อประเมินว่าปัญหาย่อยนั้นถูกต้องหรือสมเหตุสมผลหรือไม่ การประเมินการทดลองส่วนใหญ่พึ่งพาความถูกต้องของคำตอบสุดท้าย (Pass@1/Pass@32) และไม่ได้ออกแบบการทดลองควบคุมเฉพาะ (เช่น การตัดสินเชิงตรรกะของปัญหาย่อยโดยมนุษย์)
แม้ว่าผู้เขียนจะได้พูดถึงผลกระทบของข้อจำกัดรูปแบบ และพบว่าการบังคับใช้รูปแบบการตอบปัญหาย่อยที่เข้มงวดจะทำลายประสิทธิภาพ—”ภาษีการปรับให้สอดคล้อง” ซึ่งบ่งชี้ว่าโมเดลอาจไม่ได้เรียนรู้การแบ่งแยกเชิงตรรกะจริงๆ แต่พึ่งพาความสัมพันธ์ทางสถิติของคำตอบสุดท้าย |

ความยากลำบากพื้นฐานของการออกแบบรางวัล: ในสถานการณ์ที่ปัญหาย่อยขาดคำตอบจริง ความถูกต้องของคำตอบสุดท้ายเป็นสัญญาณกำ

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23038

การคิดแบบลูกโซ่การทดสอบความสามารถในการขยาย การฝึกอบรมโมเดลขนาดใหญ่การอนุมานแบบแบ่งแยกและเอาชนะ การเรียนรู้แบบเสริมกำลัง

Like (0)

0 0

Generate poster

MiniCPM-o4.5: การปฏิวัติปฏิสัมพันธ์แบบเรียลไทม์ด้วย AI แบบมัลติโมดัลที่มอง ฟัง และพูดไปพร้อมกัน
Previous 2026年2月4日 pm8:12

พายุโจมตีและป้องกัน AI: การวิเคราะห์เชิงลึกของช่องโหว่ความปลอดภัยทางไซเบอร์ปี 2025 และยุคใหม่ของการป้องกันตนเอง
Next 2026年2月5日 am7:02

相关推荐

 ข่าวสารอุตสาหกรรม AI

4.5 พันล้านหงเปาเปิดศึกชิงทางเข้าสู่ AI: Baidu ปั้นเส้นทางผู้ใช้ใหม่ด้วย ‘การค้นหา + AI’

ช่วงตรุษจีนนี้ มีสองเรื่องใหญ่ในแวดวง AI ทั้งในและต่างประเทศที่ดึงดูดความสนใจมากที่สุด: เรื่องหนึ่งคือความนิยมอย่างต่อเนื่องของ OpenClaw และอีกเรื่องคือ สงครามการตลาดช่วงตรุษจีน ขอ…

2026年2月15日
203000

ข่าวสารอุตสาหกรรม AI

รายงานการเงินของ Zhipu โดดเด่น: เพิ่มราคา 83% ท่ามกลางภาวะตลาดย้อนรอย แต่ทำรายได้ 7.24 พันล้าน หักล้างคำสาป “รายได้เพิ่มแต่กำไรไม่โต” ในอุตสาหกรรม AI

รายงานการเงินของ Zhipu AI ส่องประกาย: ขึ้นราคา 83% ท่ามกลางกระแสขาลง แต่ทำรายได้ 7.24 พันล้านหยวน ทำลายคำสาป “รายได้เพิ่มแต่กำไรไม่โต” ของอุตสาหกรรม AI (ตอนที่ 1) เมื่อ…

2026年4月1日
74000

ข่าวสารอุตสาหกรรม AI

ความก้าวหน้าใหม่ของพลังการคำนวณในประเทศ: Moore Threads S5000 ด้วยพลังการคำนวณ 1000 TFLOPS และการรองรับ GLM-5 ใน Day0 ท้าทาย H100 เข้าใกล้ Blackwell

ในด้านกำลังการประมวลผล AI ของประเทศจีน ความสามารถด้านฮาร์ดแวร์เป็นพื้นฐาน แต่ความสามารถในการปรับตัวของระบบนิเวศที่ประสานงานระหว่างซอฟต์แวร์และฮาร์ดแวร์ต่างหากที่เป็นกุญแจสำคัญในการ…

2026年2月13日
231000

ข่าวสารอุตสาหกรรม AI

MeepleLM: ระบบประเมินเกมกระดานเสมือนจริงด้วยโมเดลภาษาขนาดใหญ่ครั้งแรกบนกรอบ MDA และโปรไฟล์ผู้เล่น

ทีม MeepleLM ส่งบทความ QbitAI | บัญชี WeChat QbitAI ผู้ประเมินประสบการณ์บอร์ดเกมจากโมเดลภาษาขนาดใหญ่มาแล้ว! ไม่เพียงแต่สามารถให้คำวิจารณ์และข้อเสนอแนะได้อย่างรวดเร็ว แต่ยังสามารถจำ…

2026年2月12日
201000

ข่าวสารอุตสาหกรรม AI

หวงเหรินซฺวินเปิดเผยคลื่นยักษ์โครงสร้างพื้นฐาน AI: ตรรกะธุรกิจเบื้องหลังการลงทุน 6.6 แสนล้านดอลลาร์ ที่อาจทำให้พลังประมวลผลเพิ่มเป็นสองเท่าและรายได้เพิ่มเป็นสี่เท่า

เมื่อสัปดาห์ที่แล้ว หุ้นของ Nvidia ได้บันทึกการเพิ่มขึ้นในหนึ่งวันที่ใหญ่ที่สุดในรอบเกือบหนึ่งปี โดยเพิ่มขึ้น 7.9% ทำให้มูลค่าตลาดรวมของบริษัทกลับมาอยู่ที่ 4.5 ล้านล้านดอลลาร์สหรัฐ…

2026年2月9日
485000