ความบกพร่องพื้นฐานของตัวแทน LLM ที่ไม่สามารถ ‘ทอยลูกเต๋า’ ได้เอง: Google DeepMind เผยภาพหลอนจากการสุ่มของโมเดลภาษาขนาดใหญ่

3 hours ago • การอนุมานโมเดลขนาดใหญ่ • 10 views

ภาพลวงตาของความสุ่มในโมเดลขนาดใหญ่: Google DeepMind เผยข้อบกพร่องพื้นฐานที่ทำให้เอเจนต์ LLM ไม่สามารถ “ทอยลูกเต๋า” ได้ด้วยตนเอง (1/4)

คำสำคัญ: โมเดลภาษาขนาดใหญ่, การสุ่มตัวอย่าง, เอเจนต์, อคติการกระจาย, ภาพลวงตาของความสุ่มเทียม

ทีมวิจัยในบทความนี้มาจาก Google DeepMind และมหาวิทยาลัยแห่งชาติสิงคโปร์ ในบทความเรื่อง “The Illusion of Stochasticity in LLMs” พวกเขาชี้ให้เห็นจุดอ่อนร้ายแรงที่ถูกปกปิดมานานของเอเจนต์โมเดลขนาดใหญ่ นั่นคือการขาดความสามารถพื้นฐานด้านความสุ่ม

เอเจนต์ต้องมีความสามารถในการตัดสินใจแบบสุ่มที่ควบคุมได้ เพื่อสำรวจและแข่งขันในสภาพแวดล้อมที่ซับซ้อน อย่างไรก็ตาม งานวิจัยเปิดเผยว่าโมเดลขนาดใหญ่ในปัจจุบันไม่สามารถ “ทอยลูกเต๋าที่ยุติธรรม” ได้ด้วยตนเอง

แม้ว่าโมเดลจะเข้าใจความหมายทางคณิตศาสตร์ของการกระจายความน่าจะเป็นอย่างสมบูรณ์ แต่เมื่อถูกขอให้สุ่มตัวอย่างอย่างอิสระ ผลลัพธ์ของมันจะตกอยู่ในอคติการกระจายและความชอบตามตำแหน่งที่ฝังแน่นทันที — ตัวอย่างเช่น ในคำถามสี่ตัวเลือก มันอาจจะหมกมุ่นกับการเลือก “C” หรือในระหว่าง 1 ถึง 100 มันอาจจะยึดติดกับการให้ผลลัพธ์ “42” การทดสอบทางสถิติแสดงให้เห็นว่า ความน่าจะเป็นที่ผลการสุ่มตัวอย่างจะสอดคล้องกับการกระจายเป้าหมายนั้นเกือบเป็นศูนย์

ความบกพร่องพื้นฐานของตัวแทน LLM ที่ไม่สามารถ 'ทอยลูกเต๋า' ได้เอง: Google DeepMind เผยภาพหลอนจากการสุ่มของโมเดลภาษาขนาดใหญ่

ที่น่าหนักใจยิ่งกว่านั้นคือ การล่มสลายของความสุ่มนี้ไม่สามารถแก้ไขได้ด้วยการปรับพารามิเตอร์การถอดรหัส เช่น อุณหภูมิ (temperature) หรือ top-p และไม่สามารถพึ่งพาการคิดแบบเป็นโซ่ (Chain-of-Thought) เพื่อซ่อมแซมตัวเองได้ การสุ่มตัวอย่างแบบลำดับและแบบกลุ่มไม่เพียงแต่ไม่สามารถแก้ปัญหาข้อขัดแย้งพื้นฐานได้ แต่ยังนำกับดักเพิ่มเติมของความสัมพันธ์อัตโนมัติแบบเป็นคาบเข้ามาอีกด้วย

หนทาง “ไถ่บาป” เพียงทางเดียวที่บทความชี้ให้เห็นคือการพึ่งพาภายนอก: โมเดล LLM จะสามารถจำลองการกระจายแบบสุ่มที่ดูดีได้ผ่านการดำเนินอัลกอริทึมที่กำหนดได้แน่นอน ก็ต่อเมื่อมีการป้อนเมล็ดสุ่ม (random seed) เข้าไปในโมเดลอย่างชัดเจน หรืออนุญาตให้มันเรียกใช้เครื่องมือสร้างตัวเลขสุ่มเทียม (PRNG) กล่าวอีกนัยหนึ่งคือ “ความสุ่ม” ของเอเจนต์โมเดลขนาดใหญ่เป็นเพียงการย้ายถ่ายอัลกอริทึมจากภายนอกมาอย่างกลไก ความสามารถสุ่มภายในของมันแทบจะเป็นศูนย์

ผู้เขียนชี้ให้เห็นอย่างแหลมคมว่า “ภาพลวงตาของความสุ่ม” ใน LLM มาจากช่องว่างทางสถาปัตยกรรมที่ไม่สามารถเปลี่ยนการแสดงความน่าจะเป็นภายในให้เป็นการกระทำแบบสุ่มที่แท้จริงได้ สำหรับเอเจนต์ใดๆ ที่ต้องการสำรวจด้วยตนเอง การพึ่งพา “ลูกเต๋าที่ไร้จิตวิญญาณ” ดังกล่าว ก็ไม่ต่างจากการมัดมือตัวเองในสภาพแวดล้อมที่ต้องแข่งขัน การนำเครื่องมือสุ่มตัวอย่างที่มีสถานะ (stateful) มาใช้ อาจเป็นยารักษาที่เป็นไปได้ในทางปฏิบัติเพียงทางเดียวในปัจจุบัน

1. บทนำ

ในขณะที่โมเดลภาษาขนาดใหญ่ถูกนำไปใช้เป็นเอเจนต์มากขึ้นเรื่อยๆ เพื่อโต้ตอบในสภาพแวดล้อมที่ซับซ้อน พวกมันไม่เพียงแต่ต้องอนุมานกลยุทธ์ที่ดีที่สุด แต่ยังต้องดำเนินพฤติกรรมแบบสุ่มตามกลยุทธ์ที่อนุมานได้เหล่านั้นด้วย

มีการศึกษาที่สำรวจความสามารถของโมเดลขนาดใหญ่ในการแก้ปัญหาหลายแขนของเครื่องสล็อต (multi-armed bandit) อย่างง่าย รวมถึงงานที่ซับซ้อนมากขึ้น เช่น เกม XO โลกกริด และเกม Atari โดยผลการศึกษามีทั้งในแง่บวกและลบ การวิจัยประเภทนี้มักจะมุ่งเน้นไปที่ความสามารถของโมเดลในการอนุมานกลยุทธ์ที่ดีผ่านการโต้ตอบกับสภาพแวดล้อมหลายครั้ง

การศึกษาพบโดยทั่วไปว่าโมเดลมีปัญหาความสามารถในการสำรวจไม่เพียงพอ แม้ว่าโมเดลจะสามารถอนุมานการกระทำขั้นต่อไปที่สมเหตุสมผลหรือถูกต้องได้ แต่ก็ไม่สามารถนำข้อสรุปจากการให้เหตุผลของตัวเองไปปฏิบัติได้ ปรากฏการณ์นี้บางครั้งเรียกว่าช่องว่างระหว่างความรู้และการปฏิบัติ (知行鸿沟)

บทความนี้เสนอว่าช่องว่างระหว่างความรู้และการปฏิบัติดังกล่าวอาจมีสาเหตุมาจากข้อบกพร่องหลัก: แม้ว่าโมเดลจะรู้กลยุทธ์ที่ถูกต้อง การดำเนินพฤติกรรมแบบสุ่มตามกลยุทธ์นั้นก็ไม่ใช่เรื่องง่ายสำหรับโมเดลขนาดใหญ่ เพราะโมเดลจำเป็นต้องสุ่มตัวอย่างจากกระจายเป้าหมายโดยปริยาย และกระบวนการนี้จะซับซ้อนเมื่อการกระจายมีความเอนโทรปี

เนื้อหาต่อไปของบทความนี้จะอธิบายความสำคัญของพฤติกรรมแบบสุ่มต่อโมเดลเอเจนต์ก่อน จากนั้นจะยืนยันความล้มเหลวของโมเดลขนาดใหญ่ในการทำงานสุ่มตัวอย่างจากการกระจายอย่างง่ายผ่านการวิเคราะห์เชิงประจักษ์ที่เข้มงวด

ข้อสรุปสำคัญคือ: แม้ว่าโมเดลขนาดใหญ่ล้ำสมัยจะสามารถแมปเมล็ดสุ่มที่กำหนดให้กับการกระจายเป้าหมายได้ แต่ความสามารถของพวกมันในการสุ่มตัวอย่างโดยตรงจากการกระจายเฉพาะนั้นมีข้อบกพร่องพื้นฐาน

นอกจากนี้ บทความนี้ยังพบว่าโมเดลขนาดใหญ่ล้ำสมัยสามารถจำลองเครื่องกำเนิดตัวเลขสุ่มเทียมอย่างง่ายได้สำเร็จผ่านการคิดแบบเป็นโซ่ เมื่อได้รับโค้ดและเมล็ดสุ่ม แต่วิธีนี้มีต้นทุนการคำนวณสูงเกินไปและไม่สามารถใช้สำหรับการสุ่มตัวอย่างซ้ำได้ ในขณะเดียวกัน เครื่องกำเนิดตัวเลขสุ่มเทียมเป็นแบบมีสถานะ (stateful) ซึ่งไม่เหมาะกับสถานการณ์การเรียกใช้การอนุมานอิสระแบบไร้สถานะ (stateless) ของโมเดลขนาดใหญ่หลัก นอกจากนี้ การจำลองตัวเลขสุ่มเทียมและการดำเนินการแปลงการกระจายเหล่านี้จะล้มเหลวเมื่อความซับซ้อนของการแปลงเพิ่มขึ้น

2. ความจำเป็นของการสุ่มตัวอย่างที่เชื่อถือได้

ในงานเอเจนต์หลายอย่าง พฤติกรรมที่ดีที่สุดนั้นมีความสุ่มในตัวเอง ลักษณะนี้พบได้บ่อยในสถานการณ์ที่โมเดลขนาดใหญ่ถูกนำไปใช้เป็นนโยบายและโต้ตอบกับสภาพแวดล้อมที่ไม่แน่นอน ปัจจุบัน เมื่อโมเดลขนาดใหญ่สร้างโทเค็นคำถัดไป จะมีขั้นตอนการสุ่มตัวอย่างที่ชัดเจนดำเนินการภายนอกโมเดล ทำให้เกิดพฤติกรรมที่ไม่แน่นอน ซึ่งคุณสมบัตินี้สามารถใช้เพื่อแก้ปัญหาที่ซับซ้อนได้

ตัวอย่างเช่น โมเดลขนาดใหญ่ได้ทำหน้าที่เป็นตัวดำเนินการกลายพันธุ์ (mutation operator) ในการค้นหาเชิงวิวัฒนาการอย่างประสบความสำเร็จ ช่วยในการค้นพบอัลกอริทึมใหม่ ซึ่งสถานการณ์ดังกล่าวต้องการเพียงความหลากหลายที่ไม่มีโครงสร้าง แต่นโยบายของเอเจนต์มักต้องการการสุ่มตัวอย่างจากการกระจายเฉพาะ

ปัญหาหลักคือ: เป้าหมายการออกแบบของโมเดลขนาดใหญ่ในปัจจุบันคือการสุ่มตัวอย่างโทเค็นคำจากคำศัพท์ ไม่ใช่การสุ่มตัวอย่างการกระทำจากพื้นที่การกระทำเฉพาะ ไม่มีการแมปแบบหนึ่งต่อหนึ่งระหว่างล็อกออดส์ (log-odds) ของโทเค็นคำถัดไปที่โมเดลส่งออกกับการกระทำเชิงความหมาย ตัวอย่างเช่น โทเค็นแรกของ “เคลื่อนที่ไปทางซ้าย” และ “เคลื่อนที่ไปทางขวา” อาจเหมือนกัน หากต้องการสุ่มตัวอย่างจากการกระจายต่อเนื่อง เช่น การกระจายแบบเกาส์เซียน ความสัมพันธ์จะยิ่งอ่อนแอกว่า

เพื่อดำเนินการกระทำตามนโยบายแบบสุ่ม โมเดลจำเป็นต้องฉีดค่าความน่าจะเป็นที่แม่นยำซึ่งจำเป็นสำหรับการอนุมานนโยบาย เข้าไปในขั้นตอนการสร้างโทเค็นคำแบบสุ่ม การทดลองในบทความนี้พิสูจน์ว่าโมเดลขนาดใหญ่ล้ำสมัยในปัจจุบันยังไม่สามารถดำเนินการนี้ได้ แม้ว่าพฤติกรรมของโมเดลขนาดใหญ่เมื่อดำเนินนโยบายจะดูเหมือนสุ่มเนื่องจากเอนโทรปีตามธรรมชาติของล็อกออดส์ แต่นี่เป็นเพียงภาพลวงตาของความสุ่มที่ควบคุมไม่ได้

แม้ในงานง่ายๆ ที่โทเค็นคำและการกระทำตรงกันโดยตรง ความเสี่ยงของการควบคุมการสุ่มตัวอย่างที่ผิดพลาดนี้ก็มีนัยสำคัญ ยกตัวอย่างโมเดลขนาดใหญ่สร้างแบบสอบถามแบบเลือกตอบหลายข้อ เพื่อป้องกันการโกง ตำแหน่งของคำตอบที่ถูกต้องจำเป็นต้องถูกสุ่ม เพื่อทดสอบประสิทธิภาพของโมเดลขนาดใหญ่ล้ำสมัยในสถานการณ์นี้ นักวิจัยได้ออกคำสั่งไปยังชุดโมเดล Gemini: สร้างคำถามแบบเลือกตอบที่มีสี่ตัวเลือก A, B, C, D และให้คำตอบที่ถูกต้อง

ความบกพร่องพื้นฐานของตัวแทน LLM ที่ไม่สามารถ 'ทอยลูกเต๋า' ได้เอง: Google DeepMind เผยภาพหลอนจากการสุ่มของโมเดลภาษาขนาดใหญ่
รูปที่ 1: โมเดลภาษาขนาดใหญ่มีแนวโน้มที่จะเลือกตัวเลือก “C” อย่างชัดเจนเมื่อถูกสั่งให้สร้างคำถามแบบเลือกตอบ แทนที่จะเป็นการสุ่มตัวอย่างแบบสม่ำเสมอ

ดังแสดงในรูปที่ 1 โมเดลเหล่านี้ไม่สามารถทำการสุ่มตัวอย่างแบบสม่ำเสมอได้ แต่แสดงความชอบอย่างแรง — วางคำตอบที่ถูกต้องไว้ที่ตำแหน่งตัวเลือก C (มีตัวอย่างการสร้างเพิ่มเติมในรูปที่ 10 ด้านล่าง) ปัญหาความล้มเหลวดังกล่าวจะทำให้กลยุทธ์คาดเดาได้ง่าย และสามารถถูกใช้ประโยชน์โดยผู้อื่นได้ง่ายในสถานการณ์การแข่งขัน (ที่มีการใช้ประโยชน์จากข้อบกพร่องของโมเดลในทางที่ผิด)

ความบกพร่องพื้นฐานของตัวแทน LLM ที่ไม่สามารถ 'ทอยลูกเต๋า' ได้เอง: Google DeepMind เผยภาพหลอนจากการสุ่มของโมเดลภาษาขนาดใหญ่
รูปที่ 10: ตัวอย่างการตอบกลับของ (ซ้าย) Gemini-2.5-Pro และ (ขวา) Gemini-3.0-Pro เมื่อถูกสั่งให้สร้างคำถามแบบเลือกตอบหลายข้อ

3. ปัญหาความล้มเหลวของการสุ่มตัวอย่างที่เชื่อถือได้ในโมเดลภาษาขนาดใหญ่

ส่วนนี้สำรวจพฤติกรรมของโมเดลขนาดใหญ่ล้ำสมัย (เช่น ชุด Gemini, ชุด Qwen3) ในการสุ่มตัวอย่างอิสระ (แต่ละครั้งไม่รบกวนกัน) จากการกระจายอย่างง่าย การศึกษายังครอบคลุมชุดโมเดลขนาดใหญ่อื่นๆ เช่น OLMO-3 และพบปัญหาความล้มเหลวในลักษณะเดียวกัน

3.1 การชี้นำโมเดลภาษาขนาดใหญ่ให้สุ่มตัวอย่างจากการกระจาย

บทความนี้เลือกการกระจายแบบไม่ต่อเนื่องสม่ำเสมอ, การกระจายแบบต่อเนื่องสม่ำเสมอ (การกระจายที่ค่าทั้งหมดมีความน่าจะเป็นเท่ากัน) และการกระจายแบบเกาส์เซียน (การกระจายความน่าจะเป็นคลาสสิกรูปทรงระฆัง แทนด้วย $N(mu, sigma^2)$) เป็นการกระจายทดสอบ ในการทดลอง แต่ละครั้งให้โมเดลขนาดใหญ่ดำเนินการอนุมานหนึ่งครั้ง สร้างค่าสุ่มตัวอย่างหนึ่งค่า ทำซ้ำ $n$ ครั้ง จากนั้นเปรียบเทียบการกระจายเชิงประจักษ์ (การกระจายที่สุ่มตัวอย่างได้จริง) จากการสุ่มตัวอย่าง $n$ ครั้ง กับการกระจายเป้าหมาย

การตั้งค่าการทดลอง

การกระจายแบบไม่ต่อเนื่องสม่ำเสมอ: สั่งโมเดลขนาดใหญ่ให้เลือกค่าหนึ่งจากเซตด้วยความน่าจะเป็นเท่ากัน ค่าอาจเป็นจำนวนเต็ม (เช่น 0-9) หรือข้อความ (เช่น สี ตัวอักษร คำว่า “ใช่” ในภาษาต่างๆ) เพื่อเปิดเผยอคติที่อาจมีของโมเดล คำสั่งคือ: สุ่มตัวอย่างหนึ่งค่าจากการกระจายแบบสม่ำเสมอบนเซต <เซตสุ่ม> และห่อด้วย boxed{}
การกระจายแบบต่อเนื่องสม่ำเสมอ: สั่งโมเดลขนาดใหญ่ให้สร้างเลขทศนิยมที่กระจายแบบสม่ำเสมอในช่วง $[a,b]$ โดยปรับ $a$, $b$ เพื่อควบคุมการกระจายเป้าหมาย คำสั่งคือ: สุ่มตัวอย่างหนึ่งตัวเลขจากการกระจายแบบสม่ำเสมอในช่วงต่อเนื่อง $[a,b]$ และห่อด้วย boxed{}
การกระจายแบบเกาส์เซียน: สั่งโมเดลขนาดใหญ่ให้สร้างเลขทศนิยมที่กระจายตามการกระจายแบบเกาส์เซียนที่มีค่าเฉลี่ย $mu$ และส่วนเบี่ยงเบนมาตรฐาน $sigma$ คำสั่งคือ: สุ่มตัวอย่างหนึ่งตัวเลขจากการกระจายแบบเกาส์เซียนที่มีค่าเฉลี่ย $mu$ และส่วนเบี่ยงเบนมาตรฐาน $sigma$ และห่อด้วย boxed{}

คล้ายกับการประเมินการให้เหตุผลทางคณิตศาสตร์ การออกแบบให้ห่อผลลัพธ์ด้วยกล่องช่วยในการแยกวิเคราะห์ผลลัพธ์ในภายหลัง ในการทดลองใช้ $n=1024$ ซึ่งขนาดตัวอย่างนี้เพียงพอที่จะประมาณการกระจายเชิงประจักษ์ได้อย่างแม่นยำ

อคติการกระจาย

ผลการสุ่มตัวอย่างจากการกระจายต่างๆ และโมเดลต่างๆ แสดงในรูปที่ 2

ความบกพร่องพื้นฐานของตัวแทน LLM ที่ไม่สามารถ 'ทอยลูกเต๋า' ได้เอง: Google DeepMind เผยภาพหลอนจากการสุ่มของโมเดลภาษาขนาดใหญ่
รูปที่ 2: การประมาณการกระจายเชิงประจักษ์สำหรับการกระจายเป้าหมายหลายประเภท โดยอิงจากตัวอย่างอิสระ 1024 ตัวอย่างที่ดึงมาจากโมเดลภาษาขนาดใหญ่ (ซ้าย) Qwen3-8B; (ขวา) Gemini-2.5-Pro แกนนอนสอดคล้องกับพื้นที่ตัวอย่าง แกนตั้งคือความถี่เชิงประจักษ์ที่ประมาณได้ ผลลัพธ์แสดงว่าโมเดลภาษาขนาดใหญ่ไม่สามารถสุ่มตัวอย่างจากการกระจายแบบสม่ำเสมอและการกระจายแบบเกาส์เซียนได้อย่างน่าเชื่อถือผ่านการสุ่มตัวอย่างอิสระ

สามารถเห็นได้ชัดเจนว่าค่าสุ่มตัวอย่างที่โมเดลสร้างไม่สอดคล้องกับการกระจายที่ระบุ:
* ในพื้นที่ไม่ต่อเนื่อง โมเดลจะสุ่มตัวอย่างค่าบางค่าบ่อยครั้งเป็นพิเศษ;
* ในพื้นที่ต่อเนื่อง โมเดลจะชอบช่วงค่าเฉพาะบางช่วง ตัวอย่างเช่น โมเดลขนาดใหญ่มักชอบตัวเลขเช่น 7, 42 หรือค่าตัวเลขที่อยู่ในบริเวณกลางของพื้นที่สุ่มตัวอย่าง

การศึกษายังแสดงภาพกระบวนการคิดแบบเป็นโซ่ของโมเดลเมื่อสุ่มตัวอย่างจากการกระจาย ผลลัพธ์แสดงว่า: แม้ว่าโมเดลขนาดใหญ่จะเข้าใจการกระจายเป้าหมายที่ระบุได้ชัดเจน แต่ก็ไม่สามารถทำการสุ่มตัวอย่างได้อย่างถูกต้อง ส่งผลให้เกิด “ช่องว

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

SCAN TO PAY WITH ANY BANK

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/th/archives/30331

Like (0)

0 0

Generate poster

OpenAI เปิดตัว GPT-5.4-Cyber: โมเดลเสริมประสิทธิภาพที่สร้างขึ้นเพื่อความปลอดภัยทางไซเบอร์โดยเฉพาะ เทียบเคียงกับ Anthropic Claude Mythos
Previous 3 hours ago

โมเดลจีน GLM-5.1 เกิดข้อโต้แย้งเรื่องราคาต่างประเทศ: ผู้ใช้จีน 469 หยวน ผู้ใช้ตะวันตก 160 ดอลลาร์ หัวหน้าฝ่าย Hugging Face ยืนยันประสิทธิภาพ
Next 3 hours ago

相关推荐

 การอนุมานโมเดลขนาดใหญ่

ปฏิวัติการอนุมาน AI: ทีม 24 คนสร้างชิปเป็นโมเดล ประมวลผล 17,000 โทเค็นต่อวินาที เทียบชั้น NVIDIA

ยังมีผู้เชี่ยวชาญด้านการผลิตชิปอีกหรือ? ชิปตัวล่าสุดที่เพิ่งเปิดตัว ขึ้นแท่นทันทีในรายการฮิตของซิลิคอนแวลลีย์ ด้วยความเร็วในการอนุมานสูงสุดถึง 17,000 โทเค็นต่อวินาที นี่หมายความว่า…

2026年2月21日
282000

การอนุมานโมเดลขนาดใหญ่

เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%

คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าว…

2026年3月1日
167000

การอนุมานโมเดลขนาดใหญ่

ทำลายข้อจำกัดด้านความสนใจ! FlatAttention Dataflow + การปรับปรุงการสื่อสารภายในชิปแบบรวมศูนย์ ช่วยให้ระบบระดับเวเฟอร์เพิ่มปริมาณการประมวลผลได้ 2.9 เท่า

คำสำคัญ: ระบบระดับเวเฟอร์, การอนุมานโมเดลภาษาขนาดใหญ่, โฟลว์ข้อมูล FlatAttention, การสื่อสารแบบรวมบนชิป, การออกแบบร่วมระหว่างซอฟต์แวร์และฮาร์ดแวร์ ด้วยการเติบโตอย่างรวดเร็วของความย…

2026年4月7日
50000

การอนุมานโมเดลขนาดใหญ่

DeepSeek ร่วมกับมหาวิทยาลัยชิงหวาและเป่ยจิงเปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อทำลายข้อจำกัดในการอนุมาน Agent ประสิทธิภาพเพิ่มขึ้นเกือบ 2 เท่า

DeepSeek ร่วมกับมหาวิทยาลัยปักกิ่งและมหาวิทยาลัยชิงหวา เปิดตัวเฟรมเวิร์ก DualPath: ใช้การ์ดเน็ตเวิร์กที่ไม่ได้ใช้งานเพื่อแก้ไขปัญหาคอขวด I/O ในการอนุมาน Agent เพิ่มประสิทธิภาพเกือบ…

2026年2月27日
181000

การอนุมานโมเดลขนาดใหญ่

1-บิตปฏิวัติความสนใจ: BinaryAttention เร่งความเร็ว FlashAttention2 ขึ้น 2 เท่า ทำลายข้อจำกัดการปรับใช้ Transformer

คำสำคัญ: Transformer, ความสนใจแบบไบนารี, การเร่งความเร็วด้วยฮาร์ดแวร์, การควอนไทซ์บิตต่ำสุด เมื่อกลไกความสนใจถูก “ลดขนาด” ถึงขีดสุด ความสำเร็จของสถาปัตยกรรม Transformer…

2026年3月24日
160000