LLM เข้าใจภาษาจริงหรือ? ByteDance เผยกลไกการทำงานและขีดจำกัดความสามารถของโมเดลขนาดใหญ่

15 hours ago • ข่าวสารอุตสาหกรรม AI • 16 views

เราติดต่อกับ Large Language Models (LLM) ทุกวัน ความรู้สึกโดยสัญชาตญาณคือ พวกมันดูเหมือนจะเข้าใจสิ่งที่เราพูดจริงๆ แม้ว่าบางครั้งจะมี “ภาพหลอน” (Hallucination) ก็ตาม ที่น่าทึ่งยิ่งกว่านั้นคือ เมื่อสังเกต “ห่วงโซ่ความคิด” (Chain of Thought) ที่ LLM แสดงออกมา (ซึ่งก็คือการแสดงออกทางภาษาของกระบวนการให้เหตุผล) เราอาจรู้สึกว่าพวกมันมีความสามารถในการคิดที่คล้ายกับมนุษย์

เมื่อเร็วๆ นี้ ทีมวิจัยของ ByteDance ประกอบด้วย Li Hang, Zhang Shaohua และ Lin Yuan ได้ตีพิมพ์บทความวิจัยที่เจาะลึกถึงประเด็นหลักต่อไปนี้: สาระสำคัญของความสามารถในการเข้าใจภาษาและการคิดที่ LLM มีนั้นคืออะไรกันแน่? ความสามารถเหล่านี้ถูกสร้างขึ้นทีละน้อยผ่านหลักการนำไปปฏิบัติ วิธีการ และกลไกการทำงานเบื้องลึกได้อย่างไร?

ลิงก์บทความฉบับเต็ม: https://github.com/hangli-hl/AI-Articles/tree/main

แม้ว่าเทคโนโลยี LLM จะถูกสร้างขึ้นโดยมนุษย์ และหลักการนำไปปฏิบัติก็ชัดเจน แต่กลไกการทำงานภายใน (Mechanics) ของมันก็ยังไม่เป็นที่เข้าใจอย่างถ่องแท้ เนื่องจาก LLM มีขนาดใหญ่มาก กลไกการทำงานของมันจึงซับซ้อนเป็นพิเศษ ซึ่งเป็นความท้าทายอย่างยิ่งต่อการศึกษาเชิงลึกเกี่ยวกับความสามารถของมัน

นับตั้งแต่ ChatGPT ถือกำเนิดขึ้น งานวิจัยเกี่ยวกับกลไกและคุณลักษณะของ LLM ก็ผุดขึ้นมาเป็นดอกเห็ด โดยเฉพาะอย่างยิ่งการอภิปรายเกี่ยวกับกลไกการทำงาน (หรือที่เรียกว่าการตีความได้) ในช่วงไม่กี่ปีที่ผ่านมา งานเหล่านี้ได้ให้คำตอบเบื้องต้นจากมิติต่างๆ สำหรับหัวข้อหลักในสาขาปัญญาประดิษฐ์นี้ แต่ก็ยังมีปริศนาอีกมากมายรอให้การศึกษาในอนาคตไขกระจ่าง

บทความนี้สรุปหลักการพื้นฐานและวิธีการนำไปปฏิบัติของ LLM อย่างเป็นระบบ และแนะนำความคืบหน้าในการวิจัยเกี่ยวกับกลไกการทำงานของ LLM ในปัจจุบัน โดยเฉพาะอย่างยิ่งรวมถึงผลงานของ ByteDance ในด้านกลไกความจำของ LLM บนพื้นฐานนี้ ผู้เขียนได้นำเสนอความเห็นของตนเองเกี่ยวกับกระบวนการสร้างความสามารถของ LLM

อ้างอิง: บทความเกี่ยวกับกลไกความจำของ LLM: Shaohua Zhang, Yuan Lin, Hang Li, Memory Retrieval and Consolidation in Large Language Models through Function Tokens, 2025. https://arxiv.org/abs/2510.08203

1 มุมมองหลัก

บทความอธิบายประเด็นหลักหลายประการดังต่อไปนี้:

LLM เรียนรู้รูปแบบของการใช้ภาษาและการให้เหตุผล โดยกุญแจสำคัญอยู่ที่การเรียนรู้ “รูปแบบระดับสูง” ของรูปแบบเหล่านี้ การเรียนรู้ของ LLM โดยพื้นฐานแล้วคือการเรียนรู้ของเครื่อง สิ่งที่เรียนรู้คือกฎทางสถิติในข้อมูล นั่นคือ “รูปแบบ” ข้อมูลภาษามีทุกอย่าง ครอบคลุมคำศัพท์ ไวยากรณ์ ความหมาย วัจนปฏิบัติศาสตร์ และความรู้เกี่ยวกับโลก งานวิจัยชี้ให้เห็นว่า LLM ไม่เพียงแต่เชี่ยวชาญรูปแบบระดับต่ำที่เกี่ยวข้องกับคำศัพท์และไวยากรณ์เท่านั้น แต่ยังเรียนรู้รูปแบบระดับสูง (Higher Order Patterns) ที่เกี่ยวข้องกับความหมาย วัจนปฏิบัติศาสตร์ และความรู้เกี่ยวกับโลกอีกด้วย โมเดลภาษาก่อนหน้านี้มักจะทำสิ่งนี้ได้ยาก และนี่คือกุญแจสำคัญที่ทำให้ ChatGPT และ LLM รุ่นต่อๆ มา “เกิด” (Emerge) ความสามารถอันทรงพลังขึ้นมา ดังนั้น มุมมองที่ว่า LLM เรียนรู้เพียงรูปแบบภาษาแต่ไม่เข้าใจเนื้อหา (เช่น มุมมองของ Chomsky) จึงขาดน้ำหนักในการโน้มน้าวใจ
สามารถสรุปหลักการพื้นฐานของมันได้ด้วย “การทำนายโทเค็นถัดไป” (Next Token Prediction, NTP) แต่ความสามารถโดยรวมนั้นถูกกำหนดร่วมกันโดยหลายปัจจัย เช่น กลยุทธ์ โมเดล อัลกอริทึม และข้อมูล กระบวนการเรียนรู้และการให้เหตุผลของ LLM ดูเหมือนจะเป็น NTP แต่สิ่งนี้เป็นเพียงผิวเผินเท่านั้น วิธีการนำไปใช้และคุณลักษณะเฉพาะที่เจาะจงนั้นสำคัญยิ่งกว่า การประมาณค่าความเป็นไปได้สูงสุด (ซึ่งเทียบเท่ากับการบีบอัดข้อมูล) ที่ใช้ในขั้นตอนก่อนการฝึก (Pre-training) มีเป้าหมายเพื่อประมาณการแจกแจงความน่าจะเป็นของลำดับโทเค็น การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) ในขั้นตอนหลังการฝึก (Post-training) ใช้สำหรับปรับแต่งโมเดลให้เป็นฟังก์ชันนโยบายที่สามารถสร้างลำดับโทเค็นที่เหมาะสมที่สุด Transformer ในฐานะโมเดลมีความสามารถในการแทนความรู้และภาษาได้อย่างยอดเยี่ยม ในขณะที่อัลกอริทึมการหาค่าเหมาะที่สุด เช่น Stochastic Gradient Descent ช่วยในการหาคำตอบที่มีความสามารถในการสรุปทั่วไป (Generalization) ได้ดี กุญแจสู่ความสำเร็จของ LLM อยู่ที่การบูรณาการอย่างเป็นระบบและการปรับขนาดเทคโนโลยีเหล่านี้ให้ใหญ่ขึ้น การอธิบายความสำเร็จของ LLM อย่างง่ายๆ ว่าเป็นเพราะ NTP นั้น เป็นความเข้าใจที่เรียบง่ายเกินไป
กลไกภายในของ LLM ได้รับการวิเคราะห์และทำความเข้าใจในเบื้องต้นแล้ว ในช่วงไม่กี่ปีที่ผ่านมา การวิจัยด้านการตีความได้ (Interpretability) ของ LLM มีความก้าวหน้าอย่างเห็นได้ชัด มันไม่ใช่ “กล่องดำ” (Black Box) ที่สมบูรณ์สำหรับเราอีกต่อไป ด้วยเครื่องมือเช่น SAE เราสามารถดึงคุณลักษณะ (Features) ออกจาก LLM ได้ การใช้เครื่องมือเช่น CLT เราสามารถติดตามวงจร (Circuits) ที่เกิดขึ้นระหว่างคุณลักษณะต่างๆ ได้ งานวิจัยล่าสุดของ ByteDance ยังเผยให้เห็นกฎที่ว่าคุณลักษณะต่างๆ ใน LLM จะถูกจดจำในระหว่างการเรียนรู้ และถูกเรียกค้นคืนในระหว่างการให้เหตุผล เมื่อการวิจัยดำเนินไปอย่างลึกซึ้งยิ่งขึ้น กลไกการทำงานของ LLM จะค่อยๆ ถูกวิเคราะห์และควบคุมโดยเรา

2 กลไกการทำงานของ LLM

การศึกษาวิจัย LLM สามารถดำเนินการได้จากสามมุมมอง: วิธีการและทฤษฎีการเรียนรู้ของเครื่อง การวิเคราะห์การทดลองด้วยพรอมต์ภายนอก และการศึกษากลไกการทำงานภายใน หากเปรียบ LLM กับสมองมนุษย์ การศึกษากลไกการทำงานก็เปรียบเสมือนการทดลองทางวิทยาศาสตร์สมอง

2.1 การซ้อนทับคุณลักษณะ (Superposition)

แต่ละชั้นของโครงข่ายประสาทเทียมอาจมีปรากฏการณ์ “การซ้อนทับคุณลักษณะ” (Superposition) มุมมองดั้งเดิมเชื่อว่า นิวรอนหนึ่งตัวแทนการแสดงคุณลักษณะหนึ่งอย่าง อย่างไรก็ตาม การทดลองจำนวนมากแสดงให้เห็นว่า สถานการณ์ในอุดมคตินี้พบได้ยากมากในเครือข่ายจริง ในทางกลับกัน ความสัมพันธ์ระหว่างนิวรอนและคุณลักษณะมักจะเป็นแบบหลายต่อหลาย: นิวรอนหนึ่งตัวมีส่วนร่วมในการแสดงคุณลักษณะหลายอย่าง ในขณะที่คุณลักษณะหนึ่งอย่างถูกแสดงโดยนิวรอนหลายตัวร่วมกัน

LLM เข้าใจภาษาจริงหรือ? ByteDance เผยกลไกการทำงานและขีดจำกัดความสามารถของโมเดลขนาดใหญ่

รูปที่ 1: ความสัมพันธ์ระหว่างภาษา ความสามารถในการคิด กลไกการทำงาน และหลักการนำไปปฏิบัติของ LLM

ทีมวิจัย Anthropic เสนอ “สมมติฐานการซ้อนทับคุณลักษณะ” (Superposition Hypothesis) แนวคิดหลักคือ: ผ่านการซ้อนทับคุณลักษณะ นิวรอนในชั้นหนึ่งของโครงข่ายประสาทเทียมสามารถแทนคุณลักษณะต่างๆ ได้มากกว่าจำนวนนิวรอนของมันเองอย่างมาก โดยมีค่าใช้จ่ายคือการรบกวนระหว่างคุณลักษณะในระดับหนึ่ง

ชั้นหนึ่งของโครงข่ายประสาทเทียม (เรียกว่าชั้นจริง) สามารถแสดงได้ดังนี้:

โดยที่ $x$ คือเวกเตอร์อินพุต อยู่ในพื้นที่อินพุต $W$ คือเมทริกซ์น้ำหนัก $b$ คือเวกเตอร์ไบแอส $h$ คือเวกเตอร์เอาต์พุตหรือเวกเตอร์คุณลักษณะ ReLU คือฟังก์ชันกระตุ้น

ทฤษฎีการซ้อนทับคุณลักษณะชี้ให้เห็นว่า มีชั้นโครงข่ายประสาทเทียมสมมติที่กว้างกว่าซึ่งใช้นิวรอนมากกว่าเพื่อแสดงคุณลักษณะจำนวนมากอย่างชัดเจน:

โดยที่ $h’$ คือเวกเตอร์คุณลักษณะ ซึ่งแต่ละมิติสอดคล้องกับคุณลักษณะหนึ่ง และเป็นไปตาม

นั่นคือ มิติของชั้นกว้างนั้นใหญ่กว่ามิติของชั้นจริงมาก $W’$ และ $b’$ คือเมทริกซ์น้ำหนักและเวกเตอร์ไบแอส

ประเด็นสำคัญคือ เวกเตอร์คุณลักษณะ $h’$ ของชั้นกว้างนั้นเบาบาง (Sparse) ในขณะที่เวกเตอร์คุณลักษณะ $h$ ของชั้นจริงนั้นหนาแน่น (Dense) ความเบาบางหมายความว่า สำหรับแต่ละอินพุต มีเพียงคุณลักษณะจำนวนน้อยเท่านั้นที่ถูกกระตุ้น (เช่น มีเพียงไม่กี่สิบตัวจากหนึ่งหมื่นคุณลักษณะที่ถูกกระตุ้น) ซึ่งทำให้การรบกวนระหว่างคุณลักษณะต่างๆ มีน้อย

สมมติฐานการซ้อนทับคุณลักษณะเชื่อว่า มีความสัมพันธ์ที่เทียบเท่าโดยประมาณระหว่างชั้นกว้างและชั้นจริง โดยเฉพาะอย่างยิ่ง ทั้งสองชั้นสามารถประมาณคืนค่าเวกเตอร์อินพุต $x$ ผ่านการแปลงเชิงเส้น เพื่อให้ได้การสร้างใหม่โดยประมาณ $hat{x}$ ดังแสดงในรูปที่ 2 ดังนั้น จึงถือได้ว่าในเครือข่ายจริง เวกเตอร์คุณลักษณะแบบเบาบาง $h’$ ถูกบีบอัดเข้าไปในเวกเตอร์คุณลักษณะแบบหนาแน่น $h$ เวกเตอร์คุณลักษณะแบบเบาบาง $h’$ เกือบจะเป็นอิสระต่อกัน (ไม่ซ้อนทับ) ในขณะที่เวกเตอร์คุณลักษณะแบบหนาแน่น $h$ นั้นถูกซ้อนทับ

รูปที่ 2: โครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดดั้งเดิมกับโครงข่ายประสาทเทียมที่กว้างกว่าซึ่งเทียบเท่าโดยประมาณ

ทฤษฎีเรขาคณิตมิติสูงให้การสนับสนุนทางทฤษฎีสำหรับการมีอยู่ของชั้นกว้าง ภายใต้เงื่อนไขนิยามที่เกี่ยวข้อง จำนวนเวกเตอร์ฐานที่เกือบตั้งฉากกันในปริภูมิ $n$ มิติสามารถมีได้ถึงระดับเลขชี้กำลังของ $n$ สมมติ

คือเซตของเวกเตอร์ฐานที่เกือบตั้งฉากกันของปริภูมิอินพุต ดังนั้นเวกเตอร์อินพุตสามารถแยกย่อยโดยประมาณได้เป็น:

ในที่นี้ เวกเตอร์ฐานแต่ละตัว $e_i$ และค่ากระตุ้น $a_i$ สอดคล้องกับคุณลักษณะหนึ่ง เวกเตอร์ฐานเกือบตั้งฉากกันและเวกเตอร์คุณลักษณะเบาบาง ทำให้สามารถแสดงเวกเตอร์อินพุตได้ดีและลดการรบกวนระหว่างคุณลักษณะ

สมมติฐานการซ้อนทับคุณลักษณะเชื่อว่า วิธีการเรียนรู้เชิงลึกสามารถบรรลุผลนี้ได้ นั่นคือ ชั้นจริง (เวกเตอร์คุณลักษณะหนาแน่น) ทำการบีบอัดชั้นกว้าง (เวกเตอร์คุณลักษณะเบาบาง) หรือกล่าวได้ว่าชั้นจริงมีชั้นกว้างแฝงอยู่ สาเหตุหลักมาจากสองประเด็น

ประการแรก โดยทั่วไปแล้ว เวกเตอร์อินพุต $x$ ทั่วไปจะมีจำนวนคุณลักษณะที่เบาบาง ตัวอย่างเช่น เมื่อประมวลผลโทเค็น “สะพาน” ใน “ฉันไปเยี่ยมสะพานโกลเดนเกต” เวกเตอร์คุณลักษณะของชั้นกว้าง $h’$ อาจมีเพียงไม่กี่คุณลักษณะที่ถูกกระตุ้น (เช่น “สะพานโกลเดนเกต”, “ซานฟรานซิสโก”, “โครงสร้างสะพาน”, “สถานที่ท่องเที่ยว” ฯลฯ) ส่วนคุณลักษณะที่เหลือมีค่าเป็นศูนย์ ความเบาบางนี้ทำให้การรบกวนระหว่างคุณลักษณะที่เกือบตั้งฉากกันจำนวนมากมีน้อยพอ ทำให้กลไกการซ้อนทับเป็นไปได้ในทางปฏิบัติ

ประการที่สอง ในระหว่างกระบวนการฝึก โครงข่ายประสาทเทียมจะลดฟังก์ชันการสูญเสียให้เหลือน้อยที่สุดผ่านการไล่ระดับสี (Gradient Descent) เมื่อเครือข่ายเผชิญกับเป้าหมายสองประการคือ “แสดงคุณลักษณะให้มากที่สุดเท่าที่จะทำได้” และ “ใช้นิวรอนให้น้อยที่สุดเท่าที่จะทำได้” การซ้อนทับคุณลักษณะจึงกลายเป็นผลลัพธ์การหาค่าเหมาะที่สุดตามธรรมชาติ นอกจากนี้ การใช้ฟังก์ชันกระตุ้น ReLU ยังส่งเสริมการทำให้เวกเตอร์คุณลักษณะเบาบางลง เนื่องจากค่ากระตุ้นที่อ่อนจะถูกตัดให้เป็นศูนย์

ความสมเหตุสมผลของสมมติฐานการซ้อนทับคุณลักษณะข้างต้นได้รับการยืนยันในการทดลองจำลองด้วยของเล่นจำลอง (toy model) ของ Anthropic และได้รับการสนับสนุนเพิ่มเติมในการพัฒนาและการประยุกต์ใช้ Sparse Autoencoder (SAE) ในเวลาต่อมา

2.2 SAE: การวิเคราะห์คุณลักษณะ

การวิเคราะห์เชิงลึกของกลไกความเข้าใจภาษาในโมเดลขนาดใหญ่ (ตอนที่ 2)

2.2 Sparse Autoencoder (SAE) และการแยกโครงสร้างคุณลักษณะ

Sparse Autoencoder (SAE) เป็นเครื่องมือที่มีประสิทธิภาพสำหรับการวิเคราะห์กลไกภายในของโครงข่ายประสาทเทียม โดยมีคุณค่าหลักอยู่ที่ความสามารถในการระบุรูปแบบคุณลักษณะที่สามารถตีความได้ภายในเครือข่าย ในการวิจัยด้านการตีความได้ของ Large Language Model (LLM) โดยทั่วไปแล้ว SAE จะถูกนำไปใช้กับ Residual Stream ของสถาปัตยกรรม Transformer โดยดำเนินการกับเวกเตอร์การแสดงผลของเอาต์พุตในแต่ละชั้น

SAE และทฤษฎี “การซ้อนทับคุณลักษณะ” มีความสัมพันธ์เสริมซึ่งกันและกัน การซ้อนทับคุณลักษณะสามารถมองได้ว่าเป็นกระบวนการบีบอัดข้อมูล: โมเดลใช้เวกเตอร์คุณลักษณะแบบเบาบางที่มีมิติสูงโดยนัยเพื่อแทนเวกเตอร์อินพุตดั้งเดิม ในขณะที่ SAE ทำหน้าที่ “คลายการบีบอัด”: มันแยกเวกเตอร์อินพุตออกเป็นเวกเตอร์คุณลักษณะที่มีมิติสูงและเบาบางเช่นกัน ความสัมพันธ์แบบสมมาตร “การบีบอัด-คลายการบีบอัด” นี้ ทำให้ SAE กลายเป็นเครื่องมือสำคัญที่ขาดไม่ได้สำหรับการศึกษาและวิเคราะห์ปรากฏการณ์การซ้อนทับคุณลักษณะ

สถาปัตยกรรมพื้นฐานของ SAE ประกอบด้วยสองส่วนคือ Encoder และ Decoder ขั้นแรก Encoder จะแปลงเวกเตอร์อินพุตเป็นเวกเตอร์คุณลักษณะที่มีมิติสูงและเบาบางผ่านการแปลงแบบไม่เชิงเส้น:

โดยที่

แทน Residual Stream จากชั้นหนึ่งของ LLM

คือเมทริกซ์น้ำหนักของ Encoder คือเวกเตอร์ไบแอส

คือเวกเตอร์คุณลักษณะที่ได้ในที่สุด ที่นี่เป็นไปตามเงื่อนไข

หมายความว่ามิติของเวกเตอร์คุณลักษณะนั้นใหญ่กว่ามิติของเวกเตอร์อินพุตมาก

จากนั้น Decoder จะพยายามสร้างเวกเตอร์อินพุตดั้งเดิมขึ้นมาใหม่จากเวกเตอร์คุณลักษณะผ่านการแปลงเชิงเส้น:

ในที่นี้ คือเมทริกซ์น้ำหนักของ Decoder คือเวกเตอร์ไบแอส สิ่งที่น่าสังเกตคือ Decoder ใช้การแปลงเชิงเส้นที่ไม่มีฟังก์ชันกระตุ้น การออกแบบนี้สอดคล้องกับสมมติฐานพื้นฐานในทฤษฎีการซ้อนทับคุณลักษณะเกี่ยวกับการรวมเชิงเส้นของคุณลักษณะ

ในระหว่างกระบวนการฝึก SAE จำเป็นต้องมีการประนีประนอมระหว่างเป้าหมายสองประการ: ในด้านหนึ่ง ต้องการให้เวกเตอร์ที่สร้างขึ้นใหม่ ใกล้เคียงกับเวกเตอร์อินพุตดั้งเดิมมากที่สุด อีกด้านหนึ่ง จำเป็นต้องแนะนำหรือประมาณค่าเทอมการทำให้เป็นมาตรฐาน เพื่อบังคับให้เวกเตอร์คุณลักษณะ รักษาความเบาบาง

ในการใช้งานจริง การฝึก SAE จำเป็นต้องดึงข้อมูลจำนวนมหาศาลจาก LLM เป้าหมาย วิธีการเฉพาะคือ ป้อนคลังข้อมูลขนาดใหญ่เข้าไปใน LLM และรวบรวมเวกเตอร์กระตุ้น (เช่น Residual Stream ของแต่ละชั้น) ที่โมเดลสร้างขึ้นเมื่อประมวลผลแต่ละโทเค็น เวกเตอร์เหล่านี้

ร่วมกันเป็นชุดข้อมูลฝึกของ SAE หลังจากฝึกเสร็จแล้ว สำหรับอินพุต ใดๆ ที่กำหนด เอาต์พุตของ Encoder มักจะแสดงความเบาบางที่แข็งแกร่ง

คุณลักษณะกระตุ้นแบบเบาบางที่สกัดได้ผ่าน SAE สอดคล้องอย่างมากกับการคาดการณ์ของทฤษฎีการซ้อนทับคุณลักษณะ นั่นคือ โมเดลอาจเข้ารหัสแนวคิดที่อาจมีจำนวนมากกว่าจำนวนนิวรอนไว้ในนิวรอนเดียวกัน ตัวอย่างเช่น ในการวิเคราะห์ Large Language Model นักวิจัยสามารถสกัดคุณลักษณะได้หลายแสนหรือหลายล้านระดับ คุณลักษณะบางอย่างมีความหมายทางความหมายที่ชัดเจน เช่น คุณลักษณะที่เกี่ยวข้องกับเอนทิตีเฉพาะ (เช่น “สะพานโกลเดนเกต”) หรือพฤติกรรมเฉพาะ (เช่น “การประจบประแจง”, Sycophancy)

การวิเคราะห์เพิ่มเติมชี้ให้เห็นว่า โดยทั่วไปแล้วคุณลักษณะภายใน Large Language Model มักแสดงโครงสร้างองค์กรแบบลำดับชั้น: ชั้นตื้นส่วนใหญ่เข้ารหัสคุณลักษณะทางสัณฐานวิทยาและไวยากรณ์อย่างง่ายของข้อความอินพุต ชั้นกลางประกอบด้วยคุณลักษณะทางไวยากรณ์ที่ซับซ้อนและความหมายพื้นฐานจำนวนมาก ในขณะที่ชั้นลึกส่วนใหญ่จัดการกับคุณลักษณะที่เกี่ยวข้องกับความหมายที่ซับซ้อน การดำเนินการให้เหตุผล และการแสดงออกของเอาต์พุตสุดท้าย

2.3 กลไกความจำ: สมมติฐาน Function Token

ทีมวิจัยของ ByteDance เสนอ “สมมติฐาน Function Token” เพื่อเปิดเผยกฎพื้นฐานของกลไกความจำของ Large Language Model สมมติฐานนี้เชื่อว่า การจดจำคุณลักษณะใน LLM นั้นถูกจัดระเบียบรอบ “Function Token” และกระบวนการเรียกค้นคืนคุณลักษณะในบริบทเฉพาะนั้นก็ดำเนินการผ่าน Function Token เช่นกัน

Function Token หมายถึงประเภทของโทเค็นที่ปรากฏบ่อยที่สุดในคลังข้อมูลฝึก ส่วนใหญ่สอดคล้องกับ Function Word ในภาษาศาสตร์ ซึ่งมีบทบาทสำคัญในโครงสร้างไวยากรณ์และการเชื่อมโยงบริบท ตัวอย่างเช่น คำนำหน้านาม “the” เครื่องหมายวรรคตอน (จุลภาค, มหัพภาค) และอักขระขึ้นบรรทัดใหม่ เป็นต้น ในทางตรงกันข้าม “Content Token” จะมีข้อมูลความหมายที่ชัดเจนและสมบูรณ์ ข้อมูลทางสถิติแสดงให้เห็นว่า ในคลังข้อมูลก่อนการฝึกขนาดใหญ่ โทเค็นความถี่สูงประมาณ 100 กว่าตัวแรก มีจำนวนครั้งที่ปรากฏคิดเป็นประมาณ 40% ของจำนวนครั้งที่ปรากฏทั้งหมดของโทเค็นทั้งหมด

ในขั้นตอนก่อนการฝึกของ LLM กระบวนการเรียนรู้มีลักษณะเด่นที่เน้น Function Token เป็นศูนย์กลาง โดยการแยกย่อยการสูญเสียการฝึกตามการรวมกันสี่แบบของ Function Token และ Content Token นักวิจัยพบว่า การสูญเสียของฟังก์ชันสำหรับการรวมกัน “Function Token → Content Token” ลดลงช้าที่สุด ซึ่งหมายความว่า การทำนาย Content Token ถัดไปตาม Function Token เป็นงานที่ท้าทายที่สุด จากมุมมองทางภาษาศาสตร์ สิ่งนี้สมเหตุสมผลมาก เนื่องจาก Function Token มักจะบ่งบอกถึงจุดสิ้นสุดของหน่วยภาษา (Chunk) ก่อนหน้า ในการทำนาย Content Token ที่ตามมาได้อย่างแม่นยำ โมเดลต้องมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับบริบททั้งหมดตั้งแต่ต้นข้อความจนถึงตำแหน่งปัจจุบัน สามารถสันนิษฐานได้ว่างานทำนายที่ยากที่สุดนี้เองที่กลายเป็นแรงผลักดันหลักในการปรับโมเดลให้เหมาะสม

การค้นพบที่สำคัญอีกประการหนึ่งคือ Function Token สามารถกระตุ้นคุณลักษณะส่วนใหญ่ได้ในระหว่างการฝึก (กระตุ้นคุณลักษณะแบบเบาบางที่แตกต่างกันในบริบทที่แตกต่างกัน) หากสร้างกราฟสองส่วนระหว่าง Function Token และคุณลักษณะ โดยทุกครั้งที่ Function Token กระตุ้นคุณลักษณะบางอย่างในบริบทหนึ่ง จะมีการเพิ่มขอบระหว่างทั้งสอง เมื่อการฝึกดำเนินไปอย่างลึกซึ้งยิ่งขึ้น ขอบบนกราฟสองส่วนนี้จะเพิ่มขึ้นเรื่อยๆ ในที่สุด Function Token จำนวนน้อยก็สามารถเชื่อมต่อกับคุณลักษณะส่วนใหญ่ได้ ข้อมูลแสดงให้เห็นว่า Function Token ความถี่สูงสุด 10 ตัวแรกสามารถกระตุ้นคุณลักษณะได้ 70% ซึ่งหมายความว่า Function Token เหล่านี้ (ในบริบทที่แตกต่างกัน) มีความสามารถในการกระตุ้นคุณลักษณะส่วนใหญ่ ที่นี่ก็เป็นไปตามการแจกแจงแบบกฎกำลัง (Power Law) เช่นกัน

ในระหว่างกระบวนการให้เหตุผล Function Token มีบทบาทหลักในการเรียกค้นคืนความจำ พวกมันสามารถกระตุ้นคุณลักษณะที่คาดการณ์ได้มากที่สุดจากบริบทแบบไดนามิก เพื่อชี้นำการสร้างโทเค็นถัดไป ตัวอย่างเช่น ดังแสดงในรูปที่ 3 เมื่อพรอมต์คือ “Answer the question in Chinese: What is the capital of Russia?” Function Token (เช่น ทวิภาค “:” และอักขระขึ้นบรรทัดใหม่) จะกระตุ้นคุณลักษณะในบริบท เช่น “ตอบเป็นภาษาจีน” และ “รัสเซีย” ในขณะเดียวกันก็ยับยั้งคุณลักษณะที่ไม่เกี่ยวข้อง และในที่สุดจะนำทางโมเดลให้สร้างคำตอบเป็นภาษาจีนว่า “มอสโก” ความสามารถในการเลือกและรวมคุณลักษณะแบบไดนามิกนี้เองที่เป็นคุณลักษณะสำคัญที่ทำให้ Function Token แตกต่างจาก Content Token

รูปที่ 3: Function Token มีบทบาทหลักในการเรียกค้นคืนความจำในระหว่างกระบวนการให้เหตุผลของ LLM

สาเหตุที่ Function Token สามารถมีบทบาทสำคัญใน LLM ได้นั้น เป็นผลมาจากการทำงานร่วมกันของเป้าหมายการฝึก อัลกอริทึมการเรียนรู้ สถาปัตยกรรมโมเดล และคุณลักษณะของภาษา ประการแรก เป้าหมายการฝึกทำนายโทเค็นถัดไป (Cross-Entropy Loss) กำหนดให้โมเดลเพิ่มความแม่นยำในการทำนายสูงสุด ในขณะที่อัลกอริทึม Gradient Descent มักจะลดส่วนที่สูญเสียมากที่สุดก่อน ประการที่สอง ชั้น Feed-Forward Network ในสถาปัตยกรรม Transformer สามารถแสดงและจดจำความรู้ (คุณลักษณะ) ได้ดี ในขณะที่ชั้น Self-Attention สามารถรวมความรู้ (คุณลักษณะ) ระดับต่ำให้เป็นความรู้ (คุณลักษณะ) ระดับสูงได้อย่างมีประสิทธิภาพ สุดท้าย คุณลักษณะเชิงโครงสร้างของภาษาธรรมชาติมีบทบาทชี้ขาด: ข้อความจะถูกแบ่งออกเป็น Chunk ที่ซ้อนกัน (อาจเป็นวลี ประโยค หรือย่อหน้า) โดย Function Token เสมอ ดังนั้น การทำนายหลังจาก Function Token จำเป็นต้องเข้าใจความหมายบริบททั้งหมดตั้งแต่ต้นข้อความจนถึงตำแหน่งนั้น นี่เป็นงานที่ท้าทายอย่างยิ่ง ซึ่งกระตุ้นให้ Function Token ได้รับความสามารถในการเชื่อมต่อคุณลักษณะส่วนใหญ่ในระหว่างการฝึก และกระตุ้นคุณลักษณะที่คาดการณ์ได้มากที่สุดอีกครั้งในระหว่างการให้เหตุผล

สมมติฐาน Function Token มีนัยยะสำคัญต่อการปฏิบัติในการฝึก LLM ประเด็นที่สำคัญที่สุดคือ รูปแบบของข้อมูลฝึกมีความสำคัญอย่างยิ่ง ผลการศึกษาหลายชิ้นยืนยันประเด็นนี้ ในขั้นตอนหลังการฝึก เพียงไม่กี่ขั้นตอนการฝึกก็สามารถปรับปรุงความสามารถของโมเดลในการปฏิบัติตามคำสั่ง การให้เหตุผลแบบ Chain of Thought ฯลฯ ได้อย่างมีนัยสำคัญ ทั้งนี้อาจเป็นเพราะการฝึกหลังการฝึกปรับรูปแบบการกระตุ้นของ Function Token เพื่อกระตุ้นคุณลักษณะที่เรียนรู้ไปแล้วในระหว่างการฝึกก่อนหน้า ตัวอย่างเช่น Function Token (เช่น “thus”) สามารถปรับปรุงประสิทธิภาพการให้เหตุผลได้อย่างมีนัยสำคัญในการฝึกแบบ Reinforcement Learning

2.4 การวิเคราะห์วงจร: วิธี CLT

วงจร (Circuit) หมายถึงกราฟการคำนวณที่เชื่อมต่อคุณลักษณะข้ามชั้นใน LLM ซึ่งใช้เพื่อแสดงว่าคุณลักษณะต่างๆ ภายในโมเดลถูกกระตุ้นและแพร่กระจายอย่างไร เนื่องจาก SAE สามารถสังเกตคุณลักษณะได้เพียงชั้นเดียว จึงมีข้อจำกัดค่อนข้างมาก เพื่อวิเคราะห์ความเชื่อมโยงและความสัมพันธ์อิทธิพลของคุณลักษณะข้ามชั้น นักวิจัยจึงเสนอวิธี CLT (Cross Layer Transcoder)

หลักการทำงานของ CLT คือ: ใช้ Residual Stream ของชั้นหนึ่ง เป็นอินพุต โมเดลจะแมปมันไปยัง Residual Stream ของชั้นถัดๆ ไป

ด้วยวิธีนี้ CLT สามารถเรียนรู้พจนานุกรมคุณลักษณะที่จัดแนวข้ามชั้น (Cross-layer Aligned Feature Dictionary) ซึ่งจะจับความสัมพันธ์อิทธิพลของคุณลักษณะระหว่างชั้นต่างๆ

CLT มีโมดูลการสกัดคุณลักษณะคล้าย SAE ในแต่ละชั้น แต่เป้าหมายการหาค่าเหมาะที่สุดแตกต่างกันมาก เอาต์พุตของแต่ละชั้นคือการสร้าง Residual Stream ของชั้นต่างๆ ที่ตามมาขึ้นมาใหม่ ประกอบด้วยการแปลงแบบไม่เชิงเส้น (ตรงกับ Encoder) การแปลงเชิงเส้น (ตรงกับการแมปข้ามชั้น) และการแปลง Decoder เชิงเส้น:

โดยที่

คือเมทริกซ์น้ำหนักของ Encoder ชั้นที่ คือเวกเตอร์ไบแอส

คือเมทริกซ์น้ำหนักของ Decoder ชั้นที่

คือเวกเตอร์ไบแอส

คือเมทริกซ์น้ำหนักการแปลงเชิงเส้นข้ามชั้นที่แมปคุณลักษณะจากชั้นที่ ไปยังชั้นที่

คือเวกเตอร์ไบแอส ผ่านการแปลงเชิงเส้นข้ามชั้น

ทำให้เกิดการฉายเชิงเส้นจากพื้นที่คุณลักษณะของชั้นที่ ไปยังพื้นที่คุณลักษณะของชั้นที่

เป้าหมายการฝึกของ CLT ประกอบด้วยการลดข้อผิดพลาดในการสร้างใหม่ของทุกชั้นและการทำให้เป็นมาตรฐานแบบเบาบางร่วมกัน

จากผลการวิเคราะห์ตาม CLT สามารถสร้างกราฟแสดงที่มา (Attribution Graph) ซึ่งสามารถแสดงความสัมพันธ์การแมปเชิงเส้นของคุณลักษณะระหว่างชั้นต่างๆ ของโมเดลได้อย่าง直观 ช่วยให้นักวิจัยเข้าใจกลไกการแทนความรู้และการคำนวณภายใน LLM

การสร้างและการวิเคราะห์กราฟแสดงที่มา

การสร้างกราฟแสดงที่มาขึ้นอยู่กับโมเดล CLT ที่ฝึกเสร็จแล้ว ขั้นแรก สำหรับพรอมต์อินพุตเฉพาะ ให้รันโมเดล Transformer ดั้งเดิม และบันทึก Residual Stream ในแต่ละชั้น จากนั้น ใช้ CLT เพื่อสกัดคุณลักษณะแบบเบาบาง

จากแต่ละชั้น และใช้เมทริกซ์การแมปข้ามชั้น

เพื่อวิเคราะห์ความสัมพันธ์การแมประหว่างคุณลักษณะเหล่านี้

โดยพื้นฐานแล้ว กราฟแสดงที่มาคือกราฟแบบมีทิศทางไม่มีวงจร (Directed Acyclic Graph) ซึ่งอธิบายเส้นทางการคำนวณที่สมบูรณ์จากโทเค็นอินพุตไปยังโทเค็นเอาต์พุต ในกราฟนี้ โหนดแสดงถึงคุณลักษณะที่ถูกกระตุ้นหรือการฝังโทเค็น (Token Embedding) ในโมเดล ในขณะที่ขอบแสดงถึงความสัมพันธ์ของอิทธิพลซึ่งกันและกันระหว่างโหนด

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง