ภายในโมเดลขนาดใหญ่กลับมี “ต้นไม้แห่งอารมณ์” ซ่อนอยู่: ยิ่งโมเดลใหญ่เท่าไร ความเข้าใจด้านอารมณ์ก็ยิ่งเหมือนมนุษย์มากขึ้นเท่านั้น

17 hours ago • การประเมินโมเดลขนาดใหญ่ • 22 views

เมื่อความสามารถด้านเสียง วิดีโอ และมัลติโมดัลถูกผสานเข้ากับโมเดลภาษาขนาดใหญ่ (LLM) มากขึ้น ปฏิสัมพันธ์ระหว่างมนุษย์กับ AI ก็ใกล้เคียงกับการสนทนาตามธรรมชาติมากขึ้น ปัจจุบัน LLM ไม่ใช่แค่เครื่องมือตอบคำถามอีกต่อไป แต่ถูกนำไปใช้ในด้านการศึกษา บริการลูกค้า การเป็นเพื่อนคู่คิด สุขภาพจิต และสถานการณ์อื่นๆ ที่ต้องพึ่งพาความเข้าใจทางอารมณ์อย่างมาก

แล้วโมเดลภาษาขนาดใหญ่เข้าใจอารมณ์ของมนุษย์ได้อย่างไร?

ในอดีต งานวิจัยเกี่ยวกับความสามารถทางอารมณ์ของ LLM มักเน้นไปที่งานจำแนกประเภทอารมณ์: เมื่อกำหนดประโยคหนึ่ง โมเดลต้องตัดสินว่าประกอบด้วยความสุข ความเศร้า ความโกรธ หรือความกลัว อย่างไรก็ตาม ในความรู้ความเข้าใจของมนุษย์ อารมณ์ไม่ได้เป็นประเภทแบบราบเรียบ ทฤษฎี “วงล้ออารมณ์” ในจิตวิทยาชี้ให้เห็นว่า อารมณ์มักถูกจัดระเบียบในลักษณะลำดับชั้น ตัวอย่างเช่น “การมองโลกในแง่ดี” ถือเป็นรูปแบบหนึ่งของ “ความสุข” ในขณะที่ “ความตื่นตระหนก” เป็นการแสดงออกเฉพาะของ “ความกลัว”

ภายในโมเดลขนาดใหญ่กลับมี "ต้นไม้แห่งอารมณ์" ซ่อนอยู่: ยิ่งโมเดลใหญ่เท่าไร ความเข้าใจด้านอารมณ์ก็ยิ่งเหมือนมนุษย์มากขึ้นเท่านั้น

รูปที่ 1 วงล้ออารมณ์ (ที่มา: มหาวิทยาลัยแห่งรัฐไอดาโฮ)

ในบทความของ ICML 2026 นักวิจัยจากมหาวิทยาลัยฮาร์วาร์ด มหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก และ NTT Research ได้แก่ Bo Zhao, Maya Okawa และคณะ เสนอว่า: ภายในโมเดลภาษาขนาดใหญ่จะเกิด “ต้นไม้อารมณ์” ที่คล้ายกับแบบจำลองทางจิตวิทยาของมนุษย์ขึ้นเองตามธรรมชาติ ยิ่งโมเดลมีขนาดใหญ่ ต้นไม้อารมณ์ก็ยิ่งซับซ้อนมากขึ้น ในขณะเดียวกัน โมเดลที่มีโครงสร้างทางอารมณ์ที่ซับซ้อนกว่าก็มีประสิทธิภาพดีกว่าในงานต่างๆ เช่น การขาย โครงสร้างทางอารมณ์ในโมเดลยังได้รับผลกระทบจากการตั้งค่าอัตลักษณ์ เช่น เพศ เชื้อชาติ รายได้ ระดับการศึกษา ซึ่งแสดงอคติในการรับรู้อารมณ์ที่คล้ายคลึงกับการทดลองในมนุษย์

ชื่อบทความ: Emergence of Hierarchical Emotion Organization in Large Language Models
ลิงก์บทความ: https://arxiv.org/abs/2507.10599
หน้าโครงการ: https://b-zhao.github.io/blog/hierarchical-emotion-in-llm
หน้าผู้เขียน: https://b-zhao.github.io/

การสกัดต้นไม้อารมณ์จาก LLM

ผู้เขียนใช้ GPT-4o สร้างประโยคสถานการณ์ที่มีสภาวะทางอารมณ์ต่างๆ จำนวน 5,000 ประโยค จากนั้นให้โมเดลตระกูล Llama ทำนายต่อท้ายประโยคว่า “อารมณ์ในประโยคนี้คือ…” ต่อมา ผู้เขียนสกัดความน่าจะเป็นของโมเดลสำหรับคำอารมณ์ 135 คำ และเปรียบเทียบว่าคำอารมณ์สองคำมักปรากฏร่วมกันในผลลัพธ์ของโมเดลหรือไม่ ตัวอย่างเช่น หากโมเดลมีความน่าจะเป็นสูงที่คำถัดไปคือ “การมองโลกในแง่ดี” ก็มักจะมีความน่าจะเป็นสูงสำหรับ “ความสุข” เช่นกัน แต่ในทางกลับกันไม่เสมอไป ก็ถือว่า “การมองโลกในแง่ดี” เป็นอารมณ์ย่อยที่เฉพาะเจาะจงกว่าของ “ความสุข” จากความสัมพันธ์ของความน่าจะเป็นแบบมีเงื่อนไขนี้ อารมณ์ในโมเดลสามารถสร้างเป็นต้นไม้อารมณ์ได้ วิธีนี้ไม่ต้องการการติดป้ายกำกับด้วยมนุษย์ อาศัยการตัดสินความน่าจะเป็นของโมเดลเองจากสถานการณ์ทางอารมณ์จำนวนมากเท่านั้น

รูปที่ 2 ต้นไม้อารมณ์ของโมเดล Llama ขนาดต่างๆ (8B, 70B, 405B)

ยิ่งโมเดลใหญ่ โครงสร้างอารมณ์ยิ่งซับซ้อน

การทดลองเปรียบเทียบ GPT-2, Llama 3.1 8B, 70B และ 405B ผลลัพธ์แสดงให้เห็นว่า เมื่อขนาดโมเดลเพิ่มขึ้น ต้นไม้อารมณ์จะลึกขึ้น ซับซ้อนขึ้น และใกล้เคียงกับโครงสร้างวงล้ออารมณ์ในจิตวิทยามากขึ้น ใน Llama 405B อารมณ์พื้นฐาน เช่น ความสุข ความโกรธ ความเศร้า ความกลัว จะรวมกลุ่มเป็นประเภทย่อยที่ละเอียดขึ้น เช่น ความเบิกบานใจ การมองโลกในแง่ดี ความท้อแท้ ความเสียใจ ความวิตกกังวล เป็นต้น บทความใช้ความยาวเส้นทางรวมและความลึกเฉลี่ยในการวัดความซับซ้อนของต้นไม้อารมณ์ และพบว่าตัวชี้วัดทั้งสองนี้เพิ่มขึ้นตามขนาดโมเดลโดยรวม

รูปที่ 3 ความซับซ้อนของลำดับชั้นอารมณ์เพิ่มขึ้นตามขนาดโมเดล

ต้นไม้อารมณ์สามารถทำนายความสามารถในการรับรู้อารมณ์ของโมเดลได้

ผู้เขียนค้นพบเพิ่มเติมว่าต้นไม้อารมณ์ไม่เพียงเป็นเครื่องมือสร้างภาพ แต่ยังสามารถทำนายประสิทธิภาพการรับรู้อารมณ์ของโมเดลภายใต้การตั้งค่าอัตลักษณ์ที่แตกต่างกัน นักวิจัยให้ Llama 405B ตัดสินอารมณ์โดยใช้อัตลักษณ์ต่างๆ เช่น ชาย หญิง รายได้สูง รายได้ต่ำ ระดับการศึกษาสูง ระดับการศึกษาต่ำ ผลลัพธ์แสดงให้เห็นว่า การตั้งค่าอัตลักษณ์ที่แตกต่างกันสร้างต้นไม้อารมณ์ที่แตกต่างกัน และยิ่งต้นไม้อารมณ์สมบูรณ์ เส้นทางยาวขึ้น ความแม่นยำในการรับรู้อารมณ์ของโมเดลก็ยิ่งสูงขึ้น ค่าสัมประสิทธิ์สหสัมพันธ์ระหว่างความยาวเส้นทางรวมในต้นไม้กับความแม่นยำในการรับรู้สูงถึง 0.84 โดยมีนัยสำคัญน้อยกว่า 0.001

รูปที่ 4 ยิ่งโครงสร้างต้นไม้อารมณ์ซับซ้อน ความแม่นยำในการรับรู้อารมณ์ยิ่งสูง

นั่นหมายความว่า โครงสร้างลำดับชั้นสามารถเป็นตัวชี้วัดการประเมิน LLM แบบใหม่: มันไม่ได้วัดว่าโมเดลสุ่มเลือกป้ายกำกับถูกต้องหรือไม่ แต่วัดว่าโมเดลได้สร้างการจัดระเบียบแนวคิดอารมณ์ที่ละเอียดขึ้นหรือไม่

อคติของ LLM คล้ายกับมนุษย์แค่ไหน?

บทความยังเปิดเผยอคติเชิงระบบในการรับรู้อารมณ์ของ LLM เมื่อ Llama 405B จำลองอัตลักษณ์ของกลุ่มชนกลุ่มน้อยหรือกลุ่มด้อยโอกาส (เช่น หญิง คนผิวดำ รายได้ต่ำ ระดับการศึกษาต่ำ) ความแม่นยำในการรับรู้อารมณ์ลดลงอย่างเห็นได้ชัด ต่ำกว่ากลุ่มคนส่วนใหญ่หรือกลุ่มที่มีอภิสิทธิ์ที่สอดคล้องกัน เพื่อตรวจสอบว่าปรากฏการณ์เหล่านี้เป็นเพียงความเบี่ยงเบนของโมเดลหรือไม่ ผู้เขียนยังทำการทดลองกับมนุษย์ นักวิจัยรับสมัครผู้เข้าร่วม 60 คนบนแพลตฟอร์ม Prolific ให้พวกเขาตัดสินอารมณ์หกประเภทจากสถานการณ์ทางอารมณ์ 135 สถานการณ์ ผลลัพธ์แสดงให้เห็นว่า รูปแบบการตัดสินผิดบางอย่างของ LLM มีความคล้ายคลึงกับผู้เข้าร่วมที่เป็นมนุษย์ ตัวอย่างเช่น ผู้เข้าร่วมที่เป็นหญิงและการตั้งค่าอัตลักษณ์หญิงของ Llama มีแนวโน้มที่จะสับสนระหว่าง “ความโกรธ” กับ “ความกลัว” มากกว่า ผู้เข้าร่วมที่เป็นคนผิวดำและการตั้งค่าอัตลักษณ์คนผิวดำของ Llama ก็แสดงรูปแบบความสับสนทางอารมณ์เชิงลบที่คล้ายคลึงกัน สิ่งนี้ชี้ให้เห็นว่า LLM อาจไม่เพียงเรียนรู้ความสัมพันธ์ระหว่างคำอารมณ์กับข้อความ แต่ยังซึมซับรูปแบบการรับรู้และอคติจากสังคมมนุษย์ในระดับหนึ่งด้วย

จากการเข้าใจอารมณ์สู่การมีอิทธิพลต่ออารมณ์

ความซับซ้อนของต้นไม้อารมณ์ไม่เพียงสะท้อนว่าโมเดลสามารถ “เข้าใจ” อารมณ์ได้หรือไม่ แต่อาจส่งผลต่อความสามารถของโมเดลในการเปลี่ยนแปลงอารมณ์ในการสนทนาด้วย บทความจำลองสถานการณ์การขายและการจัดการข้อร้องเรียนสองประเภท: สถานการณ์แรกให้โมเดลพยายามขายลูกโอ๊กในราคาที่สูงขึ้น สถานการณ์ที่สองให้โมเดลปลอบใจลูกค้าที่โกรธ ในแต่ละรอบการสนทนา โมเดลต้องทำนายการเปลี่ยนแปลงทางอารมณ์ของอีกฝ่ายในขั้นตอนถัดไป ผลลัพธ์แสดงให้เห็นว่า ยิ่งการทำนายอารมณ์แม่นยำ ราคาขายสุดท้ายในสถานการณ์การขายก็ยิ่งสูงขึ้น ในสถานการณ์การจัดการข้อร้องเรียน ระดับความโกรธของลูกค้าหลังการสนทนาก็ลดลงอย่างชัดเจน สิ่งนี้ชี้ให้เห็นว่า ความเข้าใจอารมณ์ของ LLM ไม่ใช่แค่ความสามารถในการจำแนกแบบคงที่ การสร้างแบบจำลองอารมณ์ที่ละเอียดขึ้นอาจช่วยให้โมเดลปรับตัว นำทาง หรือแม้แต่เปลี่ยนอารมณ์ของผู้ใช้ได้อย่างมีประสิทธิภาพมากขึ้น ความสามารถนี้อาจส่งผลดีในด้านบริการลูกค้า การศึกษา และการสนับสนุนทางจิตใจ แต่ก็จำเป็นต้องประเมินความเสี่ยงที่อาจเกิดขึ้นอย่างรอบคอบมากขึ้น

รูปที่ 5 ยิ่งข้อผิดพลาดในการทำนายอารมณ์ต่ำ ประสิทธิภาพการขาย/บริการลูกค้ายิ่งดี

สรุป

บทความนี้ชี้ให้เห็นว่า ภายใน LLM จะเกิดโครงสร้างอารมณ์แบบลำดับชั้นที่คล้ายกับวงล้ออารมณ์ของมนุษย์ขึ้นเองตามธรรมชาติ เมื่อขนาดโมเดลเพิ่มขึ้น โครงสร้างนี้จะซับซ้อนขึ้นและใกล้เคียงกับแบบจำลองทางจิตวิทยามากขึ้น ในขณะเดียวกัน บทความยังพบว่าความเข้าใจอารมณ์ของ LLM ไม่ได้เป็นกลาง โมเดลแสดงอคติเชิงระบบภายใต้การตั้งค่าอัตลักษณ์ที่แตกต่างกัน และอคติเหล่านี้ในบางกรณีคล้ายคลึงกับรูปแบบการตัดสินผิดของกลุ่มมนุษย์ จากมุมมองที่กว้างขึ้น งานนี้แสดงให้เห็นเส้นทางใหม่ในการประเมินโมเดลขนาดใหญ่: การใช้ทฤษฎีวิทยาศาสตร์การรู้คิดเป็นสมมติฐานเพื่อวิเคราะห์โครงสร้างภายในและพฤติกรรมเอาต์พุตของ LLM เราไม่เพียงต้องรู้ว่าโมเดลสามารถระบุอารมณ์ได้หรือไม่ แต่ยังต้องประเมินว่ามันเข้าใจ ทำนาย และแม้กระทั่งมีอิทธิพลต่ออารมณ์ได้อย่างไร ความสามารถเหล่านี้อาจทำให้การโต้ตอบกับ AI เป็นธรรมชาติและมีประโยชน์มากขึ้น แต่อาจถูกใช้เพื่อควบคุม ชักนำ หรือขยายอคติทางสังคม ดังนั้นจึงจำเป็นต้องมีการประเมินและการแทรกแซงอย่างเป็นระบบมากขึ้น

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง