เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%

19 hours ago • การอนุมานโมเดลขนาดใหญ่ • 7 views

คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว

นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าวหน้าอย่างก้าวกระโดดในด้านการประมวลผลภาษาธรรมชาติ จากงานสร้างข้อความไปจนถึงการให้เหตุผลเชิงตรรกะ จากบทสนทนาหลายรอบไปจนถึงการทำความเข้าใจเอกสารยาว ขีดความสามารถของ LLMs ได้ขยายขอบเขตออกไปอย่างต่อเนื่อง อย่างไรก็ตาม หลังจากการพัฒนาอย่างรวดเร็วของประสิทธิภาพแบบจำลองนั้น คือความท้าทายด้านประสิทธิภาพการอนุมานที่รุนแรงขึ้นเรื่อยๆ — เมื่อประมวลผลลำดับยาวหรือบทสนทนาแบบโต้ตอบ แคช KV (Key-Value) กลายเป็นคอขวดหลักที่จำกัดการปรับใช้ระบบ

จุดประสงค์การออกแบบแคช KV คือกลยุทธ์การเพิ่มประสิทธิภาพ “แลกพื้นที่กับเวลา”: ในกระบวนการสร้างแบบออโต้รีเกรสซีฟ แบบจำลองจำเป็นต้องอ้างอิงข้อมูลของโทเค็นในอดีตอย่างต่อเนื่อง แคช KV หลีกเลี่ยงการคำนวณซ้ำคะแนนความสนใจโดยการจัดเก็บเวกเตอร์คีย์ (Key) และค่า (Value) ของโทเค็นก่อนหน้า ลดความซับซ้อนในการอนุมานจาก O(n²) เป็น O(n) แต่ต้นทุนของการเพิ่มประสิทธิภาพนี้คือการเติบโตเชิงเส้นของการใช้หน่วยความจำ ตัวอย่างเช่น สำหรับลำดับที่มีความยาว 4500 โทเค็น แคช KV อาจใช้หน่วยความจำหลายสิบ GB ซึ่งเกินกว่าความสามารถในการรองรับของฮาร์ดแวร์เร่งความเร็วสมัยใหม่ ยกตัวอย่างเช่น แบบจำลอง Llama-3-70B ประมวลผลข้อความยาว 128K โทเค็น เพียงแคช KV อย่างเดียวก็ต้องการหน่วยความจำประมาณ 42GB

เพื่อแก้ไขปัญหานี้ นักวิจัยได้เสนอแผนการจัดการแคช KV หลายรูปแบบ รวมถึงการขับไล่แบบใช้ล่าสุดน้อยที่สุด (LRU) อย่างง่าย วิธีการฮิวริสติกที่ซับซ้อนตามคะแนนความสนใจ และเทคโนโลยีต่างๆ เช่น การบีบอัดเชิงปริมาณและการประมาณอันดับต่ำ อย่างไรก็ตาม วิธีการเหล่านี้มีข้อจำกัดพื้นฐานร่วมกัน: พวกมันพึ่งพาตัวชี้วัดตัวแทนลำดับความสำคัญทางอ้อม (เช่น ความใหม่ล่าสุด คะแนนความสนใจในอดีต) แทนที่จะเป็นการเพิ่มประสิทธิภาพโดยตรงต่อประโยชน์จริงของโทเค็นต่อขั้นตอนการถอดรหัสในอนาคต ดังที่ทีม Apple ชี้ไว้ในเอกสารที่เกี่ยวข้อง: “คุณค่าที่แท้จริงของโทเค็นหนึ่งขึ้นอยู่กับผลกระทบต่อขั้นตอนการสร้างในอนาคต และวิธีการที่มีอยู่ไม่เคยเพิ่มประสิทธิภาพเป้าหมายหลักนี้โดยตรงเลย”

เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%

ในเดือนกุมภาพันธ์ 2026 ทีม Apple ได้เผยแพร่บทความ “Learning to Evict from Key-Value Cache” บน arXiv ซึ่งเสนอกรอบงานใหม่ชื่อ KV Policy (KVP) กรอบงานนี้เป็นครั้งแรกที่ปรับโครงสร้างปัญหาการขับไล่แคช KV ใหม่เป็นงานการจัดลำดับด้วยการเรียนรู้แบบเสริมกำลัง (RL) โดยฝึกเอเจนต์น้ำหนักเบาแบบต่อหัว (per-head) เพื่อทำนายประโยชน์ในอนาคตของโทเค็นโดยตรง

เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
ภาพประกอบ: การเปรียบเทียบเชิงคุณภาพของกลยุทธ์การขับไล่ KV ต่างๆ บนตัวอย่างบทสนทนาจริง (อิงจากคะแนนความสนใจของชั้นที่ 12 หัวที่ 0) ภาพนี้แสดงให้เห็นอย่างชัดเจนว่าความสำคัญของโทเค็นที่กลยุทธ์ KVP ระบุ (การระบายสี) สอดคล้องกับรูปแบบความสนใจในอนาคตจริงอย่างมาก ในขณะที่วิธีการมาตรฐานอื่นๆ อาจตัดสินโทเค็นสำคัญผิดพลาดหรือไม่สามารถจับข้อมูลสำคัญที่ไม่ใช่แบบโลคัลได้ ซึ่งยืนยันประสิทธิผลของ KVP จากสถานการณ์การใช้งาน

บทความนี้จะวิเคราะห์เชิงลึกถึงนวัตกรรมหลัก รายละเอียดทางเทคนิค และคุณค่าทางปฏิบัติของงานชิ้นนี้ อธิบายวิธีการใช้วิธีการเรียนรู้แทนกฎฮิวริสติก เพื่อให้บรรลุการจัดการแคช KV ที่มีประสิทธิภาพมากขึ้น

สารบัญบทความ

1. ความรู้พื้นฐาน: ความท้าทายหลักของการขับไล่แคช KV และข้อจำกัดของแผนการที่มีอยู่
- 1.1 กลไกการทำงานของแคช KV และธรรมชาติของปัญหาการขับไล่
- 1.2 การจำแนกประเภทและข้อจำกัดของแผนการจัดการแคช KV ที่มีอยู่
2. นวัตกรรมหลักของ KVP: จากกฎฮิวริสติกสู่การจัดลำดับด้วยการเรียนรู้แบบเสริมกำลัง
- 2.1 นวัตกรรมที่หนึ่ง: การปรับโครงสร้างปัญหาใหม่ — การเปลี่ยนการขับไล่เป็นงานการจัดลำดับประโยชน์ในอนาคต
- 2.2 นวัตกรรมที่สอง: การออกแบบสถาปัตยกรรม — เอเจนต์ RL น้ำหนักเบาแบบต่อหัว (per-head)
- 2.3 นวัตกรรมที่สาม: การออกแบบรางวัล — รางวัล RL แบบออฟไลน์ที่ไม่ขึ้นกับงบประมาณโดยรวม
- 2.4 นวัตกรรมที่สี่: ประสิทธิภาพการฝึกและการอนุมาน — การฝึกแบบออฟไลน์ + ไม่มีค่าใช้จ่ายเพิ่มในการอนุมาน
3. รายละเอียดทางเทคนิคสำคัญ: ตั้งแต่การนำแบบจำลองไปปฏิบัติจนถึงการเพิ่มประสิทธิภาพทางวิศวกรรม
- 3.1 รายละเอียดสถาปัตยกรรมของเอเจนต์
- 3.2 การเปรียบเทียบกับการเรียนรู้ภายใต้การดูแล: ทำไม RL จึงเป็นตัวเลือกที่ดีกว่า?
- 3.3 สรุปความแตกต่างหลักกับวิธีการที่มีอยู่
4. การทดสอบยืนยัน: ความได้เปรียบด้านประสิทธิภาพและความสามารถในการปรับตัวทั่วไปของ KVP
- 4.1 การตั้งค่าการทดลอง
- 4.2 การวิเคราะห์ผลการทดลองหลัก
- 4.3 การทดลองกำจัดส่วนประกอบ: การยืนยันความจำเป็นของการออกแบบหลัก
5. การวิเคราะห์เชิงลึกของงานที่เกี่ยวข้อง
6. สรุปและแนวโน้มในอนาคต
- 6.1 สรุปงาน
- 6.2 ทิศทางการวิจัยในอนาคต
- 6.3 บทเรียนเชิงปฏิบัติ

1. ความรู้พื้นฐาน: ความท้าทายหลักของการขับไล่แคช KV และข้อจำกัดของแผนการที่มีอยู่

ก่อนจะวิเคราะห์ KVP อย่างลึกซึ้ง จำเป็นต้องชี้แจงธรรมชาติหลักของปัญหาการขับไล่แคช KV ก่อน และเหตุใดแผนการที่มีอยู่จึงตอบสนองความต้องการการให้เหตุผลบริบทยาวได้ยาก

1.1 กลไกการทำงานของแคช KV และธรรมชาติของปัญหาการขับไล่

ในกลไกความสนใจภายในตัวเอง (Self-Attention) ของแบบจำลอง Transformer โทเค็นแต่ละตัวจะสร้างเวกเตอร์สามตัว: คิวรี (Q), คีย์ (K) และค่า (V) กระบวนการอนุมานแบ่งออกเป็นสองขั้นตอนหลัก:
* ขั้นตอนเติมล่วงหน้า (Prefill): ประมวลผลพรอมต์อินพุตทั้งหมด คำนวณเวกเตอร์ K และ V ของโทเค็นทั้งหมดและจัดเก็บลงในแคช KV ขั้นตอนนี้ใช้การคำนวณเข้มข้น
* ขั้นตอนถอดรหัส (Decode): สร้างโทเค็นเอาต์พุตทีละตัว เวกเตอร์ Q ของโทเค็นใหม่เพียงแค่ต้องคำนวณความสนใจกับเวกเตอร์ K/V ในอดีตที่อยู่ในแคช ส่วนเวกเตอร์ K/V ที่สร้างใหม่จะถูกเพิ่มเข้าไปในแคช ขั้นตอนนี้ใช้แบนด์วิธหน่วยความจำเข้มข้น

ปัญหาหลักของการขับไล่แคช KV สามารถกำหนดรูปแบบได้ดังนี้: เมื่อกำหนดเซตของโทเค็น T จำนวน N ตัวและงบประมาณหน่วยความจำ B ให้เลือกเซตย่อย S (|S| ≤ B) เพื่อให้การสูญเสียประสิทธิภาพงานดาวน์สตรีมน้อยที่สุด ปัญหานี้มีความซับซ้อนระดับ NP-hard โดยเฉพาะเมื่อความยาวลำดับเกินหลายพันโทเค็น การระบุและเก็บรักษาโทเค็นที่สำคัญที่สุดสำหรับการสร้างในอนาคตอย่างแม่นยำกลายเป็นความท้าทายหลัก

เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
ภาพประกอบ: แผนภาพแสดงความสำคัญของโทเค็นในอนาคตสำหรับการขับไล่แคช KV กลยุทธ์การขับไล่ที่มีประสิทธิภาพต้องสามารถระบุโทเค็นที่จะได้รับความสนใจในอนาคตน้อยมากหรือไม่มีเลยได้ (กลาง) แสดงลำดับตัวอย่าง โดยแต่ละโทเค็นถูกระบายสีตามลำดับความสำคัญของความสนใจสะสมในอนาคตจริง (ยิ่งสว่างยิ่งอันดับสูง) (ขวา) แสดงการประมาณโดยใช้วิธีการฮิวริสติกตามช่องความสนใจคงที่และความใหม่ล่าสุด (เช่น StreamingLLM) ซึ่งมีความคลาดเคลื่อนอย่างมีนัยสำคัญจากลำดับความสำคัญจริง (ซ้าย) แสดงกลยุทธ์การเรียนรู้ที่เสนอในบทความนี้ ซึ่งใช้เพียงข้อมูลคีย์ ค่า และตำแหน่งในอดีต (ไม่จำเป็นต้องใช้คิวรี คะแนนความสนใจ หรือโทเค็นในอนาคต) แต่สามารถสร้างโครงสร้างความสนใจในอนาคตที่ซับซ้อนและไม่ใช่แบบโลคัลได้อย่างแม่นยำ ภาพนี้เปรียบเทียบความแตกต่างระหว่าง KVP กับวิธีการดั้งเดิมอย่างชัดเจน

1.2 การจำแนกประเภทและข้อจำกัดของแผนการจัดการแคช KV ที่มีอยู่

2. นวัตกรรมหลักของ KVP: จากกฎฮิวริสติกสู่การจัดลำดับด้วยการเรียนรู้แบบเสริมกำลัง

แผนการขับไล่แคช KV ที่มีอยู่สามารถสรุปเป็นสี่ประเภทใหญ่ โดยแนวคิดหลักและข้อจำกัดแสดงในตารางด้านล่าง สะท้อนถึงการประนีประนอมระหว่างความแม่นยำ ประสิทธิภาพ และความสามารถในการปรับตัวทั่วไป:

| ประเภทวิธีการ | แนวคิดหลัก | ข้อจำกัดหลัก |
| :— | :— | :— |
| วิธีการขับไล่ตามความสนใจ | ใช้คะแนนความสนใจในอดีตหรือความคล้ายคลึงระหว่างคิวรี-คีย์เพื่อคัดกรองโทเค็น (เช่น StreamingLLM รักษาโทเค็นซิงค์ความสนใจ, SnapKV/TOVA ตัดแต่งแบบไดนามิก) | 1. มองย้อนหลัง: พึ่งพารูปแบบในอดีต ปรับตัวกับกระบวนการสร้างแบบไดนามิกได้ยาก
2. ค่าใช้จ่ายในการคำนวณสูง: ต้องนับสถิติความสนใจซ้ำๆ ไม่เข้ากันกับการเพิ่มประสิทธิภาพเช่น FlashAttention
3. พึ่งพาคิวรีปัจจุบัน: จำกัดพื้นที่การเพิ่มประสิทธิภาพในขั้นตอนเติมล่วงหน้า |
| วิธีการจัดการลำดับชั้นหน่วยความจำ | ย้ายรายการ KV ไปยังที่เก็บข้อมูลระดับสอง เช่น หน่วยความจำ CPU (เช่น IceCache, ArkValve, MagicPig) | 1. ความล่าช้าในการโหลดสูง: การเคลื่อนย้ายข้อมูลระหว่าง CPU และ GPU ทำให้เกิดค่าใช้จ่าย I/O ที่มีนัยสำคัญ
2. กลยุทธ์พึ่งพาฮิวริสติก: กลยุทธ์การย้ายพึ่งพากฎที่กำหนดด้วยมือ ขาดการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วยข้อมูล |
| วิธีการบีบอัดการแทนค่า | ลดต้นทุนการจัดเก็บของเวกเตอร์ KV เดี่ยว (เช่น MiniKV ควอนไทซ์, Loki/Palu ประมาณอันดับต่ำ, MorphKV รวมสถานะ) | 1. สูญเสียประสิทธิภาพ: การบีบอัดมากเกินไปจะทำลายคุณภาพการสร้างของแบบจำลอง
2. ไม่ได้触及แก่นแท้: แก้ไขเพียง “วิธีการจัดเก็บ” ไม่ได้แก้ปัญหาหลักในการ “เลือกโทเค็นใดไว้” |
| วิธีการเรียนรู้ (การสำรวจในระยะแรก) | ใช้การกระตุ้นของแบบจำลองหรือการสรุปลำดับเพื่อสร้างสัญญาณขับไล่ (เช่น Gisting Token, Activation Beacon) | 1. ความละเอียดหยาบ: ส่วนใหญ่เป็นการสรุประดับลำดับ ขาดการจัดลำดับละเอียดระดับโทเค็น
2. ขาดความเฉพาะเจาะจง: ไม่ได้ออกแบบมาเฉพาะสำหรับการขับไล่แคช KV แบบไดนามิก ความสามารถในการปรับตัวทั่วไปและประโยชน์ใช้สอยมีจำกัด |

เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
รูปที่ 8 | การเปรียบเทียบกลยุทธ์การขับไล่ KV ต่างๆ บนตัวอย่างเชิงคุณภาพ (คะแนนความสนใจนำมาจากชั้นที่ 12 หัวที่ 0) ภาพนี้เปรียบเทียบความสามารถในการระบุความสำคัญของโทเค็นระหว่าง KVP กับกลยุทธ์มาตรฐานผ่านตัวอย่างบทสนทนาภาษาธรรมชาติ จะเห็นได้ชัดว่าการระบายสีโทเค็นของ KVP สอดคล้องกับความสนใจในอนาคตจริงอย่างมาก ในขณะที่วิธีการอื่นๆ อาจตัดสินโทเค็นสำคัญผิดพลาดหรือไม่สามารถจับข้อมูลสำคัญที่ไม่ใช่แบบโลคัลได้ ซึ่งยืนยันประสิทธิผลของกลยุทธ์การจัดลำดับ KVP จากสถานการณ์จริง

กรอบงาน KVP ปรับโครงสร้างแนวทางการแก้ปัญหาการขับไล่แคช KV ใหม่ผ่านนวัตกรรมหลักสี่ประการ โดยมีเป้าหมายเพื่อบรรลุทั้งการทำนายที่แม่นยำ การอนุมานที่มีประสิทธิภาพ และความสามารถในการปรับตัวทั่วไปที่แข็งแกร่งพร้อมกัน

2.1 นวัตกรรมที่หนึ่ง: การปรับโครงสร้างปัญหาใหม่ — การเปลี่ยนการขับไล่เป็นงานการจัดลำดับประโยชน์ในอนาคต

นวัตกรรมแรกของ KVP คือการก้าวออกจากแนวคิดดั้งเดิม “การคัดกรองโทเค็นตามตัวชี้วัดตัวแทน” และกำหนดปัญหาการขับไล่แคช KV ใหม่โดยตรงเป็นงานการเรียนรู้ “การทำนายประโยชน์ในอนาคตของโทเค็นและการจัดลำดับ”

เพื่อลดความซับซ้อนของปัญหา เอกสารแนะนำสมมติฐานสำคัญสองประการ:
1. สมมติฐานความเป็นเอกลักษณ์: สำหรับแต่ละงบประมาณแคช ( b ) จะมีเซตย่อยโทเค็นที่เหมาะสมที่สุดเพียงชุดเดียว ( S_b^* )
2. สมมติฐานการซ้อนกัน: เซตย่อยที่เหมาะสมที่สุดเป็นไปตาม ( S_{b_1}^* subset S_{b_2}^* ) (เมื่อ ( b_1 < b_2 )) นั่นคือโทเค็นสำคัญภายใต้งบประมาณเล็กยังคงต้องเก็บรักษาไว้ภายใต้งบประมาณใหญ่

จากนี้ ผู้เขียนได้พิสูจน์ว่าปัญหาการขับไล่แคช KV เทียบเท่ากับปัญหาการจัดลำดับโทเค็นแบบเต็ม (Full Ordering) (ข้อเสนอที่ 1): มีลำดับการจัดเรียง ( sigma ) ซึ่งสำหรับงบประมาณใดๆ ( b ) เซตย่อยที่เหมาะสมที่สุด ( S_b^* ) จะเป็นโทเค็น ( b ) ตัวแรกในลำดับการจัดเรียงนั้น การพิสูจน์นี้มีความสำคัญอย่างยิ่ง ภายใต้สมมติฐานข้างต้น

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

本文来自网络搜集，不代表คลื่นสร้างอนาคต立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/th/archives/23656

KV แคช การขับไล่แคช การอนุมานบริบทยาว การเรียนรู้แบบเสริมกำลัง โมเดลภาษาขนาดใหญ่

Like (0)

0 0

Generate poster

การประเมินเชิงลึกของ Alibaba Qwen3.5-27B: ความคิดเชิงวิทยาศาสตร์โดดเด่น การประมวลผลเอกสารและการให้เหตุผลเชิงตรรกะเป็นจุดเด่น ศักยภาพด้านการสร้างสรรค์ศิลปะยังต้องพัฒนา
Previous 1 day ago

การวิเคราะห์เชิงลึกงบการเงินของ Nvidia: ตลาดพลังประมวลผล AI ถึง 1 ล้านล้านดอลลาร์ในปี 2026 ธุรกิจศูนย์ข้อมูลมีสัดส่วนกว่า 88% นำการเติบโต
Next 12 hours ago

相关推荐

 การอนุมานโมเดลขนาดใหญ่

Google Aletheia สร้างสถิติใหม่ใน FirstProof Math Challenge: AI แก้ปัญหาเชิงวิจัยยาก 6 ข้อได้ด้วยตัวเอง แซงหน้าผลงานเหรียญทอง IMO

เมื่อเดือนกรกฎาคมปีที่แล้ว การแข่งขันคณิตศาสตร์โอลิมปิกระหว่างประเทศ (IMO) ได้เห็นระบบปัญญาประดิษฐ์เข้าสู่ระดับเหรียญทองเป็นครั้งแรก ในขณะนั้น OpenAI และ Google DeepMind ได้ประกาศผ…

4 days ago
90000

การอนุมานโมเดลขนาดใหญ่

EmotionThinker: กรอบการเรียนรู้แบบเสริมกำลังแรกสำหรับการอนุมานอารมณ์ที่สามารถอธิบายได้ ทำให้ SpeechLLM เรียนรู้ที่จะ ‘อธิบายอารมณ์’

การรู้จำอารมณ์จากเสียงพูด (Speech Emotion Recognition, SER) ในอดีตมักยึดตามกระบวนทัศน์เดียวกัน: รับข้อมูลเสียงเข้า แล้วให้ป้ายกำกับอารมณ์ออกมา การตั้งค่านี้มีประสิทธิภาพในเชิงวิศวก…

5 days ago
58000

การอนุมานโมเดลขนาดใหญ่

hls4ml: การปฏิวัติคอมไพเลอร์ AI แบบโอเพนซอร์สสำหรับ FPGA ด้วยความหน่วงระดับไมโครวินาทีและประสิทธิภาพการใช้ทรัพยากรขั้นสูงสุด ใช้งานโมเดล PyTorch/Keras/ONNX ได้ด้วยคลิกเดียว

คำสำคัญ: การเร่งความเร็วด้วย FPGA, การสังเคราะห์ระดับสูง (HLS), การควอนไทซ์โมเดล, การออกแบบร่วมฮาร์ดแวร์-ซอฟต์แวร์, การอนุมานความหน่วงต่ำ, คอมไพเลอร์โอเพนซอร์ส เพียงไม่กี่บรรทัดของ…

6 days ago
62000

การอนุมานโมเดลขนาดใหญ่

ให้ Agent ค้นหาไม่ “รออย่างโง่เขลา”: ทีมมหาวิทยาลัยเหรินหมินใช้โมเดลแพร่กระจายเพื่อให้ “ทำสองสิ่งพร้อมกัน” คิดขณะรอผลการค้นหา เร่งความเร็ว 15% โดยไม่ลดประสิทธิภาพ

เอเจนต์อัจฉริยะสำหรับการค้นหา (Agent) แบบหลักในปัจจุบันมีจุดคอขวดด้านประสิทธิภาพที่พบบ่อย: กระบวนการทำงานของมันเป็นแบบอนุกรมอย่างเคร่งครัด ตัวอย่างเช่น กรอบงาน ReAct ที่ใช้กันอย่าง…

1 day ago
17000

การอนุมานโมเดลขนาดใหญ่

สมดุลที่สมบูรณ์แบบระหว่างต้นทุนและประสิทธิภาพ: การทบทวนเชิงลึกของ Byte Doubao Seed 2.0 Lite ด้วยความแม่นยำ 73.9% และต้นทุนเพียง 5.4 หยวนต่อการเรียกใช้ 1,000 ครั้ง

ก่อนเทศกาลตรุษจีน Bytedance ได้เปิดตัวโมเดลขนาดใหญ่ชุด Seed 2.0 อย่างเป็นทางการ ในการประเมินก่อนหน้านี้ เราได้วิเคราะห์โดยละเอียดเกี่ยวกับรุ่นเรือธงของซีรีส์นี้ Doubao-Seed-2.0-pro…

6 days ago
174000