โมเดลภาษาขนาดใหญ่
-
ซีรี่ย์โมเดล MiMo-V2 ของ Xiaomi เปิดตัวแบบไม่ระบุตัวตนทำให้เกิดการคาดเดา สามโมเดลเปิดตัวพร้อมกันผลักดัน AI จากบทสนทนาไปสู่การปฏิบัติภารกิจ
สัปดาห์ที่แล้ว มีโมเดลที่ไม่ระบุชื่อสองตัวปรากฏตัวบนแพลตฟอร์มรวม API ชื่อดังอย่าง OpenRouter โดยใช้รหัสว่า “Hunter Alpha” และ “Healer Alpha” โดยไม่มีการประช…
-
ความก้าวหน้าใหม่ในการประเมินความสามารถในการใช้เครื่องมือ AI: WildToolBench เผยให้เห็นช่องว่างที่ใหญ่หลวงของโมเดลภาษาขนาดใหญ่ในสถานการณ์จริง
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, การใช้เครื่องมือ, การประเมินมาตรฐาน, สถานการณ์จริง, เอเจนต์ เมื่อ AI ออกจากห้องแล็บสู่โลกแห่งความเป็นจริง งานง่ายๆ กลับอาจกลายเป็นช่องว่างที่ยากจะก้า…
-
โมเดล GLM-5-Turbo “กุ้งมังกรพิเศษ” แห่งแรกของโลกเปิดตัวแล้ว! Zhipu เปิดตัวชุดกุ้งมังกรราคา 39 หยวน
เปิดตัว GLM-5-Turbo โมเดล “ล็อบสเตอร์พิเศษ” รุ่นแรกของโลก วันนี้ Zhipu AI ได้เปิดเผยโมเดลลึกลับที่เคยทดสอบภายในมาก่อน Pony-Alpha-2 ซึ่งตัวตนที่แท้จริงคือโมเดลเฉพาะทางรุ…
-
จากนิยายวิทยาศาสตร์สู่ความเป็นจริง: โครงการ autoresearch ของ Karpathy ทำให้ AI วิจัยอิสระเป็นไปได้อย่างไร
คำสำคัญ: การวิจัย AI อัตโนมัติ, แบบจำลองภาษาขนาดใหญ่, การวิวัฒนาการด้วยตนเอง, การเรียนรู้ของเครื่องอัตโนมัติ, การปรับปรุงโปรแกรม ลองจินตนาการถึงสถานการณ์นี้: ครั้งหนึ่ง การวิจัย AI…
-
ArchAgent: AI ออกแบบกลยุทธ์แคชที่เพิ่มประสิทธิภาพ 5.3% ในเวลาเพียงสองวัน ปฏิวัติการออกแบบฮาร์ดแวร์แบบดั้งเดิม
คำสำคัญ: การออกแบบฮาร์ดแวร์ขับเคลื่อนด้วย AI, กลยุทธ์การแทนที่แคช, แบบจำลองภาษาขนาดใหญ่, อัลกอริทึมวิวัฒนาการ, สถาปัตยกรรมคอมพิวเตอร์ ระบบที่ขับเคลื่อนด้วย AI ทั้งหมด โดยไม่มีการแท…
-
NVIDIA เปิดตัว Nemotron 3 Super แบบโอเพนซอร์ส: 1.2 แสนล้านพารามิเตอร์ ออกแบบสำหรับ Agent โดยเฉพาะ ประสิทธิภาพทัดเทียม Claude Opus 4.6
NVIDIA บริษัทที่มีมูลค่าตลาดนำของโลก ได้ก้าวเข้าสู่สาขา OpenClaw อย่างเป็นทางการ โมเดลโอเพนซอร์สล่าสุดที่เปิดตัว Nemotron 3 Super ถูกสร้างขึ้นสำหรับ AI Agent ขนาดใหญ่โดยเฉพาะ โมเดล…
-
ปริมาณการเรียกใช้โมเดลภาษาขนาดใหญ่ของจีนพุ่งสูงถึง 4.19 ล้านล้านโทเค็นต่อสัปดาห์ ครองอันดับหนึ่งของโลกอีกครั้ง
จากข้อมูลล่าสุดของ OpenRouter ในสัปดาห์ระหว่างวันที่ 2 ถึง 8 มีนาคม ปริมาณการเรียกใช้โมเดลภาษาขนาดใหญ่ของจีนในสัปดาห์นั้นพุ่งสูงถึง 4.19 ล้านล้านโทเค็น เพิ่มขึ้น 34.9% จากสัปดาห์ก่…
-
การผสาน LLM กับการเรียนรู้แบบเสริมกำลัง: เปิดศักราชใหม่ของระบบแนะนำอัจฉริยะ บทวิจารณ์เชิงระบบฉบับแรกเผยแพร่แล้ว
การเรียนรู้แบบเสริมกำลัง (RL) จัดระบบการแนะนำเป็นกระบวนการตัดสินใจแบบลำดับ ซึ่งสนับสนุนการเพิ่มประสิทธิภาพของผลประโยชน์ระยะยาวและตัวชี้วัดที่ไม่ต่อเนื่อง เป็นหนึ่งในกระบวนทัศน์การส…
-
เฟรมเวิร์กการบีบอัดแคช KV ที่ขับเคลื่อนด้วย RL: KV Policy แซงหน้าความสามารถ SOTA ของนโยบายแบบฮิวริสติก เพิ่มต้นทุนการคำนวณการเติมล่วงหน้าเพียง 1%
คำสำคัญ: แบบจำลองภาษาขนาดใหญ่, แคช KV, การเรียนรู้แบบเสริมกำลัง, การขับไล่แคช, การให้เหตุผลบริบทยาว นับตั้งแต่สถาปัตยกรรม Transformer กำเนิดขึ้น แบบจำลองภาษาขนาดใหญ่ (LLMs) ได้ก้าว…
-
จาก AlphaGo ถึง DeepSeek R1: แบบจำลองการให้เหตุผลกำลังปรับเปลี่ยนผลิตภาพ AI และอนาคตของมนุษย์อย่างไร
หากมองชีวิตเป็นเกม MMO แบบเปิดขนาดใหญ่ ณ เวลาที่เซิร์ฟเวอร์เกมเพิ่งอัปเดตครั้งใหญ่ กฎก็เปลี่ยนไป นับตั้งแต่ ChatGPT ปรากฏตัวอย่างน่าตื่นตาตื่นใจในปี 2022 โลกได้เปลี่ยนแปลงไปอย่างลึ…