วิศวกรรมโมเดลขนาดใหญ่
-
DeepSeek Engram ความลับของความทรงจำถูกเปิดเผย: ความทรงจำภายนอกคือ “ภาระเทียม” การปรับโครงสร้างคือกุญแจสู่ประสิทธิภาพ
คำสำคัญ: DeepSeek Engram, LLM, ความจำภายนอก, การทำให้เป็นปกติ, เส้นทางเรซิดวล ในการสร้างสรรค์สถาปัตยกรรม LLM, DeepSeek Engram ยึดถือ “การแยกการให้เหตุผลและความรู้” เป็น…
-
Claude โมเดล “Mythos” ที่ทรงพลังที่สุด: สถาปัตยกรรม Byte-Cycle สนับสนุน, ประสิทธิภาพการค้นหาภาพเหนือกว่า GPT5.4 สี่เท่า
โมเดล “ตำนาน” Mythos ที่ทรงพลังที่สุดของ Claude อาจใช้โครงสร้างทางเทคนิคจาก ByteDance เป็นเบื้องหลัง? การคาดเดานี้ได้ขึ้นสู่เทรนด์บนแพลตฟอร์มโซเชียลมีเดียโดยตรงเมื่อไม่…
-
ความก้าวหน้าครั้งใหม่ของ AI ในการตรวจอัลตราซาวด์! ทีมวิจัยร่วมจากมหาวิทยาลัยเจ้อเจียงเปิดเผยชุดข้อมูลภาพและข้อความอัลตราซาวด์ขนาดใหญ่ชุดแรก US-365K สร้างโมเดลขนาดใหญ่เฉพาะทางสำหรับอัลตราซาวด์ Ultrasound-CLIP
สาขาอัลตราซาวด์ต้อนรับโมเดลขนาดใหญ่เฉพาะทาง เนื่องจากการถ่ายภาพอัลตราซาวด์มีคุณสมบัติแบบเรียลไทม์และไม่มีการแผ่รังสี จึงได้กลายเป็นเครื่องมือสำคัญสำหรับการวินิจฉัยทางคลินิกในระดับแ…
-
แนวคิดที่สำคัญที่สุดในปี 2026 ของวงการ AI: Harness – มองการปฏิวัติวิศวกรรมของ AI Agent จากความสำเร็จของ Baidu ในการครองตำแหน่งสูงสุดของ MLE-Bench
บรรณาธิการ | เจ๋อหนาน แนวคิดที่สำคัญที่สุดในวงการ AI ในปี 2026 อาจไม่ใช่ใครอื่นนอกจาก Harness ปลายเดือนที่แล้ว ซอร์สโค้ดของ Claude Code เอเจนต์เขียนโค้ด AI ของ Anthropic ถูกเปิดเผย…
-
HermesAgent เหนือกว่าได้อย่างไร? อัลกอริธึมวิวัฒนาการทั้งสี่ร่วมมือกัน แก้ปัญหาหลุมดำโทเค็นของเอเจนต์ AI
HermesAgent เหนือกว่าด้วยอะไร? 4 อัลกอริทึมวิวัฒนาการร่วมมือกัน แก้ปัญหาหลุมดำ Token ของ AI Agent (ตอนแรก) ช่วงนี้ ในวงการ AI Agent มีโปรเจกต์ที่น่าสนใจหลายตัวโผล่มา เช่น OpenClaw,…
-
แบบทดสอบบุคลิกภาพ SBTI ระเบิดกระแสทั่วเน็ต: งานรื่นเริงโซเชียลที่แพร่กระจายข้ามคืน นักพัฒนาใช้ Claude Code ทำการรีเวิร์สเอนจิเนียริ่งสำเร็จใน 48 ชั่วโมง
MBTI ล้าสมัยแล้วหรือ? การทดสอบบุคลิกภาพ SBTI ระเบิดความสนุกในโซเชียลทั่วทั้งเน็ต ภายในข้ามคืน การทดสอบบุคลิกภาพรูปแบบใหม่ที่ชื่อว่า SBTI ได้แพร่กระจายไปทั่วเครือข่ายสังคมออนไลน์ ขึ…
-
In-Place Test-Time Training: ทำให้โมเดลภาษาขนาดใหญ่วิวัฒนาการในสถานที่ระหว่างการอนุมาน อัตราความแม่นยำของงานบริบทยาวเพิ่มขึ้นอย่างมีนัยสำคัญ
คำสำคัญ: การฝึกฝนระหว่างการทดสอบ, การอัปเดตแบบอินเพลซ, แบบจำลองภาษาขนาดใหญ่, บริบทยาว “กระบวนทัศน์แบบ ‘ฝึกฝนแล้วจึงนำไปใช้งาน’ ที่เป็นแบบสถิตนั้น จำกัดความสามารถข…
-
ทีม Tencent Hunyuan เปิดตัวชุดโมเดล HY-Embodied-0.5 ที่ออกแบบมาสำหรับปัญญาประดิษฐ์เชิงกายภาพโดยเฉพาะ เพื่อให้เกิดการโต้ตอบที่แม่นยำในโลกกายภาพ
การทำให้โมเดลภาษาขนาดใหญ่สามารถเข้าถึงและเข้าใจโลกกายภาพได้อย่างแท้จริง เป็นหนึ่งในความท้าทายที่เร่งด่วนที่สุดในสาขาปัญญาประดิษฐ์ในปัจจุบัน อย่างไรก็ตาม แม้ว่าโมเดลภาษาภาพทั่วไป (V…
-
GLM-5.1 ปฏิวัติการปรับแต่ง CUDA: AI ทำงานเสร็จใน 14 ชั่วโมงแทนที่มนุษย์หลายเดือน โมเดลโอเพนซอร์สเทียบเคียง Claude Opus 4.6 ได้อย่างสมบูรณ์เป็นครั้งแรก
GLM-5.1 บรรลุความก้าวหน้าทาง CUDA Optimization: AI ทำเสร็จในระดับชั่วโมง จากงานที่เดิมใช้เวลาหลายเดือน ในด้านการเพิ่มประสิทธิภาพการคำนวณด้วย GPU ความก้าวหน้าใหม่กำลังเปลี่ยนรูปแบบก…
-
JD.com เปิดตัว JoyAI-LLM Flash: โมเดล MoE ขนาด 48 พันล้านพารามิเตอร์ เปิดใช้งานเพียง 2.7B อัตราสปาร์สเกิน 94% กำหนดนิยามใหม่ของสมดุลประสิทธิภาพและประสิทธิผลของโทเคน
โมเดลขนาดใหญ่ที่มีพารามิเตอร์ 48 พันล้านตัว แต่ในแต่ละการอนุมานจะเปิดใช้งานพารามิเตอร์เพียง 2.7 พันล้านตัวเท่านั้น ซึ่งมีความเบาบางมากกว่า 94% จากผลการทดสอบมาตรฐาน 18 รายการโดยเฉลี…