วิศวกรรมโมเดลขนาดใหญ่
-
อำลา AI โกงและขี้เกียจ: การเรียนรู้แบบเสริมกำลังจะกลายเป็นผู้เชี่ยวชาญการปรับแต่งเคอร์เนล GPU ที่แท้จริงได้อย่างไร
คำสำคัญ: การเรียนรู้แบบเสริมกำลัง, การสร้างเคอร์เนล Triton, การแฮกรางวัล, การปรับปรุงแบบขี้เกียจ, การปรับปรุงหลายรอบ บอกลาการ “โกง” และ “ขี้เกียจ” ทำให้การเ…
-
เด็กมัธยมอายุ 17 ปีทำให้คำทำนายของ Ilya เป็นจริง! ทีม Kimi “หมุน” กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25% แม้แต่ Elon Musk ยังแวะมาดู
นักเรียนมัธยมปลายวัย 17 ปี ทำนายของ Ilya เป็นจริง: ทีม Kimi “หมุน” กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25% นักเรียนมัธยมปลายวัย 17 ปี ในฐานะผู้เขียนร่วมลำดับแรก ได้ช่วย…
-
การปฏิวัติ AI ในการเขียนโปรแกรม: เมื่อต้นทุนโค้ดเป็นศูนย์ 8 รูปแบบปรับโครงสร้างเวิร์กโฟลว์ของวิศวกร
เมื่อต้นทุนการเขียนโค้ดเป็นศูนย์: 8 รูปแบบปรับโฉมเวิร์กโฟลว์ของวิศวกร Simon Willison นักพัฒนาชื่อดังจากซิลิคอนวัลเลย์ ผู้ก่อตั้ง Datasette ได้เผยแพร่คู่มือปฏิบัติสำหรับวิศวกรมืออาช…
-
โมเดลหลายรูปแบบเอาชนะจุดอ่อนด้านการมองเห็นได้สำเร็จ! UniPat AI ใช้โค้ดเพียง 500 บรรทัดสร้าง SWE-Vision ให้ AI เรียนรู้ “หยิบไม้บรรทัด Python” ตรวจสอบตัวเอง พร้อมคว้า SOTA ในห้ามาตรฐานการมองเห็นทั้งหมด
จุดอ่อนของแบบจำลองที่ “เห็น” แต่ไม่สามารถ “ประมวลผลอย่างแม่นยำ” ได้ ในช่วงปีที่ผ่านมา แบบจำลองขนาดใหญ่หลายรูปแบบมีพัฒนาการก้าวกระโดดในงานที่เกี่ยวข้องกับโค้…
-
Google DeepMind ร่วมกับ Berkeley เปิดตัว LoGeR: โครงสร้างหน่วยความจำระยะยาวที่ก้าวล้ำ ช่วยให้การสร้างภาพ 3D ข้ามผ่านหลายพันเฟรม
กลไกความจำเป็นหนึ่งในความสามารถหลักของโมเดลขนาดใหญ่ในการจัดการงานที่ซับซ้อน ในสถานการณ์ต่างๆ เช่น การสนทนาและเวิร์กโฟลว์อัตโนมัติ โมเดลจำเป็นต้องพึ่งพาความจำเพื่อรักษาบริบทระยะยาว …
-
ทีมงานจาก Harbin Institute of Technology, Shenzhen (HITsz) ทำลายข้อจำกัดของ Linear Attention! การแยก Norm×Direction ช่วยให้ความแม่นยำในการทำงานด้านวิสัยทัศน์แซงหน้าอย่างสมบูรณ์ และลดการใช้หน่วยความจำในการทำงาน Super-Resolution 70K+ token ได้ถึง 92.3%
ข้อมูลผู้เขียนผู้เขียนคนแรกของบทความนี้คือ เหมิง เว่ยคัง นักศึกษาปริญญาเอกที่เรียนร่วมระหว่างมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) และห้องปฏิบัติการ Peng Cheng สำเร็จการศึกษาระดั…
-
PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%
การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transforme…
-
ผู้บุกเบิกการเขียนโปรแกรม AI คาร์ปาธี: IDE จะไม่หายไป สิ่งที่เราต้องการคือ IDE ที่ใหญ่ขึ้น——วิวัฒนาการจากการจัดการไฟล์สู่การทำงานร่วมกันของเอเจนต์อัจฉริยะ
ผู้บุกเบิกการเขียนโค้ดด้วย AI คาร์ปาธี: IDE จะไม่หายไป สิ่งที่เราต้องการคือ IDE ที่ใหญ่ขึ้น ในวงการเขียนโปรแกรมด้วยปัญญาประดิษฐ์ อังเดรจ คาร์ปาธี (Andrej Karpathy) ถือเป็นผู้บุกเบิ…
-
มหาวิทยาลัยชิงหว่าร่วมกับ Meituan เปิดตัว 3DThinker: กรอบงานที่ก้าวล้ำครั้งแรกที่ทำให้โมเดลขนาดใหญ่ “จินตนาการ” ฉากสามมิติ
เมื่อได้รับภาพฉากหลายๆ ภาพ มนุษย์มักสามารถจินตนาการโครงร่างสามมิติของฉากนั้นในใจได้ อย่างไรก็ตาม โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal) ในปัจจุบันยังคงอาศัยการให้เหตุผลจากข้อมูลข้…
-
OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นสำหรับเสียงและวิดีโอ เพียง 35% ของโทเค็นก็เพิ่มประสิทธิภาพได้ ลดเวลาในการอนุมานลง 42%
OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นเสียงและวิดีโอ เพิ่มประสิทธิภาพด้วยโทเค็นเพียง 35% ลดเวลาในการอนุมานลง 42% ในขณะที่โมเดลขนาดใหญ่หลายโหมดกำลังพัฒนาไปสู่ “โหมดครบถ้ว…