วิศวกรรมโมเดลขนาดใหญ่

อำลา AI โกงและขี้เกียจ: การเรียนรู้แบบเสริมกำลังจะกลายเป็นผู้เชี่ยวชาญการปรับแต่งเคอร์เนล GPU ที่แท้จริงได้อย่างไร

คำสำคัญ: การเรียนรู้แบบเสริมกำลัง, การสร้างเคอร์เนล Triton, การแฮกรางวัล, การปรับปรุงแบบขี้เกียจ, การปรับปรุงหลายรอบ บอกลาการ “โกง” และ “ขี้เกียจ” ทำให้การเ…

2026年3月17日

181000

วิศวกรรมโมเดลขนาดใหญ่

เด็กมัธยมอายุ 17 ปีทำให้คำทำนายของ Ilya เป็นจริง! ทีม Kimi “หมุน” กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25% แม้แต่ Elon Musk ยังแวะมาดู

นักเรียนมัธยมปลายวัย 17 ปี ทำนายของ Ilya เป็นจริง: ทีม Kimi “หมุน” กลไกความสนใจ เพิ่มประสิทธิภาพการฝึก 25% นักเรียนมัธยมปลายวัย 17 ปี ในฐานะผู้เขียนร่วมลำดับแรก ได้ช่วย…

2026年3月17日

165000

วิศวกรรมโมเดลขนาดใหญ่

การปฏิวัติ AI ในการเขียนโปรแกรม: เมื่อต้นทุนโค้ดเป็นศูนย์ 8 รูปแบบปรับโครงสร้างเวิร์กโฟลว์ของวิศวกร

เมื่อต้นทุนการเขียนโค้ดเป็นศูนย์: 8 รูปแบบปรับโฉมเวิร์กโฟลว์ของวิศวกร Simon Willison นักพัฒนาชื่อดังจากซิลิคอนวัลเลย์ ผู้ก่อตั้ง Datasette ได้เผยแพร่คู่มือปฏิบัติสำหรับวิศวกรมืออาช…

2026年3月16日

165000

วิศวกรรมโมเดลขนาดใหญ่

โมเดลหลายรูปแบบเอาชนะจุดอ่อนด้านการมองเห็นได้สำเร็จ! UniPat AI ใช้โค้ดเพียง 500 บรรทัดสร้าง SWE-Vision ให้ AI เรียนรู้ “หยิบไม้บรรทัด Python” ตรวจสอบตัวเอง พร้อมคว้า SOTA ในห้ามาตรฐานการมองเห็นทั้งหมด

จุดอ่อนของแบบจำลองที่ “เห็น” แต่ไม่สามารถ “ประมวลผลอย่างแม่นยำ” ได้ ในช่วงปีที่ผ่านมา แบบจำลองขนาดใหญ่หลายรูปแบบมีพัฒนาการก้าวกระโดดในงานที่เกี่ยวข้องกับโค้…

2026年3月16日

183000

วิศวกรรมโมเดลขนาดใหญ่

Google DeepMind ร่วมกับ Berkeley เปิดตัว LoGeR: โครงสร้างหน่วยความจำระยะยาวที่ก้าวล้ำ ช่วยให้การสร้างภาพ 3D ข้ามผ่านหลายพันเฟรม

กลไกความจำเป็นหนึ่งในความสามารถหลักของโมเดลขนาดใหญ่ในการจัดการงานที่ซับซ้อน ในสถานการณ์ต่างๆ เช่น การสนทนาและเวิร์กโฟลว์อัตโนมัติ โมเดลจำเป็นต้องพึ่งพาความจำเพื่อรักษาบริบทระยะยาว …

2026年3月15日

188000

วิศวกรรมโมเดลขนาดใหญ่

ทีมงานจาก Harbin Institute of Technology, Shenzhen (HITsz) ทำลายข้อจำกัดของ Linear Attention! การแยก Norm×Direction ช่วยให้ความแม่นยำในการทำงานด้านวิสัยทัศน์แซงหน้าอย่างสมบูรณ์ และลดการใช้หน่วยความจำในการทำงาน Super-Resolution 70K+ token ได้ถึง 92.3%

ข้อมูลผู้เขียนผู้เขียนคนแรกของบทความนี้คือ เหมิง เว่ยคัง นักศึกษาปริญญาเอกที่เรียนร่วมระหว่างมหาวิทยาลัยเทคโนโลยีฮาร์บิน (เซินเจิ้น) และห้องปฏิบัติการ Peng Cheng สำเร็จการศึกษาระดั…

2026年3月15日

171000

วิศวกรรมโมเดลขนาดใหญ่

PRGS Framework Breaks Through Offline Reinforcement Learning Bottleneck: Mining ‘Golden Segments’ from Failed Trajectories, Transformer Performance Improves by 15.8%

การเรียนรู้เสริมแรงแบบออฟไลน์ (Offline RL) เผชิญกับความท้าทายหลักประการหนึ่ง: ชุดข้อมูลการฝึกเป็นข้อมูลตายตัวและมีคุณภาพไม่สม่ำเสมอ ในช่วงไม่กี่ปีที่ผ่านมา วิธีการที่ใช้ Transforme…

2026年3月14日

160000

วิศวกรรมโมเดลขนาดใหญ่

ผู้บุกเบิกการเขียนโปรแกรม AI คาร์ปาธี: IDE จะไม่หายไป สิ่งที่เราต้องการคือ IDE ที่ใหญ่ขึ้น——วิวัฒนาการจากการจัดการไฟล์สู่การทำงานร่วมกันของเอเจนต์อัจฉริยะ

ผู้บุกเบิกการเขียนโค้ดด้วย AI คาร์ปาธี: IDE จะไม่หายไป สิ่งที่เราต้องการคือ IDE ที่ใหญ่ขึ้น ในวงการเขียนโปรแกรมด้วยปัญญาประดิษฐ์ อังเดรจ คาร์ปาธี (Andrej Karpathy) ถือเป็นผู้บุกเบิ…

2026年3月12日

167000

วิศวกรรมโมเดลขนาดใหญ่

มหาวิทยาลัยชิงหว่าร่วมกับ Meituan เปิดตัว 3DThinker: กรอบงานที่ก้าวล้ำครั้งแรกที่ทำให้โมเดลขนาดใหญ่ “จินตนาการ” ฉากสามมิติ

เมื่อได้รับภาพฉากหลายๆ ภาพ มนุษย์มักสามารถจินตนาการโครงร่างสามมิติของฉากนั้นในใจได้ อย่างไรก็ตาม โมเดลขนาดใหญ่แบบหลายรูปแบบ (Multimodal) ในปัจจุบันยังคงอาศัยการให้เหตุผลจากข้อมูลข้…

2026年3月11日

165000

วิศวกรรมโมเดลขนาดใหญ่

OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นสำหรับเสียงและวิดีโอ เพียง 35% ของโทเค็นก็เพิ่มประสิทธิภาพได้ ลดเวลาในการอนุมานลง 42%

OmniSIFT: ความก้าวหน้าใหม่ในการบีบอัดโทเค็นเสียงและวิดีโอ เพิ่มประสิทธิภาพด้วยโทเค็นเพียง 35% ลดเวลาในการอนุมานลง 42% ในขณะที่โมเดลขนาดใหญ่หลายโหมดกำลังพัฒนาไปสู่ “โหมดครบถ้ว…

2026年3月11日

160000