การฝึกโมเดลขนาดใหญ่
-
การวิจัยร่วมของมหาวิทยาลัยชิงหวา ปักกิ่ง และเทนเซนต์: กรอบ GTR แก้ปัญหาการ ‘ล่มสลายของความคิด’ ในการฝึกตัวแทน VLM
ผู้เขียนคนแรกของบทความวิจัยคือ Wei Tong นักศึกษาปริญญาเอกที่กำลังศึกษาอยู่ที่มหาวิทยาลัย Tsinghua โดยมีทิศทางการวิจัยเกี่ยวกับเอเจนต์โมเดลขนาดใหญ่และการเรียนรู้แบบเสริมกำลัง (Reinf…
-
MetaClaw: ระบบการเรียนรู้เสริมกำลังออนไลน์ที่ทำให้ AI พัฒนาตัวเองในการแชท โดยไม่ต้องใช้คลัสเตอร์ GPU
การให้ผู้ช่วยสนทนา AI แค่ทำงานให้สำเร็จนั้นไม่เพียงพออีกต่อไป ตอนนี้ นักพัฒนากำลังมุ่งมั่นที่จะทำให้ AI สามารถวิวัฒนาการตัวเองได้ ประเด็นสำคัญคือ นี่ไม่ใช่การปรับปรุงประสิทธิภาพสำ…
-
ก้าวข้ามการสร้างแบบจำลองภาษา: Meta และ NYU สำรวจการฝึกฝนล่วงหน้าแบบหลายรูปแบบที่เป็นหนึ่งเดียว เพื่อให้ AI เข้าใจโลกแห่งความเป็นจริงโดยตรง
ความสามารถที่พุ่งพรวดของโมเดลพื้นฐาน เกิดจากการฝึกฝนล่วงหน้าด้วยข้อความปริมาณมหาศาล อย่างไรก็ตาม ข้อความเป็นเพียงการแสดงเชิงนามธรรมของมนุษย์ต่อโลกแห่งความเป็นจริง เป็นการบีบอัดข้อม…
-
คลอดด์เจาะระบบ Neural Engine ของ Apple! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ต้นทุนร่วงเหลือแค่เศษเสี้ยวของค่าไฟ
Claude แฮ็ก Apple Neural Engine! Mac กลายเป็นเครื่องมือฝึก AI ระดับเทพ ค่าใช้จ่ายร่วงเหลือแค่เศษเสี้ยวของค่าไฟ (1/2) สรุปสาระสำคัญ นักพัฒนาประสบความสำเร็จในการย้อนวิศวกรรม (Reverse…
-
FlashAttention-4 เปิดตัวอย่างน่าตื่นเต้น: ความเร็วของกลไกความสนใจบน GPU Blackwell เทียบเท่ากับการคูณเมทริกซ์ เพิ่มประสิทธิภาพสูงสุดถึง 2.7 เท่า
หลังจากพัฒนามาเป็นเวลาหนึ่งปี FlashAttention-4 ได้เปิดตัวอย่างเป็นทางการแล้ว ในฐานะเทคโนโลยีการปรับปรุงประสิทธิภาพระดับล่างที่สำคัญในสาขา Deep Learning FlashAttention ได้รับการอัปเ…
-
นักศึกษาปริญญาเอกสแตนฟอร์ดเสนอ ‘AI ที่พัฒนาตนเองอย่างต่อเนื่อง’: ให้โมเดลวิวัฒนาการอย่างอิสระ ก้าวข้ามผู้สร้างที่เป็นมนุษย์
เมื่อวานนี้ Zitong Yang นักศึกษาปริญญาเอกของมหาวิทยาลัยสแตนฟอร์ด ได้ผ่านการสอบป้องกันวิทยานิพนธ์ปริญญาเอกในหัวข้อ “AI ที่พัฒนาตนเองอย่างต่อเนื่อง” เรียบร้อยแล้ว หลังจาก…
-
ทีม Tsinghua คลายปริศนา FlashAttention การฝึกฝนความแม่นยำต่ำ: ความเอนเอียงเชิงตัวเลขภายใต้ BF16 กระตุ้นการฝึกโมเดลขนาดใหญ่
สรุปสั้นๆ: ปรากฏการณ์ “ลึกลับ” ที่สร้างความสับสนให้กับชุมชนมาหลายปีในที่สุดก็ได้รับการคลี่คลาย: ในการฝึกฝนด้วยความแม่นยำต่ำเช่น BF16 FlashAttention ไม่ได้เกิดข้อผิดพลาด…
-
ReVision Breakthrough: การจัดเรียงทางเรขาคณิตปลดล็อกกระบวนทัศน์ใหม่ในการฝึกโมเดลขนาดใหญ่หลายรูปแบบโดยไม่ต้องจับคู่ภาพและข้อความ
ไม่ต้องจับคู่ภาพกับข้อความ การจัดเรียงทางเรขาคณิตปลดล็อกกระบวนทัศน์ใหม่ในการฝึกฝนโมเดลขนาดใหญ่หลายรูปแบบ ในการวิจัยและพัฒนาของโมเดลขนาดใหญ่หลายรูปแบบ (MLLM) มีฉันทามติมายาวนานว่า: …
-
มาตรฐานการตรวจรับคุณภาพชุดข้อมูลการฝึกอบรม AI ฉบับแรกของประเทศ เปิดรับสมัครหน่วยงานและผู้เชี่ยวชาญเพื่อร่วมร่าง สร้างบรรทัดฐานใหม่ในการส่งมอบข้อมูล
มาตรฐานการตรวจรับคุณภาพชุดข้อมูลฝึกอบรม AI ฉบับแรกของประเทศ เปิดรับสมัครหน่วยงานและผู้เชี่ยวชาญร่วมร่าง เพื่อสร้างบรรทัดฐานใหม่ในการส่งมอบข้อมูล กุมภาพันธ์ 2026 สำนักงานข้อมูลแห่งช…
-
ที
งานวิจัยที่ก้าวล้ำของทีม Kaiming He: GeoPT ใช้การฝึกฝนล่วงหน้าด้วยไดนามิกสังเคราะห์ ทำให้ AI เรียนรู้กฎฟิสิกส์ด้วยตัวเอง ประหยัดข้อมูลจำลองได้ถึง 60% ทรัพย์สิน 3D แบบสถิตขาดข้อมูลไ…