วิศวกรหลักของ DeepSeek กัว ต้าหยาออกจากตำแหน่ง: ผู้เขียนหลักของโมเดล V2, V3, R1 จาก “เล่ยจุนแห่งมหาวิทยาลัยซุนยัดเซ็น” สู่ยอดอัจฉริยะรางวัลล้านหยวน

12 hours ago • ข่าวสารอุตสาหกรรม AI • 17 views

วิศวกรหลักของ DeepSeek กัว ต้าหยาออกจากตำแหน่ง: ผู้เขียนหลักของโมเดล V2, V3, R1

วิศวกรหลักของ DeepSeek กัว ต้าหยาถูกเปิดเผยว่าออกจากตำแหน่งแล้ว ในฐานะผู้เขียนหลักของโมเดลชุดต่าง ๆ ของบริษัท เช่น V2, V3, R1 การเคลื่อนไหวของเขาจึงได้รับความสนใจอย่างมาก

อัจฉริยะด้านเทคโนโลยีผู้ซึ่งอาจารย์ที่ปรึกษามีความหวังให้เป็น “Lei Jun แห่งมหาวิทยาลัยซุนยัตเซ็น” นี้ มีประวัติการทำงานด้านวิชาการและการแข่งขันที่เกือบจะเป็นตำนาน: เขาระบุด้วยตนเองว่าในวันที่สามของการเข้าศึกษาระดับปริญญาเอก ก็สามารถเผยแพร่บทความวิจัยที่จำเป็นสำหรับการสำเร็จการศึกษาได้แล้ว; ชนะเลิศการแข่งขันอัลกอริทึมโฆษณาของ Tencent หลายครั้งติดต่อกัน และคว้าแชมป์ในการแข่งขัน ATEC Tech Elite Challenge และ WeChat Big Data Challenge ถูกล้อเล่นว่า “ยังไม่จบการศึกษาก็มีเงินรางวัลเป็นล้านแล้ว”

นอกจากนี้ เขายังเคยปรากฏตัวในรายการเรียลลิตี้ที่มีธีมเกี่ยวกับโปรแกรมเมอร์ชื่อ “Burning! Genius Programmer” ในฐานะหนึ่งในผู้เข้าแข่งขันระดับ SSS “ยักษ์ใหญ่” เพียงสองคน แสดงความสามารถในการเขียนโค้ดระดับสูงสุดในการแข่งขันสุดหินที่ยาวนาน 60 ชั่วโมง

หลังจากข่าวแพร่ออกไป ก็ทำให้เกิดความสนใจจากผู้ใช้เน็ตต่างประเทศ บางคนแสดงความหวังว่าสิ่งนี้จะไม่ส่งผลกระทบต่อการพัฒนา DeepSeek-V4

วิศวกรหลักของ DeepSeek กัว ต้าหยาออกจากตำแหน่ง: ผู้เขียนหลักของโมเดล V2, V3, R1 จาก "เล่ยจุนแห่งมหาวิทยาลัยซุนยัดเซ็น" สู่ยอดอัจฉริยะรางวัลล้านหยวน

เพราะหลังจากกัว ต้าหยาจบปริญญาเอกในปี 2023 และเข้าร่วม DeepSeek เขามีส่วนร่วมอย่างลึกซึ้งในห่วงโซ่การวิจัยและพัฒนาที่สมบูรณ์ ตั้งแต่โมเดลเฉพาะทางเช่น Coder, Math ไปจนถึง V2, V3 และ R1 และล้วนเป็นผู้เขียนหลักทั้งสิ้น

แล้วกัว ต้าหยาคือ “เด็กอัจฉริยะ” แบบไหนกันแน่?

ผู้มีส่วนร่วมหลักของโมเดลหลายรุ่นของ DeepSeek

กัว ต้าหยาร่วมงานกับ DeepSeek หลังจากจบปริญญาเอกในปี 2023 โดยมุ่งเน้นที่ด้านความฉลาดของโค้ดและการให้เหตุผลของโมเดลภาษาขนาดใหญ่

สาเหตุที่เขาเข้าร่วม DeepSeek เกี่ยวข้องโดยตรงกับการแนะนำของรุ่นพี่สาวคนหนึ่ง ตามที่เขาเองเล่าว่า:

ตอนนั้น รุ่นพี่สาวคนหนึ่งของฉันทำงานที่ DeepSeek เธอมาหาฉันและพูดคุยเกี่ยวกับวิสัยทัศน์ของ DeepSeek นั่นคือการแสวงหา AGI และขับเคลื่อนการพัฒนาของสังคมมนุษย์ให้ก้าวหน้าเร็วขึ้น ซึ่งสอดคล้องกับค่านิยมของฉัน ในขณะเดียวกัน DeepSeek มีทรัพยากรค่อนข้างมากในการลงทุนวิจัยและพัฒนา และฝ่ายบริหารก็หวังจะสร้างบริษัทที่มีบรรยากาศนวัตกรรมและอิสระ ฉันมีความกระตือรือร้นที่จะทำสิ่งนี้ และฉันก็อยากแสวงหาสภาพแวดล้อมการทำงานแบบนี้ ในที่สุดฉันจึงเลือกที่จะเข้าร่วม DeepSeek

ปัจจุบัน ข้อมูลบนหน้าเว็บส่วนตัวของกัว ต้าหยายังไม่ได้รับการอัปเดต ยังคงแสดงสถานะเป็นนักวิจัยของ DeepSeek

ระหว่างทำงานที่ DeepSeek กัว ต้าหยาเป็นผู้มีส่วนร่วมหลักของโมเดลสำคัญหลายรุ่นของบริษัท รวมถึง V2, V3, R1 และโมเดลเฉพาะทางเช่น Math, Coder, Prover และ V2-Prover

สรุปผลงานหลักของเขาตามไทม์ไลน์:

มกราคม 2024 – DeepSeek-Coder: โครงการนี้เปิดตัวชุดโมเดลโค้ดโอเพนซอร์สตั้งแต่ 1.3B ถึง 33B ซึ่งทำได้ถึงระดับ SOTA ของโมเดลโค้ดโอเพนซอร์สในขณะนั้นในการทดสอบมาตรฐานหลายชุด
กุมภาพันธ์ 2024 – DeepSeek-Math: โครงการนี้ใช้ DeepSeek-Coder-Base-v1.5 7B เป็นพื้นฐาน ดำเนินการฝึกฝนต่อเพื่อความสามารถในการให้เหตุผลทางคณิตศาสตร์ โดยใช้โทเค็นที่เกี่ยวข้องกับคณิตศาสตร์เพิ่มอีก 120B วิธีการเรียนรู้แบบเสริมกำลังแบบใหม่ GRPO ที่เสนอในบทความวิจัยของโครงการนี้ ต่อมาได้กลายเป็นเทคโนโลยีสำคัญของโมเดลการให้เหตุผล R1
พฤษภาคม 2024 – DeepSeek-Prover: โครงการนี้มุ่งเน้นไปที่การพิสูจน์ทฤษฎีบท Lean 4 วิธีการหลักคือการสังเคราะห์ข้อมูลการพิสูจน์เชิงรูปแบบขนาดใหญ่ และปรับแต่งโมเดล DeepSeek-Math 7B บนพื้นฐานนี้ โมเดลทำได้ผลลัพธ์ดีกว่า GPT-4 ในมาตรฐาน Lean 4 miniF2F ซึ่งหมายถึงความสามารถของโมเดล DeepSeek ได้ขยายจากความสามารถในการให้เหตุผลทางคณิตศาสตร์ทั่วไปไปสู่ด้านการให้เหตุผลเชิงรูปแบบที่ยากขึ้น
ชุด V2, V3 และ R1: ในกระบวนการวิจัยและพัฒนาชุดโมเดลหลักนี้ DeepSeek ได้พิสูจน์แล้วว่าโดยไม่ต้องพึ่งพาเส้นทางการให้เหตุผลที่มนุษย์กำกับไว้ เพียงการเรียนรู้แบบเสริมกำลังล้วนๆ ก็สามารถกระตุ้นความสามารถในการให้เหตุผลของโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพ และทำให้เกิดรูปแบบพฤติกรรมต่างๆ เช่น การสะท้อนตัวเอง การตรวจสอบ การปรับเปลี่ยนกลยุทธ์แบบไดนามิก ตามธรรมชาติ โดยบทความวิจัยที่เกี่ยวข้องกับ DeepSeek-R1 ต่อมาได้ขึ้นปกวารสาร Nature บทความวิจัยนี้เปิดเผยว่าค่าใช้จ่ายในการฝึก R1 มีเพียงประมาณ 294,000 ดอลลาร์สหรัฐ (ประมาณ 2.08 ล้านหยวน)

โดยรวมแล้ว การทำงานของกัว ต้าหยาที่ DeepSeek ไม่ได้เป็นการมีส่วนร่วมในโครงการใดโครงการหนึ่งเพียงจุดเดียว แต่เป็นการมีส่วนร่วมอย่างลึกซึ้งในกระบวนการวิจัยและพัฒนาที่สมบูรณ์ซึ่งครอบคลุมโมเดลหลักของบริษัทตลอดช่วงเวลาหนึ่ง

“หวังให้เขาเป็น Lei Jun แห่งมหาวิทยาลัยซุนยัตเซ็น”

ความสนใจของกัว ต้าหยาต่อวิทยาศาสตร์คอมพิวเตอร์เริ่มต้นในสมัยเรียนมัธยม ขณะเรียนอยู่ที่โรงเรียนมัธยมจูไห่ เขาได้สัมผัสกับการเขียนโปรแกรมเป็นครั้งแรกผ่านวิชาสารสนเทศของโรงเรียน และถูกดึงดูดด้วยตรรกะที่เข้มงวดและความคิดสร้างสรรค์ที่ไร้ขีดจำกัดของมัน สิ่งนี้ผลักดันให้เขาเลือกสาขาวิชาคอมพิวเตอร์อย่างมั่นใจหลังจากสอบเข้ามหาวิทยาลัย

ในปี 2014 กัว ต้าหยาถูกรับเข้าศึกษาที่คณะวิทยาการคอมพิวเตอร์ มหาวิทยาลัยซุนยัตเซ็น และต่อมาได้ศึกษาต่อในระดับปริญญาเอกที่มหาวิทยาลัยเดียวกัน

ในปีสุดท้ายของปริญญาตรี เขาถูกคัดเลือกเข้าโครงการนักศึกษาปริญญาเอกร่วมระหว่างมหาวิทยาลัยซุนยัตเซ็นและ Microsoft Research Asia (MSRA) โดยมีศาสตราจารย์อิน เจี้ยน และ ดร.โจว หมิง (ผู้ก่อตั้ง Langboat Technologies ภายหลังในกระแสโมเดลขนาดใหญ่) เป็นอาจารย์ที่ปรึกษา ทิศทางการวิจัยคือการประมวลผลภาษาธรรมชาติ รองประธานสถาบันวิจัยสำรวจ Jingdong และ StepFun Tech Fellow ต้วน หนาน ก็มีดร.โจว หมิง เป็นอาจารย์ที่ปรึกษาปริญญาเอกเช่นกัน ทั้งสองคนจึงถือว่าเรียนมาจากสำนักเดียวกัน

ตามรายงานการสัมภาษณ์ของมหาวิทยาลัยซุนยัตเซ็น กัว ต้าหยาระบุด้วยตนเองว่าในวันที่สามของการเข้าศึกษาระดับปริญญาเอก เขาก็สามารถบรรลุเงื่อนไขการเผยแพร่บทความวิจัยที่มหาวิทยาลัยกำหนดสำหรับการสำเร็จปริญญาเอกได้แล้ว

ระหว่างศึกษาปริญญาเอก เขาฝึกงานที่ MSRA และทำการวิจัยเกี่ยวกับ CodeBert และ GraphCodeBert ผลงานที่เกี่ยวข้องได้รับการตีพิมพ์ใน EMNLP 2020 Findings และ ICLR 2021 ตามลำดับ โดย CodeBert พัฒนาโมเดลพรีเทรนแบบไบโมดัลแรกที่สามารถประมวลผลอินพุตแบบผสมระหว่างภาษาธรรมชาติและภาษาโปรแกรมมิ่งได้พร้อมกัน ส่วน GraphCodeBert เป็นครั้งแรกที่นำโครงสร้างโฟลว์ข้อมูลของโค้ดมาพิจารณาในการพรีเทรน ทำให้โมเดลเข้าใจโค้ดได้ลึกซึ้งยิ่งขึ้น

ในปี 2023 วิทยานิพนธ์ระดับปริญญาเอกของเขาชื่อ “Program Understanding and Generation Based on Pre-training” ได้รับการประเมินให้เป็นวิทยานิพนธ์ระดับปริญญาเอกดีเด่นของมหาวิทยาลัยซุนยัตเซ็น ตั้งแต่การวิจัยทางวิชาการจนถึงการทำงานที่ DeepSeek เส้นทางการวิจัยหลักของกัว ต้าหยามุ่งเน้นไปที่ “โค้ด” อย่างต่อเนื่อง

หลังจากเปิดตัว DeepSeek-V3 อาจารย์ที่ปรึกษาของเขา ศาสตราจารย์อิน เจี้ยน ได้ให้คำอวยพรพิเศษ โดยหวังว่าเขาจะเป็น “Lei Jun แห่งมหาวิทยาลัยซุนยัตเซ็น”

จนถึงปัจจุบัน กัว ต้าหยาได้ตีพิมพ์บทความวิจัยมากกว่าสิบบทความในงานประชุม AI ระดับนานาชาติชั้นนำ เช่น NeurIPS, ACL, EMNLP และได้รับการอ้างอิงใน Google Scholar มากกว่า 1300 ครั้ง

ในด้านการแข่งขัน กัว ต้าหยาก็มีผลงานโดดเด่นไม่แพ้กัน:
* ปี 2021 และ 2022 คว้าแชมป์ ATEC Tech Elite Challenge ที่จัดโดย Ant Group ติดต่อกันสองปี
* ปี 2022 นำทีมคว้าแชมป์ใน WeChat Big Data Challenge ที่มีทีมเข้าร่วม 3200 ทีม ชนะรางวัลใหญ่ 300,000 หยวน
วิศวกรหลักของ DeepSeek กัว ต้าหยาออกจากตำแหน่ง: ผู้เขียนหลักของโมเดล V2, V3, R1 จาก "เล่ยจุนแห่งมหาวิทยาลัยซุนยัดเซ็น" สู่ยอดอัจฉริยะรางวัลล้านหยวน
* ที่เป็นตัวแทนมากที่สุดคือการคว้าแชมป์ติดต่อกันใน Tencent Advertising Algorithm Competition ในฐานะสมาชิกหลักของทีม DYG เขาได้แชมป์ในปี 2019 ป้องกันแชมป์สำเร็จในปี 2020 และได้แชมป์อีกครั้งในปี 2021 ถือได้ว่าเป็นผู้เข้าแข่งขันระดับ Hall of Fame ของการแข่งขันนี้

One More Thing

นอกจากด้านวิชาการและการแข่งขันแล้ว กัว ต้าหยายังมีอีกด้านที่ค่อนข้าง “ดังออกวง” นั่นคือการเข้าร่วมรายการวาไรตี้

ในรายการเรียลลิตี้ที่มีธีมเกี่ยวกับโปรแกรมเมอร์ชื่อ “Burning! Genius Programmer” กัว ต้าหยาในฐานะหนึ่งในผู้เข้าแข่งขันระดับ SSS “ยักษ์ใหญ่” เพียงสองคน ได้ร่วมเผชิญการแข่งขันเขียนโค้ดสุดหิน 60 ชั่วโมงกับผู้เข้าแข่งขันอีก 15 คน ขณะปรากฏตัวเขาถูกระบุว่าเป็น “การมีอยู่ที่เหมือนเทพเจ้า” แสดงให้เห็นถึงเสน่ห์ส่วนตัวนอกเหนือจากความสามารถระดับสูงสุดของโปรแกรมเมอร์

ปัจจุบัน ด้วยการออกจากตำแหน่งของวิศวกรหลักท่านนี้ แนวโน้มในอนาคตของเขาจะเป็นจุดสนใจของวงการอย่างแน่นอน

ใครจะได้กัว ต้าหยาไป?

ลิงก์อ้างอิง:
[1] https://www.reddit.com/r/LocalLLaMA/comments/1rzu7rc/deepseek_core_researcher_daya_guo_rumored_to_have/
[2] https://guoday.github.io/
[3] https://mp.weixin.qq.com/s/bYztba9PwPHePhwufd4L7Q
[4] https://sai.sysu.edu.cn/node/545