“ปี 2026 อาจกลายเป็นปีที่วุ่นวายที่สุดและเป็นจุดตัดสำคัญที่สุดในประวัติศาสตร์ของมนุษยชาติ” Jimmy Ba ผู้ร่วมก่อตั้ง xAI กล่าวไว้ในแถลงการณ์ลาออก

คำพูดนี้ไม่ได้เกินจริงเลย ต้นเดือนมกราคม Anthropic เปิดตัวเครื่องมือ Agent ชื่อ Claude Cowork พร้อมปล่อยปลั๊กอินที่เกี่ยวข้อง 11 ตัว; เมื่อสัปดาห์ก่อน Anthropic และ OpenAI ก็เปิดตัวโมเดลพื้นฐานรุ่นใหม่ Claude Opus 4.6 และ GPT-5.3-Codex แทบจะพร้อมกัน
การเปิดตัวที่ถี่ยิบครั้งนี้ได้ “กวาดล้างวอลล์สตรีท” โดยตรง หุ้นของบริษัทชื่อดังอย่าง Oracle, Adobe, Salesforce, Thomson Reuters, NEC ถูกเทขาย มูลค่าตลาดหายไปเกือบล้านล้านดอลลาร์
สนามรบ AI ในประเทศจีนยิ่งร้อนระอุกว่า
Tencent Yuanbao แจกเงินสดโดยตรง Alibaba Qianwen ตั้งงบเลี้ยงชานมไข่มุก ส่วน ByteDance Doubao ได้ประกาศอย่างเป็นทางการแล้วว่าจะมีส่วนร่วมอย่างลึกซึ้งในกิจกรรมปฏิสัมพันธ์ช่วงตรุษจีนปี 2026 โดยจะแจกเงินสดสูงสุด 8,888 หยวน พร้อมของขวัญเทคโนโลยีกว่า 100,000 ชุด ครอบคลุมผลิตภัณฑ์เทคโนโลยีล้ำสมัยและเครื่องใช้ไฟฟ้าอัจฉริยะ 17 ประเภท เช่น หุ่นยนต์ Unitree, โดรน DJI
สงคราม AI ตรุษจีนครั้งนี้ ใช้เงินจริงทองแท้ แต่สิ่งแรกที่เรียกได้ว่าเป็นปรากฏการณ์ระดับ ก็คือโมเดลสร้างวิดีโอล่าสุดของ ByteDance ที่เพิ่งเปิดตัว — Seedance 2.0 ไม่ได้แจกเงินสด แม้จะยังอยู่ระหว่างการทดสอบภายใน แต่ก็โด่งดังไปทั่วทั้งอินเทอร์เน็ต
Seedance 2.0 เป็นเพียง “การอุ่นเครื่อง” รอบแรกเท่านั้น การทุ่มเทของ ByteDance ในด้าน AI เพิ่งจะเริ่มต้น
วันที่ 14 กุมภาพันธ์ Volcano Engine ได้ประกาศอย่างเป็นทางการถึงการอัปเกรดแบบครอบคลุมของชุดโมเดล Doubao นอกเหนือจาก Seedance 2.0 ที่โด่งดังในโซเชียลมีเดียต่างประเทศแล้ว ยังรวมถึงโมเดลขนาดใหญ่ Doubao 2.0 และโมเดลสร้างภาพ Seedream 5.0 Lite
ตั้งแต่โมเดลพื้นฐาน การสร้างภาพ ไปจนถึงการสร้างวิดีโอ ล้วนเป็นการอัปเดตรุ่นใหญ่ทั้งสิ้น ครั้งนี้ ByteDance กำลังจะโจมตีเต็มรูปแบบในด้าน AI
โมเดลขนาดใหญ่ Doubao 2.0: มัลติโมดัล + Agent เข้าสู่กลุ่มแนวหน้า
เริ่มจากโมเดลขนาดใหญ่ Doubao 2.0 (Doubao-Seed-2.0) ก่อน นี่คือโมเดล Agent มัลติโมดัลล่าสุดที่ ByteDance เปิดตัว และเป็นการอัปเกรดข้ามรุ่นครั้งใหญ่ครั้งแรกของโมเดลขนาดใหญ่ Doubao นับตั้งแต่เปิดตัวอย่างเป็นทางการในเดือนพฤษภาคม 2024
ในฐานะไฮไลต์สำคัญของการอัปเกรดครั้งนี้ Doubao 2.0 ได้ก้าวกระโดดในเชิงคุณภาพในสามมิติ: ความเข้าใจมัลติโมดัล ความสามารถ Agent ระดับองค์กร และความสามารถในการให้เหตุผลและเขียนโค้ด
ในรายงานทางเทคนิค ByteDance ระบุว่า Doubao 2.0 ออกแบบมาเพื่อมอบประสบการณ์ผู้ใช้ที่ดีที่สุดในสภาพแวดล้อมการผลิตขนาดใหญ่ โดยให้ความสำคัญกับประสบการณ์ผู้ใช้ในสภาพแวดล้อมการใช้งานออนไลน์ขนาดใหญ่ ดังนั้น โมเดลจึงได้รับการเสริมความแข็งแกร่งเป็นพิเศษในสามด้านที่ส่งผลกระทบโดยตรงต่อประสบการณ์การโต้ตอบ: การสืบค้นภาพและมัลติโมดัล ความล่าช้าในการให้เหตุผล และความน่าเชื่อถือของคำสั่งที่ซับซ้อน:
- เพิ่มความสามารถในการให้เหตุผลด้านภาพภายใต้แรงกดดันของภาพหลอน (hallucination) และปรับปรุงความสามารถในการแยกวิเคราะห์โครงสร้างของเอกสารและกราฟิก
- มีรุ่นขนาดต่างๆ (รุ่น Agent ทั่วไปสามรุ่น: Pro, Lite, Mini และรุ่น Code) เพื่อรองรับการประนีประนอมระหว่างความล่าช้าและประสิทธิภาพในสถานการณ์การใช้งานที่แตกต่างกัน
- มีความสามารถในการดำเนินการคำสั่งที่ซับซ้อนได้อย่างน่าเชื่อถือ สามารถทำงานที่มีข้อจำกัดสูงและหลายขั้นตอนได้อย่างแม่นยำ
ในด้านการให้เหตุผลทางคณิตศาสตร์และภาพ Doubao 2.0 Pro บรรลุระดับที่ดีที่สุดในอุตสาหกรรมบนมาตรฐานการให้เหตุผลทางคณิตศาสตร์ต่างๆ เช่น MathVista, MathVision, MathKangaroo, MathCanvas โดยมีผลงานโดยรวมในด้านวิทยาศาสตร์เทียบเท่ากับ Gemini 3 Pro และ GPT 5.2

ในมาตรฐานความสามารถการรับรู้ภาพ เช่น VLMsAreBiased, VLMsAreBlind, BabyVision Doubao 2.0 ได้คะแนนสูงสุดในอุตสาหกรรม

ในการประเมินความสามารถด้านการให้เหตุผลและ Agent Doubao 2.0 Pro ได้รับเหรียญทองในการแข่งขันคณิตศาสตร์โอลิมปิก IMO, CMO และการแข่งขันเขียนโปรแกรม ICPC และยังทำได้ดีกว่า Gemini 3 Pro ใน Putnam Bench


ใน HLE-text (การสอบสุดท้ายของมนุษย์) Doubao 2.0 Pro ได้คะแนนสูงสุด 54.2 คะแนน:

Doubao 2.0 ยังให้ความสำคัญกับการเสริมความสามารถในการปฏิบัติตามคำสั่ง (instruction following) การประเมินที่เกี่ยวข้องแสดงให้เห็นว่า Doubao 2.0 สามารถรักษาความสม่ำเสมอและความควบคุมได้ค่อนข้างดี ซึ่งเป็นรากฐานสำหรับการทำงานเป็นโมเดล Agent ในการทำงานที่มีขั้นตอนยาวและหลายขั้นตอน โดยปฏิบัติตามเงื่อนไขข้อจำกัดอย่างเคร่งครัด
ปัจจุบัน API ของโมเดลได้เปิดให้บริการบน Volcano Engine แล้ว

ทดลองใช้งานจริง
ต่อไปมาทดลองใช้งานจริงกัน
ความเข้าใจมัลติโมดัล
ในด้านความเข้าใจมัลติโมดัล Doubao 2.0 ไม่เพียงแต่สามารถดึงข้อความได้อย่างแม่นยำและเข้าใจแผนภูมิเชิงลึกเท่านั้น แต่ยังมีความสามารถในการรับรู้พื้นที่ การจับการเคลื่อนไหว และการวิเคราะห์วิดีโอแบบยาวได้อย่างยอดเยี่ยม
ใน Douban มีกลุ่ม “กลุ่มคนเขียนลายมือแย่ที่สุดในประวัติศาสตร์” ซึ่งกลุ่มคนที่เขียนลายมือแย่ๆ มาแสดงผลงานลายมือที่เต็มไปด้วยข้อโต้แย้งของตัวเองที่นี่ ตราบใดที่ลายมือหวัดและน่าเกลียดเพียงพอ ก็สามารถเป็นที่เลื่องลือในกลุ่มได้ มี “รวมรวมตัวอักษรพิษที่ท้าทายสมอง” อยู่ชุดหนึ่ง ภายในเป็นลายมือแย่ๆ ที่คัดลอกมาจากสมุดจดสั่งวัตถุดิบในร้านอาหาร แม้กระทั่ง “ตัวอักษรแทนกัน”

เราเลือกโหมด “ผู้เชี่ยวชาญ” ในแอป Doubao และให้ Doubao 2.0 ระบุตัวอักษรเหล่านี้
ตัวอักษรที่เขียนหวัดเหมือนมังกรบินเหล่านี้ Doubao ระบุถูกต้องทั้งหมด ไม่เพียงแต่สามารถจดจำลายมือปกติได้เท่านั้น แต่ยังสามารถถอดรหัสคำย่อเสียงพ้อง เช่น “自然粉即孜然粉” (ผงธรรมชาติคือผงยี่หร่า) โดยผสมผสานกับนิสัยการจดบันทึกด่วนในครัวหลังบ้าน นี่แสดงให้เห็นว่ามันไม่ได้หยุดอยู่แค่ระดับการจดจำตัวอักษร แต่ยังสามารถให้เหตุผลเชิงความหมายตามบริบทธุรกิจได้

มาลองทดสอบความเข้าใจและการประมวลผลตารางกัน
เราโยนตารางสถิติให้มัน และขอให้มันดึงข้อความออกมาก่อน คำนวณยอดขายเครื่องดื่มแต่ละประเภท และจัดเรียงตามยอดขายจากสูงไปต่ำ
Doubao เรียกใช้เครื่องมือตามความต้องการ การดึงข้อความไม่ผิดเพี้ยนเลย เข้าใจตรรกะของงานได้ด้วยตนเอง ใช้สูตรคำนวณยอดขายได้อย่างแม่นยำ และสุดท้ายนำเสนอในรูปแบบตารางที่มีโครงสร้างหลังจากเรียงลำดับแล้ว

กระบวนการทั้งหมดสะท้อนให้เห็นถึงการผสมผสานอย่างลึกซึ้งของการจดจำด้วย OCR การคำนวณทางคณิตศาสตร์ และการให้เหตุผลเชิงตรรกะ และให้ผลลัพธ์ที่ใช้งานได้จริงซึ่งสามารถดาวน์โหลดได้
เราลองทดสอบการจดจำภาพอีกครั้ง โดยให้ Doubao นับจำนวนลูกสุนัขการ์ตูนในภาพและแนะนำสายพันธุ์

โมเดลตอบสนองอย่างรวดเร็ว และยังระบุตำแหน่งเชิงพื้นที่ของลูกสุนัขแต่ละตัว อธิบายลักษณะภายนอก เช่น รายละเอียดของสุนัขพันธุ์ชิห์สุ “มีโบว์สีแดงบนหัว” เป็นต้น
เมื่อย้อนดูกระบวนการคิดของมัน เราพบว่ามันจะตรวจสอบซ้ำเพื่อป้องกันข้อผิดพลาด

ความสามารถในการให้เหตุผลและเขียนโค้ด และความสามารถ Agent ระดับองค์กร
ความสามารถในการให้เหตุผลของ Doubao 2.0 ก็เพิ่มขึ้นอย่างมากเช่นกัน รองรับการปรับความยาวการคิดได้อย่างยืดหยุ่น และประสิทธิภาพของ Token ในทุกความยาวการคิดได้รับการปรับปรุงอย่างครอบคลุม โดยแสดงผลโดดเด่นเป็นพิเศษในการสร้างโค้ด โดยเฉพาะในด้านการพัฒนา front-end
ตัวอย่างเช่น เราเรียกใช้ Doubao 2.0 Code ใน TRAE และป้อน Prompt: write a python code that visualizes how a traffic light works in a one way street with cars entering at random rate. (เขียนโค้ด Python ที่แสดงภาพการทำงานของสัญญาณไฟจราจรในถนนทางเดียว โดยมีรถยนต์เข้าด้วยอัตราสุ่ม)

รถยนต์แต่ละคันถูกกำหนดสีที่แตกต่างกันเพื่อเพิ่มการระบุตัวตนทางสายตา สัญญาณไฟจราจรสลับสถานะระหว่างสีแดงและสีเขียวโดยอัตโนมัติ และรถยนต์ปฏิบัติตามกฎ “หยุดที่ไฟแดง ไปที่ไฟเขียว” อย่างเคร่งครัด
อีกตัวอย่างหนึ่ง Prompt: Simulate a realistic water ripple effect on an HTML canvas. When the user clicks, ripples should spread outward and interact with each other. (จำลองเอฟเฟกต์ระลอกน้ำที่สมจริงบนแคนวาส HTML เมื่อผู้ใช้คลิก ระลอกน้ำควรกระจายออกไปด้านนอกและมีปฏิสัมพันธ์ซึ่งกันและกัน)

มันสามารถสร้างระลอกน้ำที่ตำแหน่งที่คลิกได้ โดยกระจายออกไปด้านนอกในรูปแบบวงกลม同心และค่อยๆ ลดลงตามธรรมชาติ และเมื่อระลอกน้ำไปถึงขอบของแคนวาสก็จะเกิดเอฟเฟกต์การสะท้อนกลับ ซึ่งสอดคล้องกับคุณสมบัติทางกายภาพของคลื่นน้ำจริง
เพียงแค่ประโยค “สร้างเกม Super Mario ที่สวยงาม” Doubao 2.0 ก็สามารถสร้างเกมที่ใช้งานได้ครบถ้วนและเล่นได้จริง

การออกแบบภาพสวยงามและละเอียด โมเดลได้นำกลไกหลักของเกมมาใช้อย่างสมบูรณ์ มุมซ้ายบนแสดงคะแนนและจำนวนชีวิตแบบเรียลไทม์ เกมทั้งหมดตั้งแต่การออกแบบ UI ไปจนถึงตรรกะการโต้ตอบ มีระดับที่สามารถเผยแพร่ได้
เกม Snake คลาสสิกที่มันสร้างขึ้น ก็ได้นำตรรกะการเคลื่อนที่และการตรวจจับการชนที่ลื่นไหลมาใช้ และเพิ่มระบบคะแนนแบบเรียลไทม์เข้ามาด้วย

นอกจากนี้ ในสถานการณ์การใช้งานระดับองค์กร โมเดลสามารถสนับสนุนความเข้าใจและการใช้ Skills ได้ดีขึ้น ความสามารถในการเรียกใช้ฟังก์ชัน (Function Call) การปฏิบัติตามคำสั่งหลายรอบ การค้นหา และการเรียกใช้เครื่องมือเพิ่มขึ้นอย่างมีนัยสำคัญ การส่งออกรูปแบบมีความเสถียรมากขึ้น และสามารถจัดการบริบทได้อย่างยืดหยุ่น จัดการกับงานที่ซับซ้อนและยาวนาน เช่น การวิเคราะห์ข้อมูล บริการลูกค้าอัจฉริยะ ได้อย่างง่ายดาย
Seedance 2.0: โด่งดังตั้งแต่ยังอยู่ระหว่างการทดสอบภายใน
ความโด่งดังของ Seedance 2.0 ไม่ต้องพูดมาก ผลงานสร้างสรรค์ของผู้ใช้บนทวิตเตอร์และ Bilibili 已经铺天盖地แล้ว ผู้คนส่วนใหญ่เชื่อว่ามันได้บรรลุระดับที่เปลี่ยนแปลงทิศทางของอุตสาหกรรมในด้านการสร้างวิดีโอ ความสามารถในการควบคุมฉากที่ซับซ้อน ปฏิสัมพันธ์ระหว่างหลายคน และตรรกะการเคลื่อนไหวที่สมจริง ทำให้แยกแยะได้ยากระหว่างของจริงและของปลอม
ได้รับการชื่นชมทั้งในและต่างประเทศ มีผู้ใช้ใช้ Seedance 2.0 จำลอง New Amsterdam ในปี 1670 ได้ผลที่น่าตื่นตาตื่นใจ แม้แต่ Elon Musk ยังแสดงความคิดเห็นใต้โพสต์ว่า “It’s happening fast.”

Jia Zhangke ประกาศอย่างเปิดเผยว่าจะใช้เทคโนโลยีนี้สร้างภาพยนตร์สั้น กลายเป็นผู้กำกับชื่อดังคนแรกที่ประกาศใช้โมเดลนี้

Feng Ji ผู้ผลิต “Black Myth: Wukong” กล่าวว่า “ยุคเด็กของ AIGC จบลงแล้ว” พร้อมทั้งแสดงความกังวลเกี่ยวกับการแพร่กระจายของเนื้อหาปลอม

ปัจจุบัน Seedance 2.0 ไม่รองรับการอ้างอิงภาพหรือวิดีโอของบุคคลจริงอีกต่อไป (เว้นแต่จะได้รับการยืนยันหรืออนุญาตจากบุคคลนั้น) ชัดเจนว่า ByteDance กำลังตอบสนองต่อความเสี่ยงด้านจริยธรรมที่อาจเกิดขึ้นอย่างแข็งขัน ก่อนหน้านี้การถ่ายทำภาพยนตร์ต้องใช้บท สตอรี่บอร์ด การถ่ายทำ การตัดต่อ เอฟเฟกต์ ผู้คนมากมายวุ่นวายกันเป็นเดือนๆ แต่ตอนนี้เพียงคนเดียว พร้อมต์หนึ่งประโยค บวกกับการทำซ้ำหลายครั้งก็สามารถทำได้
บางทีหลายคนอาจยังไม่ตระหนักถึงความล้ำยุคของเทคโนโลยีนี้ แต่มีบล็อกเกอร์จำนวนไม่น้อยที่ใช้มัน “กำกับ” ภาพยนตร์อนาคตแล้ว มีผู้ใช้ยังค้นพบว่า Seedance 2.0 สามารถสร้างวิดีโอจากข้อความนวนิยายใดๆ ก็ได้ ซึ่งบ่งชี้ว่าจะมีซีรีส์สั้น AI ที่สวยงามจำนวนมากตามมา

เราลองใช้งานดูบ้าง โดยให้มันสร้างภาพยนตร์จากนิยายวิทยาศาสตร์ที่สั้นที่สุดในโลก “The last man on earth” นิยายเรื่องนี้มีเพียงสิบเจ็ดคำ: “The last man on earth sat alone in a room. There was a knock on the door….” (มนุษย์คนสุดท้ายบนโลกนั่งอยู่คนเดียวในห้อง ทันใดนั้น ก็มี
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22936
