
AI พนักงานที่แกร่งที่สุดมาแล้ว! ผลทดสอบใช้งานจริงโดดเด่นด้านมัลติโมดัล โค้ด และงานซับซ้อนยาว
เทศกาลตรุษจีนใกล้เข้ามา สนาม AI โมเดลใหญ่ในประเทศจีนคึกคักมาก มีโมเดลจีนหลายรุ่นอัปเดตจนสร้างความฮือฮาทั้งในและนอกประเทศ ผู้ใช้ชาวต่างชาติจำนวนมาก “ขอร้อง” อยากได้วิธีทดลองใช้ เปิดฉาก AI ปี 2026 ยังต้องดูผู้เล่นจากจีน ท่ามกลางงานเลี้ยงใหญ่ของ AI นี้ เราเห็นซูเปอร์เอเจนต์ประเภทต่างๆ ก้าวมาอยู่ตำแหน่งศูนย์กลางของเวที AI ค่อยๆ แทรกซึมเข้าไปในเวิร์กโฟลว์การทำงานจริงๆ และเริ่มช่วยองค์กรจัดการกับงาน “ยาก” ที่แท้จริง AI กำลังเปลี่ยนจาก “ของเล่น” เป็น “เครื่องมือ” แนวโน้มนี้เห็นได้ชัดเจนมาก
ในกระแสการอัปเดตโมเดล AI อย่างรวดเร็วในประเทศจีน ไบต์แดนซ์ ภูเขาไฟเอนจิ้น (Volcano Engine) กลายเป็นหนึ่งในผู้เล่นตัวแทนที่สำคัญ เปิดตัวผลิตภัณฑ์ใหม่สำคัญอย่างต่อเนื่อง เน้นที่ “ปริมาณมากและคุ้มค่า” ในสามวันที่ผ่านมาเปิดตัวโมเดลใหม่ “สามลูกติดต่อกัน”: วันที่ 12 โมเดลสร้างวิดีโอ Seedance 2.0 ของ Doubao เปิดตัวอย่างเป็นทางการ วันที่ 13 โมเดลสร้างภาพ Seedream 5.0 Lite เปิดตัว และวันนี้ โมเดลเอเจนต์มัลติโมดัลล่าสุด Doubao 2.0 (Doubao-Seed-2.0) เปิดตัวอย่างเป็นทางการ นี่เป็นการอัปเกรดครั้งใหญ่ข้ามรุ่นครั้งแรกของโมเดลใหญ่ Doubao นับตั้งแต่เปิดตัวอย่างเป็นทางการในเดือนพฤษภาคม 2024

โดยรวมแล้ว ชุด Doubao 2.0 ประกอบด้วยโมเดลเอเจนต์อเนกประสงค์สามรุ่น ได้แก่ Pro, Lite, Mini และโมเดล Code จากการทดสอบใช้งานจริง พบว่ามีความสามารถที่เพิ่มขึ้นอย่างเห็นได้ชัดในด้านความสามารถเอเจนต์ระดับองค์กร ความเข้าใจมัลติโมดัล ความสามารถในการให้เหตุผลและโค้ด รวมถึงความสามารถในการเรียกใช้เครื่องมืออย่างยืดหยุ่น มีผลงานโดดเด่นในงานที่มีกระบวนการยาวและซับซ้อนจริง

▲ Doubao 2.0 บรรลุ SOTA ในงานทำความเข้าใจภาพประเภทต่างๆ มีผลงานโดดเด่นด้านการให้เหตุผลจากภาพ ความสามารถในการรับรู้ การให้เหตุผลเชิงพื้นที่ และความเข้าใจบริบทยาว ได้คะแนนสูงสุดในการทดสอบมาตรฐานที่เกี่ยวข้องส่วนใหญ่

▲ ในการประเมินความสามารถด้านการให้เหตุผลและเอเจนต์ Doubao 2.0 Pro ได้เหรียญทองในการแข่งขันคณิตศาสตร์โอลิมปิก IMO, CMO และการแข่งขันเขียนโปรแกรม ICPC บน Putnam Bench แซงหน้า Gemini 3 Pro และใน HLE-text (การสอบสุดท้ายของมนุษย์) Doubao 2.0 Pro ได้คะแนนสูงสุด 54.2 คะแนน และนำหน้าในการทดสอบการเรียกใช้เครื่องมือและการปฏิบัติตามคำสั่ง
ด้วยการสนับสนุนของ Doubao 2.0 เราสามารถมีผู้ฝึกสอนฟิตเนส AI ที่โต้ตอบแบบเรียลไทม์ได้อย่างง่ายดาย:

หรือสร้างโค้ด Python matplotlib ที่ตรงกับภาพที่กำหนดอย่างแม่นยำ จากภาพไปสู่โค้ดวาดภาพ:

Doubao 2.0 ยังสามารถควบคุมซอฟต์แวร์โดยตรงเพื่อทำงานมืออาชีพที่ซับซ้อน เช่น ออกแบบและใช้งาน CAD สร้างแบบจำลองและดึงพารามิเตอร์ทางเรขาคณิต:

ภายใต้แนวโน้มใหญ่ของอุตสาหกรรมที่มุ่งเน้นการแก้ไขงานยาวและซับซ้อนระดับองค์กรด้วย AI Doubao 2.0 ถือเป็นก้าวสำคัญของไบต์แดนซ์ ภูเขาไฟเอนจิ้น ในตลาดระดับองค์กรอย่างไม่ต้องสงสัย ปัจจุบัน Doubao 2.0 Pro ได้เปิดให้บริการแล้วบนแอป Doubao คอมพิวเตอร์และเว็บไซต์ เราเพียงแค่เลือกโหมดผู้เชี่ยวชาญก็สามารถทดลองใช้ได้ และภูเขาไฟเอนจิ้นยังได้เปิดให้บริการ API ของชุดโมเดล Doubao 2.0 อีกด้วย

▲ หน้าจอแอป Doubao
01. ทดลองใช้จริงน่าประทับใจ: สร้างรายงานภาพมืออาชีพ พัฒนาเกมเว็บด้วยประโยคเดียว เรียกใช้เครื่องมือและทักษะจำนวนมหาศาลได้เอง
วันนี้ เราเห็นแนวโน้มที่เด่นชัดในสนามโมเดล AI ใหญ่ นั่นคืออุตสาหกรรมให้ความสำคัญกับความสามารถของโมเดลในการทำงานจริงมากขึ้น โดยเฉพาะอย่างยิ่ง เมื่อ AI เริ่มแทรกซึมเข้าสู่อุตสาหกรรมและองค์กร บริษัทต่างๆ กังวลมากขึ้นว่า AI จะสามารถรับผิดชอบงานและสร้างผลิตภาพให้กับบริษัทได้จริงหรือไม่
จากผลการทดลองใช้จริง Doubao 2.0 จริงๆ แล้วสามารถเรียกได้ว่าเป็น “ซูเปอร์ AI งานหนัก” ระดับองค์กร โมเดลใหม่มีผลงานที่น่าประทับใจในด้านความเข้าใจมัลติโมดัล ความสามารถเอเจนต์ระดับองค์กร การให้เหตุผลและการเขียนโค้ด
ในด้าน ความสามารถเอเจนต์ระดับองค์กรและมัลติโมดัล เราตรวจสอบสถานการณ์ทั่วไปก่อน: สำหรับหัวข้อใดหัวข้อหนึ่ง รวบรวมข้อมูล สร้างตาราง วิเคราะห์ด้วยภาพ ให้การวิเคราะห์และคำแนะนำเชิงกลยุทธ์
ความต้องการคือ: รวบรวมและจัดระเบียบผลิตภัณฑ์แว่นตาอัจฉริยะทั้งหมดที่เปิดตัวตั้งแต่วันที่ 1 มกราคม 2025 ถึง 31 ธันวาคม 2025 จัดทำเป็นตารางสรุปชื่อผลิตภัณฑ์ วันที่เปิดตัว ราคา ผู้ผลิต การกำหนดค่าพารามิเตอร์หลัก จุดเด่นหลัก และสร้างรายงานภาพตามข้อมูลนี้ อย่างน้อยต้องรวมการกระจายราคา แนวโน้มจำนวนการเปิดตัวผลิตภัณฑ์ การกระจายประเภทผลิตภัณฑ์ วิเคราะห์ลักษณะการพัฒนาตลาดแว่นตาอัจฉริยะในปัจจุบัน หากบริษัทสตาร์ทอัพต้องการเข้าสู่ตลาดแว่นตา AI ให้กลยุทธ์ตลาดที่แนะนำ
ความต้องการนี้ซับซ้อนมาก เกี่ยวข้องกับการทดสอบความสามารถหลายด้าน เช่น เอเจนต์แยกย่อยงานซับซ้อน การเรียกใช้เครื่องมือหลายรอบโดยอัตโนมัติ การแปลงข้อมูลมัลติโมดัล การวิจัยและวิเคราะห์เชิงลึก จากผลลัพธ์สุดท้ายที่ปรากฏ เว็บเพจภาพที่ Doubao 2.0 สร้างขึ้นมีความสวยงาม เรียบง่าย เน้นจุดสำคัญ ข้อมูลสำคัญครบถ้วน และนำเสนอองค์ประกอบต่างๆ อย่างเป็นรูปธรรม

ในขณะเดียวกัน ข้อมูลสรุปในหน้าเพจค่อนข้างครบถ้วน ถูกต้องสูง และใช้งานได้ดี ไม่ว่าจะเป็นชื่อผลิตภัณฑ์ ราคา หรือจุดเด่นของผลิตภัณฑ์ ล้วนสรุปได้ค่อนข้างแม่นยำ มีจุดที่ต้องปรับปรุงแก้ไขไม่มาก

เนื้อหาการวิเคราะห์ที่ AI ให้มามีตรรกะค่อนข้างแข็งแกร่ง มีความลึกในระดับหนึ่ง ข้อสรุปและคำแนะนำมีที่มาที่ไป ไม่ใช่เนื้อหา “หลอกลวง ว่างเปล่า” ที่พบได้บ่อยในการสร้างของ AI แบบดั้งเดิม

ที่น่าสังเกตคือ งานยาวซับซ้อนนี้เกี่ยวข้องกับการรวบรวมและจัดระเบียบข้อมูลสาธารณะ การใช้สคริปต์ Python สร้างรายงานภาพและแผนภูมิ เกี่ยวข้องกับการแปลงข้อมูลมัลติโมดัล เช่น ข้อความ ภาพ ตาราง เว็บเพจ และในขณะเดียวกันก็ต้องการให้เอเจนต์เรียกใช้เครื่องมือจำนวนมากโดยอัตโนมัติ และ Doubao 2.0 ดำเนินการงานจนเสร็จโดยแทบไม่ต้องการการแทรกแซง มีเพียงการอนุญาตสิทธิ์ระบบที่จำเป็นเท่านั้น

นอกจากนี้ เรายังตรวจสอบความสามารถของเอเจนต์ ในการสร้าง PPT ตามหัวข้อที่กำหนดจากเนื้อหาข้อความยาว ความต้องการคือ: ตามบันทึกการประชุมที่กำหนดไว้ประมาณหนึ่งหมื่นคำ สร้าง PPT เกี่ยวกับการรายงานข้อมูลการขายรายไตรมาส ต้องการให้เนื้อหามีระดับการนำเสนอด้วยภาพสูง การนำเสนอข้อมูลเป็นรูปธรรมและเข้าใจง่าย ไม่มีข้อความยาวๆ และสไตล์ PPT เป็นธุรกิจแบบเรียบง่าย

จากผลลัพธ์ PPT ที่สร้างขึ้นสุดท้าย สไตล์การทำ PPT สอดคล้องกับความต้องการ และในด้านการออกแบบค่อนข้างเรียบง่ายและสวยงาม

ที่สำคัญที่สุด ข้อมูลหลักส่วนใหญ่สอดคล้องกับบันทึกการประชุม ข้อมูลถูกต้อง แทบไม่ต้องปรับปรุงแก้ไข แผนภูมิใน PPT สร้างขึ้นค่อนข้างสวยงาม การนำเสนอข้อมูลเป็นรูปธรรม

นอกจากนี้ โครงสร้างตรรกะโดยรวมของ PPT ค่อนข้างชัดเจน มีทั้งต้นและปลาย

ในด้านการแปลงเนื้อหามัลติโมดัลข้อความและภาพ เรายังให้เอเจนต์ ดึงข้อมูลสำคัญจากแผนภูมิหลายแบบของงบการเงินของบริษัท (รวมถึงแผนภูมิแท่ง แผนภูมิเส้น แผนภูมิวงกลม และตารางข้อความ) สร้างตารางสรุปเกี่ยวกับข้อมูลงบการเงิน จากผลลัพธ์ที่ปรากฏ การดึงข้อมูลมีความถูกต้องสูง และใช้งานได้ดี

ในด้านความสามารถโค้ดซึ่ง AI ระดับองค์กรให้ความสำคัญมาก เราขอ การพัฒนาและสร้างเกมเว็บที่ได้รับความนิยม ก่อน: พัฒนาเกมสไตล์การ์ตูนสันทนาการ “Gold Miner” ตั้งแต่เริ่มต้น กลไกหลักของเกมคือตะขอที่แกว่ง ผู้เล่นต้องคาดการณ์จังหวะเวลาให้แม่นยำเพื่อจับวัตถุที่มีน้ำหนักและมูลค่าต่างกัน เพื่อสร้างสมดุลระหว่างความเสี่ยงและผลตอบแทน ฟังก์ชันหลักต้องรวมการอัปเกรด (ความเร็วตะขอ, ระเบิด, ค่าความโชคดี) ร้านค้าด่าน โหมดเกมมีโหมดเรื่องราวที่มีการต่อสู้กับบอส โหมดต่อสู้ โหมดร่วมมือ เกมต้องมีเอฟเฟกต์เสียงและภาพเคลื่อนไหวที่เหมาะสม สุดท้ายนำเสนอในรูปแบบเกมเว็บไซต์โดยตรง และต้องเล่นได้ทันที
เราเห็นว่า หลังจากได้รับความต้องการ เอเจนต์เริ่มสร้างแผนการพัฒนาเกมโดยละเอียดโดยตรง จัดระเบียบงานที่ต้องทำ 8 รายการ และดำเนินการตามลำดับ หลังจากออกแบบเกมเสร็จ เอเจนต์ยังทดสอบและปรับปรุงประสบการณ์การเล่นเกม เพื่อให้แน่ใจว่าสามารถเล่นได้โดยตรง

จากผลิตภัณฑ์เกมสุดท้าย เกม Gold Miner ค่อนข้างใกล้เคียงกับเวอร์ชันคลาสสิกในความทรงจำของเรา

เกมมีความสมบูรณ์ค่อนข้างสูง ตั้งแต่การเล่นเกม ฟังก์ชันหลัก โหมดเกม ไปจนถึงเอฟเฟกต์ภาพเคลื่อนไหวและเสียง ล้วนนำเสนอได้ค่อนข้างดี

เอเจนต์ยังเพิ่มคำอธิบายเนื้อเรื่องข้อความให้กับเกมด้วยตัวเอง ซึ่งเป็นจุดที่ค่อนข้างโดดเด่น สไตล์ภาพของเกมทั้งหมดเรียบง่าย เป็นรูปธรรม การควบคุมค่อนข้างลื่นไหล

ในด้านการออกแบบโครงการเชิงโต้ตอบ ทางการยกตัวอย่างที่ก้าวหน้ายิ่งขึ้น โดยอิงตาม TRAE Doubao 2.0 สามารถพัฒนาโครงการเชิงโต้ตอบเกี่ยวกับงานวัดปีม้าได้โดยตรง ใช้เพียง 1 พรอมต์ก็สามารถสร้างโครงสร้างพื้นฐานและฉากได้ โครงการทั้งหมดเสร็จสมบูรณ์ด้วย 5 พรอมต์เท่านั้น

▲ ในฉาก NPC หลายตัวที่ขับเคลื่อนโดยโมเดลใหญ่จะพูดคุยตามบุคลิกภาพตามธรรมชาติ ยังเรียกลูกค้า และต่อรองราคา นักท่องเที่ยว AI จะเดินเที่ยวงานวัดด้วยตัวเอง ในฉากมีเสียงดอกไม้ไฟควบคุมด้วยเสียง การเขียนคำบนโคมลอย ทั้งหมดสร้างขึ้นโดย AI ทันที และทุกครั้งที่เข้าสู่เมืองจะเห็นการโต้ตอบที่แตกต่างกัน
นอกจากเกมและการออกแบบโครงการเชิงโต้ตอบแล้ว การสร้างเว็บไซต์ตามหัวข้อที่กำหนดให้กับองค์กร ก็เป็นโครงการสำคัญในการประเมินความสามารถในการเขียนโปรแกรมของเอเจนต์ เราเสนอความต้องการต่อไปนี้แก่เอเจนต์: ออกแบบเว็บไซต์อย่างเป็นทางการสำหรับบริษัท AI แห่งหนึ่ง ผสมผสานองค์ประกอบธีมโลก ใช้สีดำ ขาว น้ำเงิน เทา เป็นสีหลัก เพื่อสร้างบรรยากาศที่เท่ ละเอียดอ่อน และเต็มไปด้วยความรู้สึกทางเทคโนโลยี และขอเอฟเฟกต์ภาพเคลื่อนไหวโลกที่สวยงามและน่าตื่นตาตื่นใจเป็นพิเศษ 
จากผลลัพธ์สุดท้ายที่ปรากฏ “เอฟเฟกต์ภาพเคลื่อนไหวโลก” ที่สำคัญที่สุดได้รับการนำไปใช้ได้ค่อนข้างดี แม้ว่าจะยังมีช่องว่างเมื่อเทียบกับเอฟเฟกต์ภาพเคลื่อนไหวที่สร้างด้วยมือโดยนักออกแบบมืออาชีพ แต่ภาพโดยรวมดึงดูดสายตา มีมิติที่สมจริง และโลกสามารถตอบสนองต่อการเคลื่อนไหวของเมาส์ได้ ซึ่งเป็นจุดเด่น 
นอกจากเอฟเฟกต์ภาพเคลื่อนไหวแล้ว องค์ประกอบพื้นฐาน สี และบรรยากาศของเว็บเพจสอดคล้องกับความต้องการ ไม่มีข้อผิดพลาดที่ชัดเจน ฟังก์ชันพื้นฐานของเว็บไซต์ เช่น วิสัยทัศน์ของบริษัท คำขวัญ เทคโนโลยีหลัก การแสดงผลงาน ฯลฯ ก็สมบูรณ์ ใช้งานได้ค่อนข้างสูง โครงสร้างพื้นฐานมีศักยภาพ “นำมาใช้ได้ทันที” 
ในด้านความสามารถโค้ดขั้นสูงกว่า จากการทดสอบใช้งานจริงของทางการ Doubao 2.0
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/22929
