การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

AI กำลังเปลี่ยนแปลงรูปแบบการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์อย่างเงียบๆ และการดำเนินการในชีวิตประจำวันครั้งต่อไปที่อาจถูกพลิกโฉมอย่างสิ้นเชิงก็คือพฤติกรรม “การป้อนข้อมูล” ที่เราทำซ้ำหลายร้อยครั้งต่อวัน

การป้อนข้อมูลด้วยเสียงไม่ใช่เรื่องใหม่ ตั้งแต่ Siri, Google Assistant ในยุคแรกๆ ไปจนถึงกระแสการแปลงเสียงเป็นข้อความที่เครื่องมืออย่าง Whisper, Otter.ai สร้างขึ้นในต่างประเทศในช่วงไม่กี่ปีที่ผ่านมา สาขานี้ได้รับการพิสูจน์ซ้ำแล้วซ้ำเล่า และความต้องการของผู้ใช้ก็มีอยู่จริง

อย่างไรก็ตาม ข้อร้องเรียนจากผู้ใช้ก็ไม่เคยขาดสาย ผลลัพธ์การรู้จำเต็มไปด้วยสำนวนภาษาพูด คำอุทานอย่าง “อืม อ่า เอ่อ อันนี้ อันนั้น…” การหยุดชั่วคราว และการพูดผิดพลาดล้วนถูกเก็บไว้ เมื่อพูดเสร็จก็ต้องมาแก้ไขด้วยตนเองอีกครั้ง วนเวียนอยู่อย่างนั้น ประสิทธิภาพไม่ได้เพิ่มขึ้นจริงๆ

นอกจากนี้ เครื่องมือหลายอย่างยังขาดการเชื่อมต่อกับสถานการณ์การทำงานจริง งานหลักๆ ทำบนคอมพิวเตอร์ แต่เครื่องมือเสียงกลับติดอยู่แค่ในโทรศัพท์มือถือ

เมื่อเร็วๆ นี้ Qianwen เวอร์ชันคอมพิวเตอร์ได้เปิดตัววิธีการป้อนข้อมูลด้วยเสียงแบบใหม่ ผู้ใช้เพียงแค่พูดกับหน้าจอ ระบบจะสามารถระบุแอปพลิเคชันปัจจุบันและเนื้อหาบนหน้าจอโดยอัตโนมัติ เข้าใจเจตนาของการแสดงออก กรองคำอุทานและคำพูดผิดพลาด และส่งออกข้อความที่มีโครงสร้างและใช้งานได้โดยตรง

ความสามารถด้านเสียงนี้ยังผสานรวมอย่างลึกซึ้งกับเครื่องมือเพิ่มประสิทธิภาพการทำงานของ Qianwen เวอร์ชันคอมพิวเตอร์อีกด้วย คำสั่งเสียงสามารถเรียกใช้ AI โดยตรงเพื่อช่วยตอบอีเมล เรียบเรียงข้อความ สร้างพรีเซนเทชัน จัดการตาราง ฯลฯ

ตรรกะการโต้ตอบนั้นเรียบง่ายมาก เพียงจำการทำงานสองอย่าง กดปุ่ม Alt ขวาค้างไว้ (ผู้ใช้ Mac กด Command ขวาค้างไว้) ในอินเทอร์เฟซใดก็ได้ เมื่อปล่อย เสียงจะถูกแปลงเป็นข้อความโดยอัตโนมัติ โดยไม่ต้องติดตั้งปลั๊กอินเพิ่มเติมหรือสลับแอปพลิเคชัน

หากต้องการสั่งการให้ AI ทำงานโดยตรง ให้ดับเบิลคลิกที่ปุ่มลัดเดียวกัน ค้นหาข้อมูล ตอบข้อความ สร้างเอกสาร ทำพรีเซนเทชัน หลังจากเลือกเนื้อหาแล้วดับเบิลคลิก Qianwen จะสามารถทำงานให้เสร็จสมบูรณ์ตามเนื้อหาบนหน้าจอปัจจุบันได้ทันที

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

อาจกล่าวได้ว่า ที่นี่ การป้อนข้อมูลด้วยเสียงไม่เพียงแต่เป็นวิธีการป้อนข้อมูลที่มาแทนที่คีย์บอร์ดเท่านั้น แต่ยังเป็นสวิตช์ที่กระตุ้นเวิร์กโฟลว์ทั้งหมดอีกด้วย

ปัจจุบัน ฟังก์ชันนี้ได้เปิดตัวอย่างเป็นทางการแล้ว ผู้ใช้สามารถดาวน์โหลด Qianwen เวอร์ชันคอมพิวเตอร์หรือเข้าใช้งานเวอร์ชันเว็บเพื่อสัมผัสประสบการณ์ได้โดยตรง ฟังก์ชันนี้ฟรีและไม่มีอุปสรรคใดๆ

ต่อไป เราจะนำเสนอการทดสอบจริง เพื่อดูว่าเราสามารถค้นพบวิธีการเพิ่มประสิทธิภาพอะไรได้บ้าง

  • เว็บไซต์ Qianwen: https://www.qianwen.com/
  • ไคลเอนต์ Qianwen: https://www.qianwen.com/download?ch=tongyi_redirect

การป้อนข้อมูลด้วยเสียงอัจฉริยะ: “ปากแทน” ที่ดีที่สุดสำหรับมนุษย์เงินเดือน

มาสัมผัสประสบการณ์การป้อนข้อมูลด้วยเสียงอัจฉริยะกันก่อน

วางเคอร์เซอร์ป้อนข้อมูลในช่องแชทของ DingTalk กดปุ่ม Alt ขวาค้างไว้ (ผู้ใช้ Mac กด Command ขวาค้างไว้) แล้วพูดเนื้อหาที่เป็นภาษาพูดล้วนๆ กับคอมพิวเตอร์ โดยไม่หยุดหรือเรียบเรียง เหมือนกับการพูดคุยกับเพื่อนแบบสบายๆ:

“คือว่า โปรเจกต์นี้เนี่ย เราว่านะ อืม ต้องจัดตารางเวลาก่อน แล้วก็ อันนั้น… ใช่ ต้องยืนยันแผนกับลูกค้าก่อนวันพฤหัส แล้วก็ฝ่ายเนื้อหาก็ต้องเร่งด้วย ไม่งั้นอาจจะไม่ทัน”

Qianwen กรองคำอุทานทั้งหมดออก เรื่องสามเรื่องที่เดิมกระจัดกระจายถูกจัดเรียงเป็นสามประโยคที่ชัดเจน ความหมายยังคงสมบูรณ์ แต่ข้อความอยู่ในสถานะที่สามารถส่งได้ทันที

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

เมื่อก่อนต้องใช้เวลาครุ่นคิดนานในการเขียน prompt ตอนนี้สามารถพูดตามที่คิดได้ทันที

ตัวอย่างเช่น พูด prompt ที่ซับซ้อนด้วยภาษาพูด:

“ฉันจะเขียนแผนการตลาดสำหรับการเปิดตัววิธีการป้อนข้อมูลด้วยเสียงของ Qianwen เวอร์ชันคอมพิวเตอร์ ช่วยฉันจัดเรียงหน่อย ก่อนอื่นพูดถึงฟังก์ชันและคุณค่าของผลิตภัณฑ์ อธิบายว่ามันรวมกับ AI ของ Qianwen เพื่อเพิ่มประสิทธิภาพการทำงานในสำนักงานและความสามารถในการจัดระเบียบเนื้อหาได้อย่างไร จากนั้นวิเคราะห์กลุ่มเป้าหมายและตำแหน่งทางการตลาด เช่น พนักงานออฟฟิศ ผู้สร้างเนื้อหา นักเรียน จุดเจ็บปวดและความต้องการของพวกเขา เปรียบเทียบกับคู่แข่งว่ามีข้อดีอะไรบ้าง จากนั้นช่วยออกแบบกลยุทธ์การตลาด รวมถึงการโปรโมทออนไลน์และออฟไลน์ โซเชียลมีเดีย วิดีโอสั้น ความร่วมมือกับ KOL เป็นต้น จากนั้นช่วยวางแผนงบประมาณและ KPI สำหรับแต่ละช่องทางและกิจกรรม เช่น งบประมาณ จำนวนดาวน์โหลด อัตราการแปลง การเข้าถึง เป็นต้น และวิเคราะห์ความเสี่ยงและการรับมือ เช่น การรับรู้ของผู้ใช้ไม่เพียงพอ ต้นทุนการศึกษาแพง อิทธิพลของคู่แข่ง สุดท้ายช่วยวิเคราะห์เชิงลึกและยกระดับมุมมอง พูดถึงแนวโน้มของการป้อนข้อมูลด้วยเสียง AI ในด้านประสิทธิภาพการทำงาน การจัดการความรู้ การสร้างเนื้อหา การพัฒนาและแนวโน้มของวิธีการป้อนข้อมูลในและต่างประเทศ รวมถึงผลกระทบระยะยาวต่อระบบนิเวศสำนักงานดิจิทัลและพฤติกรรมผู้ใช้”

Qianwen สามารถแยกแยะและจัดระเบียบความต้องการได้อย่างชัดเจน โดยอัตโนมัติจะแยกประเด็นตามกรอบและส่งออก โครงสร้างชัดเจน

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

ในด้านความแม่นยำในการรู้จำ การรู้จำภาษาจีนด้วยความเร็วปกติแทบไม่มีคำผิด การพูดผสมจีน-อังกฤษก็สามารถรู้จำได้อย่างราบรื่น ตัวอย่างเช่น เราป้อนข้อมูลด้วยเสียง:

“พี่หวัง ขอถามอะไรหน่อยสิ พรุ่งนี้ประชุมเรากี่โมงคะ? บ่ายฉันมี Deadline ขอเลื่อนออกไปหน่อยได้ไหม? โอ๊ย ชั้นล่างเปิดร้านขายซุปแกะใหม่ อร่อยดีนะ เที่ยงเราไปกินข้าวด้วยกันไหม?”

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

ลองอีกครั้งกับ prompt ที่มีศัพท์เทคนิคภาษาอังกฤษจำนวนมาก คำเดิมคือ:

“ประวัติการสนทนายาวเกินไปทำให้ Context Window แตก ฉันอยากเปลี่ยน ConversationBufferMemory เป็น ConversationSummaryMemory ช่วยยกตัวอย่างโค้ดที่ใช้ LLM สรุปประวัติข้อความอัตโนมัติให้หน่อย”

ผลลัพธ์การรู้จำของ Qianwen ยังคงแม่นยำมาก การพูดผสมจีน-อังกฤษไม่มีข้อผิดพลาดใดๆ

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

คำสั่งเสียงอัจฉริยะ: ไม่ต้องพิมพ์ พูดก็ทำงานได้

ดับเบิลคลิก Alt ขวา (ผู้ใช้ Mac ดับเบิลคลิก Command ขวา) จะเข้าสู่อีกโหมดหนึ่ง นั่นคือ คำสั่งเสียง AI ผู้ใช้พูดอะไร Qianwen ก็จะทำสิ่งนั้น สามารถเรียกใช้ Qianwen ได้จากซอฟต์แวร์ใดๆ หรือตำแหน่งใดๆ บนเดสก์ท็อป

ตัวอย่างเช่น ดับเบิลคลิกเรียกใช้บนหน้าเมล แล้วพูดว่า:

“ช่วยเขียนอีเมลบอกลูกค้าว่าแผนเลื่อนออกไปสองวัน ส่งได้วันศุกร์ ขอให้สุภาพหน่อย”

Qianwen ฟังคำสั่งแล้วสามารถรับรู้บริบท ระบุผู้รับ และส่งออกอีเมลที่สมบูรณ์พร้อมคำขึ้นต้นและลงท้ายตามรูปแบบอีเมล น้ำเสียงสุภาพและไม่ยืดเยื้อ

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

ถ้ารู้สึกว่าสุภาพเกินไป ให้พูดอีกครั้งว่า “เปลี่ยนน้ำเสียงอีเมลให้สบายๆ หน่อย” Qianwen จะสร้างใหม่ทันที ถ้อยคำเหมาะสม ไม่ต้องแก้ไขด้วยตนเอง

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

นอกจากนี้ ยังมีความสามารถในการรับรู้สถานการณ์ คำสั่งเสียงเดียวกัน “ช่วยตอบกลับหน่อย บอกว่าฉันไปได้” ในช่องแชทของ DingTalk จะส่งออก: “รับทราบค่ะ! ฉันจะไปถึงห้องประชุมตรงเวลานะคะ~เจอกันนะคะ!” ยังคงความรู้สึกเป็นภาษาพูดของการสื่อสารทันที และลงท้ายด้วยอิโมจิอย่างเป็นธรรมชาติ

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

เมื่อสลับไปที่อินเทอร์เฟซเมลแล้วพูดเนื้อหาเดิมอีกครั้ง ข้อความจะเปลี่ยนเป็น “รับทราบ ฉันจะเข้าร่วมตรงเวลา” น้ำเสียงจะเปลี่ยนเป็นสำนวนธุรกิจที่เป็นทางการทันที

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

คำสั่งเดียวกัน มันสามารถแสดงสไตล์การแสดงออกที่แตกต่างกันโดยสิ้นเชิงตามสถานการณ์ที่แตกต่างกัน

คำสั่งเสียงอัจฉริยะของ Qianwen ยังสามารถใช้จดบันทึกได้อีกด้วย เรียกใช้ด้วยการดับเบิลคลิกเมื่อใดก็ได้ คำเดิมคือ:

“ฉันคิดว่าเขียนหัวข้อสนุกๆ สักหัวข้อดีกว่า วิจารณ์สถานการณ์การเขียนวิทยานิพนธ์ของนักศึกษามหาวิทยาลัยยุคปัจจุบัน: หลายคนใช้ AI สร้างร่างแรกก่อน แล้วใช้ AI ขยายความและเรียบเรียง สุดท้ายก็ใช้ AI ตรวจสอบอัตราการซ้ำซ้อน ผลสุดท้ายวิทยานิพนธ์ทั้งเล่มแทบจะดำเนินการโดย AI ทั้งหมด ส่วนที่ทำเองน้อยลงเรื่อยๆ ช่วยบันทึกไอเดียนี้ และให้แนวทางขยายความสักสองสามแนวทาง เช่น จริยธรรมทางวิชาการ: การใช้ AI เขียนและขยายความในทางที่ผิดส่งผลต่อความคิดริเริ่มและจรรยาบรรณทางวิชาการหรือไม่ วงจรอุบาทว์ทางเทคโนโลยี: ตรรกะที่ไร้สาระและปรากฏการณ์ ‘ขัดแย้งในตัวเอง’ ของการสร้างวิทยานิพนธ์ด้วย AI แล้วตรวจสอบด้วย AI ความสามารถในการเขียนถดถอย: การพึ่งพา AI มากเกินไปทำให้ทักษะการเขียนพื้นฐานของนักศึกษาลดลงหรือไม่ การรับมือของระบบการศึกษา: โรงเรียนและครูจะรับมือกับความท้าทายในการสอนและปัญหาการประเมินผลที่เกิดจากการเขียนด้วย AI อย่างไร”

Qianwen เวอร์ชันคอมพิวเตอร์สามารถระบุ บันทึก และให้ช่องทางเข้าดูได้โดยอัตโนมัติ

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

ต่อไป เรามาลองสถานการณ์ขั้นสูงอีกสองสามสถานการณ์

ตัวอย่างเช่น การเชื่อมโยงคำสั่งเสียงกับฟังก์ชัน PPT ในตัวของ Qianwen

PPT ของ Qianwen เพิ่มโหมดมืออาชีพ ขับเคลื่อนด้วยความสามารถในการเขียนโปรแกรมของโมเดล AI ขนาดใหญ่รุ่นล่าสุดของ Qwen สามารถสร้างหน้าและเนื้อหา PPT ที่มีโครงสร้างซับซ้อนได้แบบไดนามิก เนื้อหามีความลึกซึ้ง การจัดวางเป็นมืออาชีพ

เราเลือกความต้องการ一段ใน DingTalk ดับเบิลคลิกปุ่มลัด แล้วพูดว่า: “ช่วยจัดระเบียบความต้องการนี้เป็นรายการสิ่งที่ต้องทำ แล้วทำเป็น PPT รายงาน”

Qianwen จะจัดระเบียบตรรกะ สกัดประเด็นสำคัญ และสร้าง PPT ที่มีโครงสร้างสมบูรณ์โดยอัตโนมัติตามเนื้อหาที่เลือก ไม่ต้องคัดลอกและวาง สลับหน้าต่าง หรือจัดวางด้วยตนเอง หลังจากสร้างแล้วยังสามารถแก้ไขต่อได้ โดยปรับบน PPT เดิมโดยตรง ไม่ต้องเริ่มใหม่

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

ผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

นอกจากนี้ ยังรองรับการประมวลผลหลายไฟล์ ลากไฟล์ Word, PDF หลายสิบไฟล์เข้าไปใน Qianwen ดับเบิลคลิกปุ่มลัดแล้วสั่งการ AI สามารถอ่านเนื้อหาโดยอัตโนมัติ สกัดข้อมูลสำคัญ สร้างแผนภูมิการแสดงข้อมูล และส่งออกเอกสารที่สามารถนำไปรายงานบนเวทีได้ รองรับไฟล์ 39 รูปแบบ สามารถประมวลผลเป็นชุดได้ครั้งเดียว

การจับคู่คำสั่งเสียงกับ Excel ก็เป็นสถานการณ์ที่มีความต้องการสูงเช่นกัน

เรายังคงดับเบิลคลิกปุ่มลัดเพื่อสั่งการ คำเดิมคือ:

จัดระเบียบรายการเฉพาะของนโยบายสิทธิประโยชน์ทางภาษีมูลค่าเพิ่มที่เกี่ยวข้องใน “ประกาศกระทรวงการคลังและสำนักงานคณะกรรมการสรรพากร ฉบับที่ 10 ปี 2026” เป็นรายการ Excel หนึ่งชุด รวมถึงวิธีการลดหย่อน เนื้อหานโยบาย และระยะเวลาดำเนินการ

Qianwen รวบรวมข้อมูลนโยบายที่เกี่ยวข้องโดยอัตโนมัติ และสร้างไฟล์ Excel รายการสิทธิประโยชน์ทางภาษีมูลค่าเพิ่ม กระบวนการทั้งหมดเสร็จสมบูรณ์ผ่านการดำเนินการแบบโต้ตอบด้วยการสนทนา

การปฏิวัติการป้อนข้อมูลด้วยเสียง: Qianwen เวอร์ชันคอมพิวเตอร์ช่วยให้คุณพูดแล้วได้ข้อความที่มีโครงสร้างทันที เพิ่มประสิทธิภาพเป็นเท่าตัว

การสาธิตผลลัพธ์ของวิธีการป้อนข้อมูลด้วยเสียงของ Qianwen

ในกระบวนการทั้งหมด เราเพียงแค่ต้องแสดงความต้องการอย่างชัดเจน ส่วนการดำเนินการจะมอบหมายให้ Qianwen จัดการทั้งหมด สำหรับผู้ใช้ที่ต้องดูแลตารางข้อมูลต่างๆ เป็นประจำ แต่ไม่ชำนาญในการใช้ Excel วิธีการโต้ตอบนี้แทบไม่มีอุปสรรค

บทสรุป

สิ่งที่สนับสนุนทั้งหมดนี้คือความสามารถพื้นฐานด้านเสียงที่ Qianwen Large Model สั่งสมมาหลายปี รวมถึงการฝึกอบรมข้อมูลวิดีโอและเสียงหลายร้อยล้านชั่วโมงและการตอบสนองแบบเรียลไทม์แบบ end-to-end ฐานเทคโนโลยีที่แข็งแกร่งนี้ รอคอยสถานการณ์การใช้งานที่เพียงพอในชีวิตประจำวันและมีความถี่สูงอยู่แล้ว

สิ่งที่ทำให้วิธีการป้อนข้อมูลด้วยเสียงของ Qianwen เวอร์ชันคอมพิวเตอร์สมควรได้รับการพูดถึงเป็นพิเศษคือการนิยามใหม่ของ “การป้อนข้อมูลด้วยเสียง” วิธีการป้อนข้อมูลด้วยเสียงทั่วไปทำได้แค่การเขียนตามคำบอกเท่านั้น เราพูด มันถอดความ ถอดเสร็จก็จบ แต่ Qianwen ทำความเข้าใจ โดยยกระดับการถอดเสียงเป็นข้อความครั้งเดียว เป็นห่วงโซ่อัจฉริยะที่สมบูรณ์ของการรู้จำ ความเข้าใจ การเขียนใหม่ และการจัดวาง

ห่วงโซ่นี้เป็นสายการผลิต AI ที่ออกแบบมาเพื่อการป้อนข้อมูลด้วยเสียงโดยเฉพาะ: โหมด ASR ที่ปรับแต่งของ Qwen รับผิดชอบการรู้จำที่มีความแม่นยำสูง LLM ซีรีส์ล่าสุดของ Qwen รับผิดชอบความเข้าใจเชิงลึกและการปรับโครงสร้างการแสดงออก มันฟังสิ่งที่เราพูด ดูว่ามีอะไรบนหน้าจอ ตัดสินว่าเรากำลังใช้ซอฟต์แวร์อะไรอยู่ แล้วจึงตัดสินใจว่าจะส่งออกอะไร สิ่งที่มันแก้ไขได้จริงๆ คือการเปลี่ยนความคิดทางวาจาเป็นข้อความคุณภาพสูงที่สามารถนำไปใช้ได้โดยตรงอย่างรวดเร็ว

ในขณะเดียวกัน มันยังลดขั้นตอนการใช้ AI ลงอย่างมาก พูดค้างไว้ ดับเบิลคลิกเพื่อสั่งการ ความสามารถของ AI จะถูกฝังลงในซอฟต์แวร์ที่เรากำลังใช้อยู่โดยตรง ไม่มีจุดขาดตอนระหว่างการป้อนข้อมูลและการดำเนินการ และสมาธิจะไม่ถูกขัดจังหวะเนื่องจากการสลับหน้าต่าง

เบื้องหลังนี้คือแนวโน้มที่ใหญ่กว่าที่กำลังเป็นรูปเป็นร่าง Apple อัปเกรด Siri เป็นผู้ช่วย AI อย่างเต็มรูปแบบ OpenAI ผลักดันความสามารถในการสนทนาด้วยเสียงของ ChatGPT อย่างต่อเนื่อง Gemini ของ Google ก็เสริมสร้างการโต้ตอบแบบมัลติโมดัล… เสียงกำลังเปลี่ยนจากส่วนเสริมของคีย์บอร์ดมาเป็นจุดเชื่อมต่อที่เป็นธรรมชาติที่สุดในยุค AI เพราะ Large Model สามารถเข้าใจภาษามนุษย์และเข้าใจบริบทได้จริงๆ การพิมพ์กลับกลายเป็นขั้นตอนกลางที่เกินจำเป็น

แต่ในฝั่งคอมพิวเตอร์ การเปลี่ยนแปลงนี้เพิ่งเริ่มต้น การป้อนข้อมูลด้วยเสียงบนเดสก์ท็อปยังคง停留在ระดับเครื่องมือถอดความมาเป็นเวลานาน และไม่สามารถรวมเข้ากับความสามารถของ AI ได้อย่างแท้จริง วิธีการป้อนข้อมูลด้วยเสียงของ Qianwen เวอร์ชันคอมพิวเตอร์ได้ทำการทดลองครั้งหนึ่งพอดี

ความฉลาดของโมเดลกำหนดขีดจำกัดบนของผลิตภัณฑ์ ผู้ใช้สามารถส่งเจตนาไปยัง AI ด้วยวิธีที่เป็นธรรมชาติที่สุดหรือไม่ กำหนดว่าผลิตภัณฑ์จะสามารถผสานเข้ากับชีวิตประจำวันได้อย่างแท้จริงหรือไม่

การป้อนข้อมูลด้วยเสียง กำลังกลายเป็นจุดเชื่อมต่อถัดไปของการโต้ตอบกับ AI


⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง

☕ สนับสนุนค่ากาแฟทีมงาน

หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay

PromptPay QR
SCAN TO PAY WITH ANY BANK

本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/33600

Like (0)
Previous 4 days ago
Next 4 days ago

相关推荐