
“80% ของแอปมือถือจะถูกแทนที่!”
เมื่อเร็วๆ นี้ Peter Steinberger ผู้ก่อตั้งโครงการยอดนิยม OpenClaw (เดิมชื่อ Clawdbot) ได้แบ่งปันมุมมองใหม่ในการสัมภาษณ์พอดแคสต์
เขาเปิดเผยว่าได้ขยายขอบเขตการใช้งานของ OpenClaw ไปสู่กิจกรรมประจำวัน เช่น การตรวจสอบความคืบหน้าของการจัดส่งอาหาร หรือการปรับอุณหภูมิเตียงอัจฉริยะ วิธีการหลักในการขยายความสามารถนี้คือการย้อนวิเคราะห์ API ของบริการบุคคลที่สาม
Peter ทำนายว่าในอนาคต 80% ของแอปพลิเคชันมือถืออาจถูกแทนที่ด้วยแอปพลิเคชัน AI เช่น OpenClaw
ฉันรู้สึกว่ามีแอปพลิเคชันทั้งชั้นหนึ่งที่จะค่อยๆ หายไป ตราบใดที่พวกมันมี API โดยพื้นฐานแล้วพวกมันก็เป็นเพียงบริการ และบริการเหล่านั้นจะกลายเป็นสิ่งที่ AI ของคุณทำ
“ปีนี้ หลายคนจะเริ่มสำรวจเรื่องนี้อย่างจริงจัง เพื่อให้ได้ผู้ช่วย AI ของตัวเองจากบริษัทใหญ่ๆ”
“ทำไมต้องคลิกแอปเล็กๆ ที่ปิดกั้นมากมาย? ผู้ช่วยนี้มีความสามารถมากมาย เพียงแค่เชื่อมต่อมันก็สามารถทำทุกอย่างได้”
นอกจากนี้ Peter ยังย้ำข้อสรุปหลายประการที่ขัดแย้งกับมุมมองหลักในอุตสาหกรรม:
หนึ่ง: ไม่เชื่อในการประสานงานงานที่ซับซ้อน และไม่คิดว่าการพึ่งพาเอกสารข้อกำหนดแบบ Ralph จะสร้างผลิตภัณฑ์ที่มีประโยชน์จริงๆ ได้
สอง: ความสามารถในการทำงานระยะยาวเป็นเพียงตัวชี้วัดเพื่อความภูมิใจของ Agent ซึ่งมีคุณค่าจริงจำกัด
สาม: ไม่มองโลกในแง่ดีกับ MCP (Model Context Protocol) และคิดว่าสถานการณ์ MCP ส่วนใหญ่ควรใช้ Command Line Interface (CLI) แทน
สี่: ในด้านการจัดการบริบท นอกเหนือจากไฟล์ Markdown แล้ว โมเดลชุด GPT-5 ของ OpenAI เองก็มีความสามารถในการจดจำที่ยาวเพียงพอแล้ว
ห้า: ภาษาโปรแกรมเองไม่ใช่สิ่งสำคัญอีกต่อไป สิ่งสำคัญคือความคิดเชิงวิศวกรรม
เขายังแสดงขั้นตอนการติดตั้ง OpenClaw ซึ่งสามารถทำได้ด้วยคำสั่ง command line ง่ายๆ เพียงบรรทัดเดียว
เกี่ยวกับวิธีการเพิ่มฟังก์ชันใหม่ให้กับ Clawdbot Peter เปิดเผยว่าวิธีการนั้นง่ายมาก: แค่ส่งภาพหน้าจอแชทจาก Discord ให้มัน แล้วให้มันให้ตัวเลือกและอภิปรายกัน
ต่อไปนี้คือข้อความบางส่วนจากการสนทนาเกี่ยวกับ ผู้ช่วยส่วนตัว AI รูปร่างที่แท้จริงของ Agent และวิธีที่ “พลังพิเศษ” ของวิศวกรรมถูกนิยามใหม่
Clawdbot คืออะไรกันแน่?
ChatGPT ที่ปลดล็อกเต็มรูปแบบ
พิธีกร:
สวัสดีทุกคน วันนี้แขกของเราคือ Peter ผู้สร้าง Claude – ผู้ช่วย AI ที่คุณสามารถพูดคุยโดยตรงในแอปแชทต่างๆ และช่วยให้คุณทำงานเสร็จ วันนี้ Peter จะแสดงให้เราเห็นวิธีใช้ Claude และเขายังมีมุมมองที่แหลมคมมากมายเกี่ยวกับการเขียนโปรแกรม AI ซึ่งฉันรอคอยมาก ยินดีต้อนรับคุณ Peter อีกคน
Peter:
ขอบคุณสำหรับคำเชิญ ยินดีที่ได้พบคุณ
พิธีกร:
เริ่มจาก Clawdbot กันก่อน ในภาพรวม มันกำลังทำอะไรอยู่?
Peter:
ฉันเล่าพื้นหลังก่อนได้ หลังจากที่ฉัน “เกษียณ” และกลับมา ฉันต้องการวิธีที่จะดูว่าเครื่องคอมพิวเตอร์ของฉันกำลังทำอะไรอยู่ผ่านมือถือได้ตลอดเวลา ตอนนั้นฉันกระโดดเข้าสู่กระแส agent อย่างเต็มตัว คุณก็รู้ว่า agent อาจทำงานครึ่งชั่วโมง หรือหยุดหลังจากสองนาทีเพื่อถามคุณคำถาม คุณกลับมาดูแล้วมันน่ารำคาญมาก
ตอนแรกฉันไม่ได้ทำสิ่งนี้ เพราะฉันคิดว่าห้องปฏิบัติการโมเดลใหญ่จะทำมันในที่สุด สิ่งนี้ชัดเจนมาก เกือบจะเป็นรูปแบบใหม่ของระบบปฏิบัติการ แต่มันก็ไม่เกิดขึ้น เมื่อถึงเดือนพฤศจิกายนมันก็ยังไม่เกิดขึ้น ฉันก็คิดว่า งั้นฉันลองทำอะไรเล็กๆ น้อยๆ เองดีกว่า
“สิ่งเล็กๆ น้อยๆ” นั้นคือการเชื่อมต่อ WhatsApp กับ Claude Code คุณส่งข้อความ WhatsApp หนึ่งข้อความ มันจะเปิดไฟล์ไบนารีในเครื่อง พร้อมกับ prompt เรียกใช้งาน แล้วส่งผลลัพธ์กลับมาให้คุณ ดั้งเดิมมาก เขียนเสร็จในหนึ่งชั่วโมง แต่มันเริ่ม “มีชีวิต” ขึ้นมาเอง
ตอนนี้โปรเจกต์นี้มีโค้ดประมาณ 300,000 บรรทัด รองรับแพลตฟอร์มข้อความหลักเกือบทั้งหมด และยังขยายตัวต่อ ฉันคิดว่านี่น่าจะเป็นทิศทางในอนาคต: ทุกคนจะมี AI ที่ทรงพลังมากตลอดชีวิตของเขา ปรากฏว่า ตราบใดที่คุณให้ AI เข้าถึงคอมพิวเตอร์ของคุณ มันสามารถทำอะไรได้เกือบทุกอย่าง
และมันมาถึงจุดที่คุณไม่ต้องจับตาดูมันแบบ “พี่เลี้ยง” คุณให้คำสั่งบางอย่าง มันทำเอง แล้วคุณค่อยมาตรวจสอบผลลัพธ์
สำหรับฉัน โปรเจกต์นี้เป็นทั้งเทคโนโลยีและการสำรวจ เพราะมันอยู่ในหมวดหมู่ใหม่ ฉันจำได้ว่าครั้งหนึ่งฉันไปโมร็อกโกเพื่อฉลองวันเกิดเพื่อน ฉันพบว่าตัวเองใช้มันตลอด: ถามเส้นทาง หาข้อมูลร้านอาหาร เช้าวันหนึ่ง มีคนทวีตเกี่ยวกับ bug มาหาฉัน ฉันก็ถ่ายภาพหน้าจอส่งไปที่ WhatsApp มันอ่านภาพ เข้าใจปัญหา หาตำแหน่งที่เก็บข้อมูลของฉัน แก้ไข bug ส่งโค้ด แล้วตอบกลับไปใน Twitter โดยตรงว่ามันแก้ไขแล้ว ตอนนั้นฉันรู้สึกจริงๆ ว่า มันสุดยอดมาก
อีกครั้งหนึ่ง ฉันเดินอยู่ข้างนอก สัญญาณอินเทอร์เน็ตไม่ดี ฉันก็ส่งข้อความเสียงให้มัน แต่จริงๆ แล้วฉันไม่ได้ทำการรองรับเสียงให้มันเลย ฉันเห็นมันแสดงว่า “กำลังพิมพ์…” ฉันคิดว่ามันกำลังทำอะไร ปรากฏว่ามันตอบกลับฉันราวกับว่าไม่มีอะไรเกิดขึ้น ฉันงงไปเลย: ฉันไม่ได้ทำฟังก์ชันเสียงเลย
ต่อมาฉันไปดูบันทึก มันบอกว่า: ฉันเห็นว่านี่เป็นไฟล์ แต่ไม่มีนามสกุลไฟล์ ฉันวิเคราะห์ header พบว่าเป็นรูปแบบเสียงบางชนิด ฉันพบ ffmpeg ในคอมพิวเตอร์ของคุณ แปลงมันเป็น wav; จากนั้นฉันหา visper.cpp ไม่พบ แต่พบคีย์ OpenAI ดังนั้นฉันใช้ curl เรียก API ของ OpenAI ได้ผลการถอดเสียง แล้วตอบกลับคุณ
ตอนนั้นฉันประหลาดใจจริงๆ ระบบเหล่านี้มีความสามารถในการ “บูรณาการทรัพยากร” สูงมาก แม้กระทั่งน่ากลัวนิดหน่อย แต่ก็เป็นช่วงเวลานั้นที่ฉันตระหนัก: นี่สนุกกว่าการใช้ ChatGPT บนเว็บมาก นี่คือ ChatGPT ที่ปลดล็อกเต็มรูปแบบ
หลายคนคิดว่า Claude Code แบบนี้เหมาะสำหรับการเขียนโปรแกรมเท่านั้น ที่จริงแล้วมันมีประโยชน์มากสำหรับปัญหาทุกประเภท

พิธีกร:
ประเด็นสำคัญคือ คุณต้องให้เครื่องมือ ให้สิทธิ์การเข้าถึงมัน เมื่อคุณทำเช่นนั้น มันจะทรงพลังมาก
วิธีลับขยายกองทัพ: ย้อนวิเคราะห์ API ของผู้อื่น
Peter:
ในช่วงหลายเดือนที่ผ่านมา ฉันยังสร้าง “กองทัพ CLI” ให้ตัวเองด้วย สิ่งหนึ่งที่ Agent ทำได้ดีที่สุดคือการเรียกใช้ command line ฉันเขียน CLI สำหรับบริการต่างๆ ของ Google รวมถึง Places API; ฉันเขียนเครื่องมือค้นหา meme และ gif เพื่อให้มันสามารถตอบกลับด้วยสติกเกอร์; ฉันยังทำการทดลองแปลกๆ เช่น ทำเครื่องมือ “การแสดงภาพเสียง” เพราะฉันอยากให้มัน “สัมผัสดนตรี” ส่วนนี้เป็นการสำรวจเชิงศิลปะมากขึ้น
ฉันยังย้อนวิเคราะห์อินเทอร์เฟซของแพลตฟอร์มส่งอาหารท้องถิ่น เพื่อให้มันบอกฉันได้ว่าอาหารจะมาถึงอีกนานเท่าไหร่; ฉันยังย้อนวิเคราะห์ API ของ Eight Sleep (หมายเหตุ: ฮาร์ดแวร์การนอนหลับอัจฉริยะ) ตอนนี้มันสามารถควบคุมอุณหภูมิเตียงของฉันได้โดยตรง
ภาษาไม่สำคัญแล้ว สิ่งสำคัญคือความคิดเชิงวิศวกรรม
พิธีกร:
แล้วสิ่งเหล่านี้ คุณให้ AI เขียนช่วยคุณเองใช่ไหม?
Peter:
น่าสนใจทีเดียว ฉันเคยทำงานที่บริษัทเก่า ฉันเก่งมากใน iOS และ macOS ฉันทำงานในระบบนิเวศ Apple ทั้งหมดมา 20 ปี ถือว่าเป็นระดับผู้เชี่ยวชาญ แต่หลังจากกลับมา ฉันรู้สึกเบื่อกับข้อจำกัดต่างๆ ของ Apple ทันใดนั้น และสิ่งนี้จริงๆ แล้วเหมาะที่จะทำเป็นแอปพลิเคชันเว็บ ทำงานในเบราว์เซอร์ ใครๆ ก็ใช้ได้
ปัญหาคือ วิศวกรหลายคนประสบกับความเจ็บปวดนี้: คุณเก่งในสาขาหนึ่ง แต่เมื่อเปลี่ยนสแต็กเทคโนโลยี คุณจะรู้สึกทรมานมาก คุณเข้าใจแนวคิดทั้งหมด แต่ต้องค้นหา “prop คืออะไร” “จะ split อาร์เรย์อย่างไร” อยู่ตลอดเวลา รู้สึกเหมือนคนโง่

ฉันรู้สึกแบบนี้เมื่อเปลี่ยนจาก Objective-C และ Swift เป็น JavaScript, TypeScript ไม่ใช่เรื่องยาก แต่เป็นความเจ็บปวด จังหวะของคุณถูกรบกวน ช้ามาก
แต่ด้วย AI ความเจ็บปวดนี้หายไปเกือบจะในทันที คุณยังคงคิดในระดับระบบ: โครงสร้างจะสร้างอย่างไร จะเลือกการพึ่งพาอย่างไร รสนิยมโดยรวมจะรักษาอย่างไร สิ่งเหล่านี้ยังคงสำคัญ และสามารถย้ายจากสาขาหนึ่งไปยังอีกสาขาหนึ่งได้อย่างราบรื่น
ความรู้สึกนั้นเหมือนพลังพิเศษ ทันใดนั้น ฉันรู้สึกว่าตัวเองทำอะไรได้ทุกอย่าง ภาษาไม่สำคัญแล้ว สิ่งสำคัญคือความคิดเชิงวิศวกรรม ส่วนเรื่องวงเล็บเขียนถูกหรือไม่นั้น ไม่คุ้มค่าที่จะใช้พลังงานอีกต่อไปแล้ว

พิธีกร:
แล้วมันทำงานอย่างไรกันแน่? ต้องมีพื้นฐานทางเทคนิคหรือไม่?
Peter:
ใช่ คุณแค่ติดตั้งแล้วให้มันทำงาน อืม… ใช่ และไม่ใช่
ในแง่หนึ่งโชคดี อีกแง่หนึ่งโชคร้าย โปรเจกต์นี้ดึงดูดคนที่ไม่ค่อยเข้าใจเทคโนโลยีมากนัก เพราะ OpenClaw ได้ดึงชั้นที่ทำให้สิ่งต่างๆ ซับซ้อนออกไปหมดแล้ว หากคุณใช้ cloud code คุณกำลังทำงานในเทอร์มินัล คุณต้องพิจารณาพื้นที่บริบท กำลังอยู่ในโฟลเดอร์ใด ฟังดูแล้ว “เทคนิค” มาก
แต่ประสบการณ์ของมัน更像กับการแชทกับเพื่อนบน iMessage, WhatsApp หรือ Telegram – ซึ่งเป็นวิธีสื่อสารประจำวันของคุณ ตอนนี้ คุณแค่มีเพื่อนใหม่ที่อาศัยอยู่ในคอมพิวเตอร์ แปลกๆ นิดหน่อยแต่ฉลาดและมีทรัพยากรมากมาย นี่ทำให้เทคโนโลยีทั้งหมด “เข้าถึงได้” มาก คุณไม่ต้องกังวลว่า “ควรเลือกโมเดลไหน” มันใช้งานได้ทันที
นี่คือแนวคิดหลักของเรา แน่นอนว่านี่เป็นดาบสองคม: ยิ่งมีความสามารถมาก ความเสี่ยงก็ยิ่งมาก ปัจจุบันปัญหานี้ยังไม่ได้รับการแก้ไขอย่างสมบูรณ์ – เพราะมันสามารถเข้าถึงระบบคอมพิวเตอร์ทั้งหมดของคุณได้
ใช่ หากคุณให้มันทำสิ่งเลวร้าย เช่น “ลบไฟล์ทั้งหมดในโฮมไดเรกทอรีของฉัน” มันมีแนวโน้มที่จะถามก่อนว่า “คุณแน่ใจหรือไม่?” แต่หากคุณคลิก “ใช่” ต่อไปเรื่อยๆ มันมีแนวโน้มที่จะทำตาม แม้กระทั่งลบตัวเอง แล้วก็ล่ม
ดังนั้น คุณต้องระมัดระวัง
พิธีกร:
ต้องระวังจริงๆ
Peter:
ฉันจะแชร์หน้าจอของฉัน มันเขียนด้วย TypeScript ดังนั้นสามารถทำงานบนแพลตฟอร์มหลักทั้งหมดได้ รวมถึง Windows คุณเพียงแค่เข้าไปที่เว็บไซต์ clogbot ของเรา มีคำสั่งหนึ่งบรรทัด อาจดูน่ากลัวนิดหน่อย แต่โค้ดทั้งหมดเป็นโอเพนซอร์ส คุณสามารถตรวจสอบทุกอย่างได้ รวมถึงเว็บไซต์เอง นี่เป็นวิธีติดตั้งที่ง่ายที่สุด รองรับ macOS, Linux และ Windows
เปิดเทอร์มินัล มันจะเริ่มติดตั้ง สำหรับผู้ใช้ที่คุ้นเคยกับระบบนิเวศนี้ ก็สามารถติดตั้งผ่าน npm ได้
ฉันทำสิ่งที่พบไม่บ่อยในหลายโปรเจกต์: เรามีวิธีการติดตั้งสองวิธีพร้อมกัน วิธีหนึ่งคือการติดตั้งแบบ “คลิกเดียว” ที่ง่าย อีกวิธีคือโหมดที่ใช้มือมากขึ้น คุณสามารถโคลน Git repository และเริ่มต้นจากซอร์สโค้ดได้โดยตรง พูดตามตรง วิธีหลังคือวิธีที่สนุกที่สุด เพราะหากเอเจนต์อัจฉริยะของคุณสามารถอ่านซอร์สโค้ดของ “เฟรมเวิร์ก” ตัวเองได้ มันสามารถกำหนดค่าใหม่ โปรแกรมใหม่ตัวเอง แล้วรีสตาร์ทได้ – ผลลัพธ์อาจล่มทันที หรือได้รับความสามารถใหม่ทั้งหมด

ฉันคิดว่านี่เป็น “พลังพิเศษ” ของฉัน: ทำให้คนที่ไม่เคยส่ง Pull Request มาก่อนมีส่วนร่วม ส่ง PR มาให้ฉัน แน่นอน บางครั้งก็ดูออก (หัวเราะ)
แต่ตอนนี้ ฉันมอง Pull Request มากขึ้นในฐานะ “คำขอพรอมต์”: คุณเพียงแค่ต้องเข้าใจความตั้งใจ ที่เหลือก็สามารถดำเนินการต่อได้

พิธีกร:
หลังจากติดตั้งเสร็จ เช่น จะเชื่อมต่อกับแอปพลิเคชันข้อความบางตัวได้อย่างไร?
Peter:
ในปัจจุบันวิธีที่ดีที่สุดคือการรันคำสั่งนั้นหนึ่งบรรทัด หลังจากนั้น มันจะทักทายคุณด้วยน้ำเสียงที่ “ท้าทาย” นิดหน่อย และพยายามกำหนดค่าทุกอย่างโดยอัตโนมัติ

หลังการติดตั้งเสร็จ มันจะแนะนำคุณผ่านขั้นตอนการตั้งค่า คุณสามารถเชื่อมต่อกับแอปพลิเคชันข้อความทั่วไปใดๆ ก็ได้
พิธีกร:
โอเค ดูดี มันกำลังทำงานแล้ว
Peter:
ใช่ จากนั้นคุณสามารถพิมพ์ plbot ได้โดยตรง หากเป็นการติดตั้งใหม่ มันจะทำขั้นตอนเหล่านี้โดยอัตโนมัติ; สำหรับฉันต้องพิมพ์ onboard ด้วยตนเอง
จากนั้นคุณสามารถเลือกโมเดลได้ อืม รอสักครู่…
ผู้ให้บริการทั้งหมดอยู่ที่นี่ เช่น เราเลือก Anthropic อาจเลือกโมเดลใหม่ จากนั้นคุณสามารถตั้งค่า Telegram, Discord ที่เหลือมันจะแนะนำคุณ คุณยังสามารถตั้งค่าตัวเชื่อมต่อทักษะได้
พิธีกร:
ต้องให้คีย์ API ของ Anthropic ของคุณหรือไม่?
Peter:
มันรองรับโมเดลใดๆ ก็ได้ ในอุตสาหกรรมปัจจุบัน Anthropic และ OpenAI ยังคงนำอยู่
มันรองรับทั้งคีย์ API และการสมัครสมาชิก แม้ว่า… เราเพิ่มการรองรับการสมัครสมาชิกจริงๆ เพราะทุกคนทำกัน แต่ฉันรู้สึกว่า Anthropic ตอนนี้ไม่ค่อยชอบวิธีนี้แล้ว ดังนั้นฉันแนะนำให้ใช้คีย์ API หรือเปลี่ยนโมเดลไปเลย
ปัญหาหลักคือ: โมเดลของ OpenAI ใช้งานได้ไม่มีปัญหา แต่ไม่ “น่าสนใจ” มากพอ โมเดล Opus มีบางสิ่งพิเศษเกี่ยวกับมัน ทำให้ใช้งานได้สนุกจริงๆ

พิธีกร:
เหมือน “บุคลิกภาพ” บางอย่าง?
Peter:
ใช่ ไม่รู้ว่าคุณอ่านบทความนั้นหรือยัง เกี่ยวกับวิธีที่พวกเขา “ฉีดจิตวิญญาณให้โมเดล” ต่อมามีคนป้อนข้อความให้มันต่อเนื่อง ให้มันเขียนต่อ ผลลัพธ์คือค่อยๆ บีบเอาข้อความ “จิตวิญญาณ” ที่โมเดลไม่รู้ด้วยซ้ำว่ามีอยู่ระหว่างการฝึกออกมาได้
⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/th/archives/23055
