
by runablehq

ตัวนี้คือ mini-browser มันเป็นเว็บบราวเซอร์แบบคอมมานด์ไลน์ที่ออกแบบมาให้พวก AI Agent ใช้งานโดยเฉพาะเลย การทำงานของมันจะเน้นความเป็น Unix tool เล็กๆ คืออ่านค่าจาก arguments ทำงาน แล้วส่งผลลัพธ์ออกทาง stdout ทำให้เราสามารถเอาคำสั่งต่างๆ มาต่อกันด้วย pipe หรือเครื่องหมาย && ได้อย่างเนียนตา ข้อกำหนดพิเศษคือต้องรัน Google Chrome ควบคู่ไปด้วยโดยเปิดพอร์ตสำหรับ remote debugging ทิ้งไว้ ซึ่งเขามีสคริปต์ช่วยจัดการเรื่องนี้ให้พร้อมสร้างโปรไฟล์ใหม่ทุกครั้งเพื่อกันปัญหาการตั้งค่าเพี้ยน นอกจากการใช้งานผ่าน AI แล้วเรายังสามารถติดตั้งมันเป็นเครื่องมือในเครื่องตัวเองแบบ global CLI เพื่อเรียกใช้งานได้ง่ายๆ อีกด้วย
ความสามารถหลักๆ ของมันคือการควบคุมเบราว์เซอร์ผ่านคำสั่งสั้นๆ เริ่มตั้งแต่การเปิดเว็บด้วยคำสั่ง go ที่มันจะฉลาดพอที่จะรอจนกว่าเครือข่ายจะนิ่งก่อนถึงจะขยับไปทำคำสั่งต่อไป ต่อมาคือกลุ่มคำสั่งสำหรับสังเกตการณ์หน้าเว็บอย่างการถ่ายรูปหน้าจอหรือดึงข้อความมาดูได้อย่างง่ายดาย คำสั่งที่เจ๋งมากๆ คือ snap ที่จะช่วยดึงโครงสร้าง Accessibility Tree ออกมาเป็นพิกัดให้รู้ว่าปุ่มหรือช่องกรอกข้อมูลอยู่ตรงไหนบ้าง และสุดท้ายคืองานโต้ตอบที่เราสามารถสั่งคลิก พิมพ์ข้อความ หรือลากเมาส์ไปมาตามพิกัดได้อย่างแม่นยำ ซึ่งคำสั่งพิมพ์ข้อความยังฉลาดพอที่จะไฮไลต์ข้อความเดิมก่อนพิมพ์ทับให้โดยอัตโนมัติด้วย
ส่วนฟีเจอร์เสริมที่น่าสนใจก็มีเยอะเลยทีเดียว มันสามารถบันทึกวิดีโอหน้าจอระหว่างการทำงานเป็นไฟล์ mp4, webm หรือ gif ได้ด้วยโดยทำงานอยู่เบื้องหลังพร้อมให้เราตั้งค่าเฟรมเรตได้ แถมยังสามารถรันคำสั่ง JavaScript ลงไปในหน้าเว็บตรงๆ เพื่อดึงข้อมูลแปลกๆ หรือจัดการโครงสร้างเว็บได้ตามใจชอบโดยส่งผ่าน stdin ได้เลย มีคำสั่งสำหรับรอเหตุการณ์ต่างๆ ไม่ว่าจะเป็นรอตามเวลา รอให้ element ปรากฏ หรือรอจนกว่าเครือข่ายจะหยุดทำงาน และยังมีระบบตรวจสุขภาพหน้าเว็บที่ช่วยดึงข้อมูลสี ฟอนต์ ความเปรียบต่าง ไปจนถึงข้อมูล SEO ออกมาให้ดูครบจบในคำสั่งเดียว
ในเรื่องของวิธีการทำงานภายใน มันใช้หลักการเชื่อมต่อกับ Chrome ผ่านโปรโตคอล Chrome DevTools Protocol เพื่อควบคุมเบราว์เซอร์โดยตรงโดยไม่ต้องพึ่งพาไลบรารีครอบทับที่หนักหน่วง สถาปัตยกรรมถูกออกแบบมาให้เป็น CLI แยกชิ้นกันชัดเจน ทำให้มันสามารถจัดการแท็บต่างๆ ด้วยการใช้ ID เฉพาะของแต่ละแท็บที่มาจาก Chrome เองได้ การบันทึกวิดีโอก็ใช้ระบบ daemon แยกไปทำงานเบื้องหลังโดยดึงข้อมูลผ่าน screencast API ของ Chrome ทำให้การทำงานหลักไม่สะดุด และยังรองรับการดึงผลลัพธ์ออกมาเป็นรูปแบบ JSON เพื่อให้โปรแกรมอื่นนำไปประมวลผลต่อได้ง่ายๆ
เครื่องมือตัวนี้เหมาะมากๆ สำหรับนักพัฒนาที่กำลังสร้าง AI Agent และต้องการให้ AI สามารถท่องเว็บและมีปฏิสัมพันธ์กับหน้าเว็บได้เหมือนคนจริงๆ ในชีวิตจริงเราสามารถเอามันไปใช้สร้างบอทสำหรับดึงข้อมูลจากเว็บไซต์ที่ซับซ้อน หรือใช้ทำระบบทดสอบ UI อัตโนมัติที่สั่งการผ่าน shell script ง่ายๆ ลองจินตนาการถึงบอทที่คอยเข้าไปล็อกอินระบบหลังบ้าน แคปเจอร์หน้าจอรายงาน แล้วส่งอีเมลให้เราทุกเช้าดูสิ หรือ AI ที่สามารถอ่านหน้าเว็บช้อปปิ้งเพื่อเปรียบเทียบราคาสินค้าได้เองโดยไม่ต้องเขียนโค้ดยาวๆ ทั้งหมดนี้สามารถทำได้ง่ายขึ้นเยอะเมื่อมีเครื่องมือที่ออกแบบมาให้คุยกับ shell script ได้ดีขนาดนี้
ข้อดีที่ทำให้มันโดดเด่นกว่าเครื่องมือใหญ่ๆ อย่าง Puppeteer หรือ Playwright คือความเรียบง่ายและแนวคิดแบบ Unix philosophy ที่ทำทีละอย่างแต่ทำให้ดีที่สุด เราไม่ต้องเขียนโค้ด Node.js ยาวๆ หรือวุ่นวายกับการตั้งค่า เพื่อแค่จะเปิดเว็บแล้วถ่ายรูปแต่สามารถพิมพ์คำสั่งบรรทัดเดียวในเทอร์มินัลแล้วจบเลย การที่มันคืนค่าต่างๆ ออกมาทางมาตรฐาน stdout ทำให้มันทำงานร่วมกับเครื่องมือพื้นฐานอย่าง grep หรือ jq ได้ทันที ซึ่งเป็นจุดแข็งที่ทำให้มันเอาไปเสียบเข้ากับระบบอัตโนมัติหรือ AI framework ตัวไหนก็ได้โดยไม่ต้องเสียเวลาปรับจูนอะไรมากมาย
แต่แน่นอนว่ามันก็มีข้อจำกัดที่ควรต้องรู้ก่อนใช้เหมือนกัน อย่างแรกคือเรื่องของเลเยอร์ที่ทับกันบนหน้าเว็บอย่างพวกแบนเนอร์คุกกี้ ถ้ามันบังปุ่มที่เราต้องการอยู่คำสั่งคลิกก็จะไม่ทะลุลงไป เราจึงต้องสั่งปิดมันด้วย JavaScript ซะก่อน ข้อควรระวังอีกอย่างคือการอ้างอิงตำแหน่งด้วยพิกัดก็อาจจะเพี้ยนได้ถ้าหน้าจอมีการขยับหรือเว็บเปลี่ยนเลย์เอาต์ตามขนาดหน้าจอ ดังนั้นเราอาจจะต้องใช้การตรวจสอบตำแหน่งเป็นระยะๆ เพื่อให้คลิกได้แม่นยำที่สุด
สรุปเลยก็คือควรหยิบมันมาใช้ตอนที่คุณอยากได้เครื่องมือคุมเบราว์เซอร์ที่เบาๆ สั่งงานง่ายผ่านคอมมานด์ไลน์ หรือเวลาที่กำลังทำโปรเจกต์ AI แล้วต้องการสกิลท่องเว็บที่พร้อมใช้แบบไม่ต้องเซ็ตอัปอะไรให้วุ่นวาย ถ้าใครกำลังมองหาวิธีทำให้ shell script ของตัวเองฉลาดขึ้นหรืออยากลองเล่นกับการทำ automation แบบดิบๆ แต่ได้ผลลัพธ์ที่ทรงพลัง ผมแนะนำให้ลองโหลดมาเล่นดูครับ รับรองว่าจะติดใจในความสะดวกและนำไปประยุกต์ใช้กับงานของคุณได้อย่างสนุกแน่นอน