
by GAIR-NLP

ตัวนี้คือ LiveTalk โปรเจกต์วิจัยจาก GAIR-NLP ที่สร้าง avatar วิดีโอแบบ real-time ได้เลย โดยรับ input เป็นรูปคน + เสียงพูด + คำอธิบายข้อความ แล้วสร้างวิดีโอออกมาให้ปากขยับตามเสียงได้อย่างลื่นไหล มันทำงานโดยใช้ diffusion model แต่ไม่ใช่แบบช้าๆ ธรรมดา แต่ถูกกลั่นมาให้เร็วขึ้นกว่า 20 เท่า ข้อกำหนดพิเศษคือต้องมี GPU ที่มี VRAM อย่างน้อย 24 GB เช่น RTX 4090 หรือ A800 รันบน Linux และต้องการ RAM 64 GB เพราะงานหนักพอสมควร
จุดเด่นแรกเลยคือความเร็ว มันสร้างวิดีโอได้ 24.82 FPS พร้อมกับ latency ของเฟรมแรกแค่ 0.33 วินาที ซึ่งถือว่าเร็วมากสำหรับงาน video generation ที่ปกติใช้เวลาเป็นนาที จุดเด่นที่สองคือรับ input ได้หลายแบบพร้อมกัน ทั้งรูปภาพ เสียง และข้อความ ทำให้คุมทิศทางของ avatar ได้ยืดหยุ่นมาก จุดเด่นที่สามคือมันลดเวลา inference จาก 83 วินาทีเหลือ real-time ได้จริง ผ่านการใช้ diffusion แค่ 4 step แทนที่จะต้องรอหลายสิบ step แบบเดิม และจุดเด่นที่สี่คือมันสามารถ interact ได้หลายรอบต่อเนื่องโดยยังรักษาความสม่ำเสมอของหน้าตา avatar ได้ดี
ฟีเจอร์เสริมที่น่าสนใจคือการรองรับ multi-turn conversation หมายความว่าคุยกับ avatar ได้เป็นบทสนทนายาวๆ โดยหน้าตาจะไม่เปลี่ยนไประหว่างรอบ มีระบบที่เรียกว่า Anchor-Heavy Identity Sinks หรือ AHIS ที่ช่วยล็อก identity ของ avatar ไว้ตลอด นอกจากนี้ยังเชื่อมต่อกับ audio language model ได้ ทำให้สร้าง AI assistant ที่มีหน้าตาและพูดโต้ตอบได้จริงๆ เหมือนกำลังวิดีโอคอลกับ AI ได้เลย
ในแง่เทคนิคข้างใน มันสร้างบน Wan2.1 ซึ่งเป็น multimodal video diffusion model ขนาด 1.3B parameter แล้วนำมา distill ด้วยเทคนิคที่เรียกว่า on-policy distillation ให้กลายเป็น causal autoregressive model ที่รันทีละ block โดยแต่ละ block มี 3 latent frame ระบบใช้ KV Cache จาก block ก่อนหน้ามาช่วยให้วิดีโอเชื่อมกันได้ต่อเนื่อง และยังรัน diffusion denoising กับ VAE decoding แบบ parallel pipeline ทำให้สร้างเฟรมใหม่ทันขณะที่กำลังเล่นเฟรมเก่าอยู่
เหมาะกับใครบ้างล่ะ? ถ้าคุณเป็นนักพัฒนาที่อยากสร้าง AI chatbot ที่มีหน้าตาพูดคุยได้จริงๆ ตัวนี้ตอบโจทย์มาก ใช้ทำ virtual presenter, AI tutor ที่มีภาพ, หรือ customer service avatar ที่พูดตอบเป็นวิดีโอสดได้ นักวิจัยด้าน talking head synthesis หรือ video generation ก็น่าสนใจเอาไปต่อยอดงานวิจัย นักสร้างคอนเทนต์ที่อยากทำวิดีโอพรีเซนต์จากรูปนิ่งกับเสียงบรรยายก็ใช้ได้ดี และทีม VTuber หรือ live streaming ที่อยากสร้าง avatar พูดตอบสดก็น่าลอง
เทียบกับทางเลือกอื่น LiveTalk โดดเด่นตรงที่มัน real-time จริงๆ ไม่ใช่แค่ fast generation แบบทั่วไป ระบบอื่นอย่าง SadTalker หรือ DiffTalk มักใช้เวลาหลายวินาทีถึงหลายนาทีต่อคลิปสั้นๆ แต่ LiveTalk ทำได้ low latency พอที่จะใช้ interactive ได้จริง README ยังบอกว่าสู้กับ Veo3 และ Sora2 ในเรื่อง multi-round interaction benchmark ได้ ซึ่งถือว่าน่าประทับใจมากสำหรับ model ขนาด 1.3B
ข้อจำกัดที่ควรรู้ก่อนใช้คือ hardware requirement สูงมาก GPU 24 GB VRAM ไม่ใช่ของที่ทุกคนมี และการ setup ก็ซับซ้อน ต้องโคลน 2 repo, patch code, ลง dependency เยอะ และ download checkpoint หลาย model ตอนนี้ inference script ยังไม่รองรับ streaming input/output เต็มรูปแบบ ดังนั้นถ้าจะทำ real-time production ต้องพัฒนาเพิ่มเติมอีก
ถ้าเพื่อนกำลังหา solution สำหรับสร้าง talking avatar หรือ AI ที่พูดเป็นวิดีโอได้แบบ real-time นี่คือตัวที่ดีที่สุดในตอนนี้ในวงการ open source ลองดูได้เลยถ้ามี GPU แรงพอ เริ่มจาก inference script ที่ให้มาก่อน แล้วค่อยดูว่าจะต่อยอดเป็น interactive system ยังไง research paper อยู่บน arXiv 2512.23576 ถ้าอยากเข้าใจ technique ลึกๆ อ่านควบคู่ไปด้วยได้เลย