Google พัฒนา AI อ่านริมฝีปากคนได้แม่นยำและรวดเร็วกว่ามืออาชีพเกือบ 4 เท่า

120
Google AI

ล่าสุดทีมวิจัย DeepMind พร้อมด้วยมหาวิทยาลัยอ็อกซ์ฟอร์ดได้ใช้ AI ตัวนี้สร้างซอฟต์แวร์สำหรับอ่านริมฝีปากคนที่แม่นยำที่สุดเท่าที่เคยมีมา โดยให้  Ai เรียนรู้จากบันทึกเทปรายการทีวีต่างๆ ของ BBC ความยาวรวมกันหลายพันชั่วโมง และจากการทดสอบล่าสุด Ai สามารถอ่านริมฝีปากได้ถูกต้องแม่นยำถึง 46.8% แม้ดูเผินๆ จะเป็นตัวเลขที่ไม่มากนัก แต่จากการทดสอบแบบเดียวกัน นักอ่านริมฝีปากมืออาชีพอ่านได้ถูกต้องเพียง 12.4% เท่านั้น ทำให้ AI ตัวนี้อ่านริมฝีปากได้แม่นยำและเร็วกว่าผู้เชี่ยวชาญที่เป็นมนุษย์เกือบ 4 เท่า

Google AI

ก่อนหน้านี้นักวิจัยจากมหาวิทยาลัยอ็อกซ์ฟอร์ดได้พัฒนาซอฟต์แวร์อ่านริมฝีปากมาก่อนแล้วโดยใช้ชื่อว่า LipNet ซึ่งจากการทดสอบในห้องแลบเบื้องต้น LipNet มีความแม่นยำสูงถึง 93.4% ในขณะที่มนุษย์ทำได้เพียง 52.3% แต่วิดีโอที่นำมาใช้ทดสอบเป็นวิดีโอที่บันทึกมาเป็นพิเศษ โดยมีอาสาสมัครพูดเป็นประโยคตามที่กำหนดไว้แล้วเท่านั้น แต่ DeepMind ต้องเผชิญกับบททดสอบที่ยากยิ่งกว่า นั่นคือการให้ถอดสคริปต์รายการทอล์คโชว์แนวการเมืองของ BBC ที่เป็นบทสนทนาตามธรรมชาติและไม่ได้เตรียมการมาก่อน

Google AI

วิดีโอความยาวกว่า 5,000 ชั่วโมงจากรายการทีวีได้แก่ Newslight, Question Time และ World Today ได้นำมาใช้ฝึกฝน DeepMind วิดีโอทั้งหมดนี้ประกอบไปด้วยประโยคที่ไม่ซ้ำกัน 118,000 ประโยคและคำศัพท์เฉพาะที่ไม่ได้ใช้ในชีวิตประจำวันอีก 17,500 คำ เมื่อเทียบกับวิดีโอที่ใช้ทดสอบ LipNet ที่มีศัพท์เฉพาะแค่ 51 คำแล้วนับว่าบททดสอบที่ DeepMind ต้องใช้ทดสอบนั้น ถือว่ามหาโหดสุดๆ

Google AI

ทีมวิจัย DeepMind กล่าวว่าตัวโปรแกรมอาจนำไปฝังอยู่ในแอปพลิเคชันต่างๆ ได้ โดยอาจนำไปใช้ช่วยเหลือผู้บกพร่องทางการได้ยินให้สามารถเข้าใจการสนทนา ใช้สร้างคำบรรยายใต้หนังเงียบ หรือใช้สั่งการ AI Assistant อย่าง Siri ผ่านกล้องได้ ซึ่งจะเป็นประโยชน์เมื่อเราต้องการพูดคุยกับ  AI Assistant ในที่ที่มีเสียงรบกวนอีกด้วย

ขณะนี้ DeepMind สามารถอ่านริมฝีปากจากคลิปวิดีโอที่คมชัดและมีความละเอียดสูงได้แม่นยำกว่าการอ่านจากวิดีโอคุณภาพต่ำ ซึ่งอีกไม่นาน จะต้องพัฒนาแล้วลบข้อด้อยในส่วนนี้ได้อย่างแน่นอน

ขอขอบคุณข้อมูลจาก : The Verge, techmoblog