กูเกิลพัฒนา “WaveNet” ปัญญาประดิษฐ์สร้างเสียงเลียนแบบมนุษย์

Jung Yeon-Je แห่ง DeepMind (ภาพจาก AFP)

ทีม DeepMind ผู้พัฒนาปัญญาประดิษฐ์สุดอัจฉริยะจากกูเกิล (Google) เจ้าของผลงาน AlphaGo เผยผลงานชิ้นล่าสุด นั่นก็คือ ปัญญาประดิษฐ์ชื่อ “WaveNet” ที่สามารถสร้างเสียงได้ใกล้เคียงกับมนุษย์จริงๆ มากขึ้น แถมยังสามารถสร้างเสียงดนตรีได้อีกด้วย

หากที่ผ่านมา มนุษย์สามารถแยกแยะเสียงในบทสนทนาได้ว่า เสียงใดเป็นเสียงของคนด้วยกัน เสียงใดเป็นเสียงที่หุ่นยนต์สร้างขึ้น แต่ในอนาคตข้างหน้า ด้วยพลังของปัญญาประดิษฐ์ เราอาจไม่ทราบแล้วก็ได้ว่า เสียงจากปลายสายนั้น แท้จริงแล้วเป็นเสียงของคน หรือเสียงที่ถูกสังเคราะห์ขึ้นโดย AI เนื่องจาก AI ตัวใหม่อย่าง WaveNet นั้น สามารถสร้างเสียงพูดได้คล้ายคนจริงๆ เกินกว่า 50 เปอร์เซ็นต์ เมื่อเทียบกับระบบสร้างเสียงจากข้อความที่มีใช้งานอยู่เดิมอย่าง Concatenative กับ Parametric ของกูเกิล (อ้างอิงจาก Wavenet)

ซึ่งระบบ Concatenative นั้น เป็นการสร้างประโยคสนทนาด้วยฐานข้อมูลเสียงพูดขนาดมหึมา ภายในฐานข้อมูลดังกล่าวจะเก็บเสียงพูดในลักษณะของคำสั้นๆ จำนวนมาก (จากผู้พูดคนเดียว) และเมื่อต้องการสร้างประโยค ก็เพียงนำคำเหล่านั้น มาต่อเข้าด้วยกัน แต่ข้อเสียของระบบนี้มีอยู่สองประการ คือ การโมดิฟายด์ทำได้ยาก เพราะแค่เปลี่ยนไปใช้เสียงจากผู้พูดคนอื่น ประโยคที่ได้ก็จะไม่สมูธแล้ว) กับการสร้างประโยคที่ต้องแสดงอารมณ์ทำได้ยาก

จากจุดอ่อนของ Concatenatvie ทางกูเกิล จึงได้พัฒนา Parametric ขึ้นมา ซึ่ง Parametric จะสร้างเสียงจากข้อมูลที่ถูกเก็บไว้ในลักษณะของตัวแปรของโมเดล เมื่อต้องการสร้างเสียงใดๆ ขึ้นมาก็เพียงส่งข้อมูลเข้ามาที่ตัวแปรในโมเดล เพื่อให้โมเดลนั้นๆ สร้างเป็นเสียงที่ต้องการออกมาให้ได้ (เช่น ส่งตัวแปรว่า เป็นเสียงเด็กอายุ 5 ขวบ) แต่ข้อเสียของ Parametric ก็คือ เสียงที่สร้างขึ้นมามีความเป็นธรรมชาติ (ใกล้เคียงเสียงมนุษย์) น้อยกว่าเสียงแบบ Concatenative

นั่นจึงนำไปสู่การพัฒนา WaveNet ซึ่งจะสร้างโมเดลของคลื่นเสียงขึ้นมาโดยตรง โดยใช้ฐานข้อมูลของ Text-to-Speech (TTS) ที่กูเกิล เก็บเอาไว้จำนวนมาก เพื่อให้เสียงที่ได้เป็นธรรมชาติมากขึ้น และสามารถดัดแปลงได้ตามความต้องการ ซึ่งหมายรวมถึงการสร้างเสียงดนตรีด้วย ซึ่งทีมผู้พัฒนาได้ให้ WaveNet ทดลองเลียนเสียงเปียโน และมันก็สามารถทำได้

ผู้ที่สนใจสามารถคลิกลิงก์ เพื่อเข้าไปยังหน้าเพจของ WaveNet และสามารถคลิกฟังเสียงที่ AI สร้างขึ้นได้ โดยมีให้เลือกฟังถึงสามแบบสามสไตล์เลยทีเดียว (Concatenative, Parametric และ WaveNet)

คะแนนที่ได้เปรียบเทียบกันระหว่างเสียงที่สร้างโดย Concatenative, Parametric และ WaveNet
คะแนนที่ได้เปรียบเทียบกันระหว่างเสียงที่สร้างโดย Concatenative, Parametric และ WaveNet

ที่มา: http://www.manager.co.th/CyberBiz/ViewNews.aspx?NewsID=9590000091513