谷歌發布Tacotron 2:能更簡單地訓練AI學習演講

來源:網絡2017-12-20 14:19:07

       

       北(běi)京時間12月20日午間消息,谷歌目前在人工(gōng)智能語音技術方面處于領先,而這樣的領先優勢很可能得到進一(yī)步鞏固。谷歌周三發布了Tacotron 2。這是一(yī)種訓練神經網絡的新方法,可以在幾乎沒有任何語法專業性的情況下(xià)從文本中(zhōng)生(shēng)成演講。
 
  這項新技術利用了谷歌此前在語音生(shēng)成方面最強大(dà)的兩種技術:WaveNet和第一(yī)代Tacotron。
 
 
  WaveNet每次能生(shēng)成一(yī)段講話(huà)音頻(pín)。盡管效果很好,但WaveNet需要用到大(dà)量關于語言的元數據,包括發音,以及已知(zhī)的語言特征等等。Tacotron則綜合了更多高級特性,例如語調和韻律,但并不能生(shēng)成最終的演講音頻(pín)。
 
  Tacotron 2結合了以上兩者的優勢,或許已經發揮出了當前技術專業性的極限。Tacotron 2使用文本和文字叙述來計算所有語言規則,而不再需要人工(gōng)明确告知(zhī)系統規則。文本本身被轉換爲Tacotron風格的“梅爾頻(pín)譜”,實現節奏和強調。而單詞本身則基于WaveNet風格的系統來生(shēng)成。
 
  由此産生(shēng)的音頻(pín)比以往更好。演講的節奏感很好,但對于不太直觀的單詞,發音可能有問題。這或許是由于,單詞的來源不是美式英語,這樣的單詞包括Decorum和Merlot。研究者表示:“在極端情況下(xià),可能會随機産生(shēng)奇怪的噪聲。”
 
  此外(wài),盡管口音和其他語言細節可以通過與WaveNet的交流而輸入,但仍然沒有任何方式去(qù)控制演講的語調情緒,例如樂觀或擔憂。
 
  降低系統訓練障礙意味着可以訓練更多更好的系統。研究人員(yuán)已經将研究成果提交至IEEE國際聲學語音和信号處理大(dà)會,論文已發表至arXiv。
标簽:谷歌AI人工(gōng)智能