基於大規模非監督預訓練模型之低資源及語碼轉換語音識別技術(1/3)

專案詳細資料

Description

非監督式深度學習是目前國際學術界高度關注的研究主題,它能有效運用未經人工處理的資料,來進行更有效的模型訓練,是目前深度學習中,最具前瞻性的方法。由於非監督式深度學習是相當嶄新的課題,目前基於非監督式深度學習之語音識別相關研究尚在起步階段。本計畫之目的即在研究如何藉由非監督式深度學習,對語碼轉換語音進行辨識處理。在計畫的執行規劃上,主要分成以下三個階段進行: 研發用於預訓練之非監督式聲學模型與訓練技術、研發基於非監督式預訓練之多語言語音辨識模型、研發基於Noisy Student與多語言語音識別之語碼轉換語音識別技術。本計畫在第一年研發用於預訓練之非監督式聲學模型與訓練技術。我們提出了一個融合自回歸預測編碼以及對比預測編碼的訓練目標方法,將自回歸預測編碼所預測的未來結果,作為對比預測編碼對比的未來資訊,希望減少聲學模型對於未來資訊的依賴性,藉此提高模型的強健性。本計畫在第二年研發基於非監督預訓練的多語言語音辨識模型。我們除了搭配第一階段所研發出的非監督預訓練聲學模型,做為預訓練模型使用之外,我們額外對多語言語音識別任務,提出一個基於多任務學習的分離訓練法,學習目標包含了辨識音素的資訊以及Token層級的語言類別辨識,並搭配多語言Phoneme-to-Grapheme 模型,分別依據語言進行音素轉換,獲得各語言的輸出。本計畫在第三年研發基於Noisy Student與多語言語音識別之語碼轉換語音識別技術。我們利用少量的語碼轉換語音識別語料,並基於第二年建立出的多語言之語音識別模型,搭配Noisy Student的訓練方法,以建立我們最終的語碼轉換語音識別模型。除此之外,我們理解在Noisy Student的方法中,語言模型扮演了重要的角色,因此我們額外發展基於自注意力權重的方法,發展大規模語碼轉換之文本自動生成技術,提供語碼轉換語言模型的訓練,來協助Noisy Student的訓練,以提供更良好的識別結果。
狀態已完成
有效的開始/結束日期1/08/2131/07/22

聯合國永續發展目標

聯合國會員國於 2015 年同意 17 項全球永續發展目標 (SDG),以終結貧困、保護地球並確保全體的興盛繁榮。此專案有助於以下永續發展目標:

  • SDG 4 - 品質教育
  • SDG 11 - 永續發展的城市與社群
  • SDG 17 - 為永續目標構建夥伴關係

Keywords

  • 語音辨識

指紋

探索此專案觸及的研究主題。這些標籤是根據基礎獎勵/補助款而產生。共同形成了獨特的指紋。
  • Low-Resource Speech Recognition Based on Transfer Learning

    Tsai, W. H., Thi, P. L., Tai, T. C., Huang, C. L. & Wang, J. C., 2022, Proceedings - 2022 RIVF International Conference on Computing and Communication Technologies, RIVF 2022. Bao, V. N. Q. & Ha, T. M. (編輯). Institute of Electrical and Electronics Engineers Inc., p. 145-149 5 p. (Proceedings - 2022 RIVF International Conference on Computing and Communication Technologies, RIVF 2022).

    研究成果: 書貢獻/報告類型會議論文篇章同行評審

    1 引文 斯高帕斯(Scopus)