JPWO2022105472A5

JPWO2022105472A5 -

Info

Publication number: JPWO2022105472A5
Application number: JP2021577529A
Authority: JP
Publication date: 2023-08-02
Anticipated expiration: 2041-10-11

Description

一実施態様において、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルＧＭＭ－ＨＭＭ、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルＮＮ－ＨＭＭを含み、このニューラルネットワークモデルは、長短期記憶ネットワークモデルＬＳＴＭを含み、音響特徴は、ＧＭＭ－ＨＭＭから出力されたすべてのＨＭＭ状態での出力確率を含み、あるいは、音響特徴は、ニューラルネットワークモデルがｓｏｆｔｍａｘ層を介して出力したすべてのＨＭＭ状態での正規化確率が接続タイミングモデルＣＴＣ又はビタビアルゴリズムｖｉｔｅｒｂｉを介して出力した事後確率ＰＤＦ付きの発音ユニットシーケンスグリッドとを含む。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。

現在の最も先進的な音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。音響モデルには、最も基本的な言語モデル情報のみが含まれる。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン（ｐｉｐｅｌｉｎｅ）方式の音声認識システムでは、一般的には、音響モデルＡＭ、言語モデルＬＭ、及び、発音モデルＰＭがそれぞれ１つ含まれる。
ここで、音響モデルＡＭは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルＡＭは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率ＰＤＦ付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルＬＭは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルＰＭは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン（ｐｉｐｅｌｉｎｅ）スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルＡＭは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット（ｓｕｂｗｏｒｄｕｎｉｔ）のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルＬＭは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記３つのモデルは、従来の隠れマルコフモデル（ｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌ、ＨＭＭ）やＮ－グラム（Ｎ－Ｇｒａｍ）などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの２つを組み合わせて、モデルが２つ（発音モデルＡＭと言語モデルＬＭ）しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン（ｐｉｐｅｌｉｎｅ）スキームの変更にかかわらず、発音モデルＡＭと言語モデルＬＭとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル（大域的）な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。