JPWO2022185437A5

JPWO2022185437A5 -

Info

Publication number: JPWO2022185437A5
Application number: JP2023503251A
Authority: JP
Filing date: 2021-03-03
Publication date: 2023-11-10

Claims

音声データが入力された場合に、前記音声データが示す音声系列に対応する文字系列の確率である第１確率と、前記音声系列に対応する音素系列の確率である第２確率とを出力するニューラルネットワークを用いて、前記第１確率及び前記第２確率を出力する出力手段と、
登録文字と前記登録文字の音素である登録音素とが関連付けられている辞書データ及び前記第２確率に基づいて、前記第１確率を更新する更新手段と
を備える音声認識装置。
前記更新手段は、前記音素系列に前記登録音素が含まれている場合には、前記第１確率を更新する前と比較して、前記文字系列に前記登録文字が含まれる確率が高くなるように、前記第１確率を更新する
請求項１に記載の音声認識装置。
前記ニューラルネットワークは、
前記音声データが入力された場合に、前記音声系列の特徴量を出力する第１ネットワーク部分と、
前記特徴量が入力された場合に、前記第１確率を出力する第２ネットワーク部分と、
前記特徴量が入力された場合に、前記第２確率を出力する第３ネットワーク部分と
を含む請求項１又は２に記載の音声認識装置。
学習用の第１音声データと、前記第１音声データが示す第１音声系列に対応する第１文字系列の正解ラベルと、前記第１音声系列に対応する第１音素系列の正解ラベルとを含む学習データを取得する取得手段と、
前記学習データを用いて、第２音声データが入力された場合に、前記第２音声データが示す第２音声系列に対応する第２文字系列の確率である第１確率と、前記第２音声系列に対応する第２音素系列の確率である第２確率とを出力するニューラルネットワークのパラメータを学習する学習手段と
を備える学習装置。
前記ニューラルネットワークは、
前記第２音声データが入力された場合に、前記音声系列の特徴量を出力する第１モデルと、
前記特徴量が入力された場合に、前記第１確率を出力する第２モデルと、
前記特徴量が入力された場合に、前記第２確率を出力する第３モデルと
を含み、
前記学習手段は、前記学習データのうちの前記第１音声データと前記第１文字系列の正解ラベルとを用いて、前記第１及び第２モデルのパラメータを学習した後、前記学習データのうちの前記第１音声データと前記第１音素系列の正解ラベルとを用いて、前記第３モデルのパラメータを学習する
請求項４に記載の学習装置。
音声データが入力された場合に、前記音声データが示す音声系列に対応する文字系列の確率である第１確率と、前記音声系列に対応する音素系列の確率である第２確率とを出力するニューラルネットワークを用いて、前記第１確率及び前記第２確率を出力し、
登録文字と前記登録文字の音素である登録音素とが関連付けられている辞書データ及び前記第２確率に基づいて、前記第１確率を更新する
音声認識方法。
学習用の第１音声データと、前記第１音声データが示す第１音声系列に対応する第１文字系列の正解ラベルと、前記第１音声系列に対応する第１音素系列の正解ラベルとを含む学習データを取得し、
前記学習データを用いて、第２音声データが入力された場合に、前記第２音声データが示す第２音声系列に対応する第２文字系列の確率である第１確率と、前記第２音声系列に対応する第２音素系列の確率である第２確率とを出力するニューラルネットワークのパラメータを学習する
学習方法。
コンピュータに、
音声データが入力された場合に、前記音声データが示す音声系列に対応する文字系列の確率である第１確率と、前記音声系列に対応する音素系列の確率である第２確率とを出力するニューラルネットワークを用いて、前記第１確率及び前記第２確率を出力し、
登録文字と前記登録文字の音素である登録音素とが関連付けられている辞書データ及び前記第２確率に基づいて、前記第１確率を更新する
音声認識方法を実行させるコンピュータプログラム。
コンピュータに、
学習用の第１音声データと、前記第１音声データが示す第１音声系列に対応する第１文字系列の正解ラベルと、前記第１音声系列に対応する第１音素系列の正解ラベルとを含む学習データを取得し、
前記学習データを用いて、第２音声データが入力された場合に、前記第２音声データが示す第２音声系列に対応する第２文字系列の確率である第１確率と、前記第２音声系列に対応する第２音素系列の確率である第２確率とを出力するニューラルネットワークのパラメータを学習する
学習方法を実行させるコンピュータプログラム。