JPWO2019065263A1

JPWO2019065263A1 - 発音誤り検出装置、発音誤り検出方法、プログラム

Info

Publication number: JPWO2019065263A1
Application number: JP2019544561A
Authority: JP
Inventors: 哲小橋川; 亮増村; 歩相名神山; 勇祐井島; 裕司青野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-09-26
Filing date: 2018-09-13
Publication date: 2020-11-05
Anticipated expiration: 2038-09-13
Also published as: WO2019065263A1; US11568761B2; JP6840858B2; US20200219413A1

Abstract

正解文が必須でなく、読み間違い等の誤認識が発生した場合にも追従が可能な発音誤り検出装置を提供する。非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果とその信頼度とその時間情報とを出力する音声認識部と、予め設定された閾値より信頼度が高い音声認識結果および対応する時間情報を、判定後音声認識結果および判定後時間情報として出力する信頼度判定部と、判定後時間情報で指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する発音誤り検出部を含む。

Description

本発明は、発音誤り検出装置、発音誤り検出方法、プログラムに関する。

語学学習における発音評価に関する従来技術として例えば非特許文献１がある。非特許文献１のＧＯＰスコア算出装置９は、音声言語データ記憶部９１ａと、音素タイプライタ記憶部９１ｂと、英語音響モデル記憶部９１ｃと、音素アライメント生成部９１と、ＧＯＰスコア算出部９２を含む。音素アライメント生成部９１は、音声言語データ（音声データとテキストデータからなる）、音素タイプライタ、英語音響モデルに基づいて音素アライメントを生成する（Ｓ９１）。ＧＯＰスコア算出部９２は、生成した音素アライメントに基づいてＧＯＰスコアを算出する（Ｓ９２）。

楽俊偉、塩沢文野、外山翔平、畑アンナマリア知寿江、山内豊、伊藤佳世子、齋藤大輔、峯松信明、「シャドーイング音声に対するDNNを用いたGOPスコアと手動スコアへの近接性」、日本音響学会講演論文集、2-P-31、2017年3月

非特許文献１のＧＯＰスコア算出装置９は、ＧＯＰスコア算出に際し、学習対象の正解文が必須である。よって学習者は既知の文章を読み上げる事になるため、実際の対象言語を使う場面での学習効果が出ない。また、読み間違い、読み誤りに対応できない。

そこで本発明では、正解文が必須でなく、読み間違い等の誤認識が発生した場合にも追従が可能な発音誤り検出装置を提供することを目的とする。

本発明の発音誤り検出装置は、第１認識モデル記憶部と、音声認識部と、信頼度判定部と、第２認識モデル記憶部と、発音誤り検出部を含む。

第１認識モデル記憶部は、非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルを記憶する。音声認識部は、非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力する。信頼度判定部は、予め設定された閾値より信頼度が高い音声認識結果および対応する時間情報を、判定後音声認識結果および判定後時間情報として出力する。第２認識モデル記憶部は、母国語話者のデータを利用して学習された母国語話者音響モデルと、言語モデルよりも文法制約の少ない低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを記憶する。発音誤り検出部は、判定後時間情報で指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する。

本発明の発音誤り検出装置によれば、正解文が必須でなく、読み間違い等の誤認識が発生した場合にも追従が可能である。

非特許文献１のＧＯＰスコア算出装置の構成を示すブロック図。実施例１の発音誤り検出装置の構成を示すブロック図。実施例１の発音誤り検出装置の動作を示すフローチャート。実施例２の発音誤り検出装置の構成を示すブロック図。実施例２の発音誤り検出装置の動作を示すフローチャート。実施例３の発音誤り検出装置の構成を示すブロック図。実施例３の発音誤り検出装置の動作を示すフローチャート。実施例４の発音誤り検出装置の構成を示すブロック図。実施例４の発音誤り検出装置の動作を示すフローチャート。実施例５の発音誤り検出装置の構成を示すブロック図。実施例５の発音誤り検出装置の動作を示すフローチャート。実施例６の発音誤り検出装置の構成を示すブロック図。実施例６の発音誤り検出装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、非母国語話者の音響モデルにより音声認識を行い、高い信頼度の音声認識結果のみを発音誤り指摘対象とした実施例１の発音誤り検出装置の構成、および動作を図２、図３を参照して説明する。

図２に示すように本実施例の発音誤り検出装置１は、非母国語話者データベース１１ａと、モデル作成部１１と、第１認識モデル記憶部１２ａと、音声認識部１２と、閾値記憶部１３ａと、信頼度判定部１３と、第２認識モデル記憶部１４ａと、発音誤り検出部１４を含む。以下、各構成要件について説明する。

＜非母国語話者データベース１１ａ＞
非母国語話者データベース１１ａは、非母国語話者による音声データと対応する書き起こしテキスト（正解テキスト）の組を大量に記憶している。

＜モデル作成部１１＞
モデル作成部１１は、非母国語話者音声データベース１１ａを参照し、非母国語話者のデータ（非母国語話者による音声データと対応する書き起こしテキスト）を利用して学習を行い、非母国語話者音声認識モデルを作成する（Ｓ１１）。なお、非母国語話者音声認識モデルは、音声−テキスト対から学習した非母国語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母国語話者音声データベース１１ａから音声認識モデルを学習してもよいし、ネイティブ話者による音声認識モデルを入力とし、ネイティブ話者による音声認識モデルをチューニングすることにより、非母国語話者音声認識モデルを作成してもよい。

非母国語話者音声認識モデルは、オンラインで作成する必要はなく、予め作成しておいても良い。

＜第１認識モデル記憶部１２ａ＞
第１認識モデル記憶部１２ａは、上述の非母国語話者音声認識モデルを記憶する。

＜音声認識部１２＞
音声認識部１２は、非母国語話者音声認識モデルに基づいて、非母国語話者の音声データｘの音声認識を行い、音声認識結果ｈと、その信頼度ｃと、その時間情報ｔとを出力する（Ｓ１２）。例えば単語事後確率を信頼度ｃとしてもよい。下表に音声認識結果ｈと信頼度ｃと時間情報ｔの具体例を示す。

＜閾値記憶部１３ａ＞
閾値記憶部１３ａは、後述の信頼度判定部１３の動作において用いられる閾値ｔｈを予め記憶する。

＜信頼度判定部１３＞
信頼度判定部１３は、予め設定された閾値ｔｈより信頼度ｃが高い音声認識結果ｈおよび対応する時間情報ｔを、判定後音声認識結果ｈ＿ｓおよび判定後時間情報ｔ＿ｓとして出力する（Ｓ１３）。別の表現では、信頼度判定部１３は、音声認識結果ｈに対して、信頼度ｃが閾値ｔｈよりも大きい（高い）単語を判定後音声認識結果ｈ＿ｓとして出力し、当該判定後音声認識結果ｈ＿ｓと対応する判定後時間情報ｔ＿ｓを出力する。例えば、閾値ｔｈは、０．９等と設定する。下表にｔｈ＝０．９とした場合の判定後音声認識結果ｈ＿ｓ、判定後時間情報ｔ＿ｓの具体例を示す。

＜第２認識モデル記憶部１４ａ＞
第２認識モデル記憶部１４ａは、母国語話者のデータを利用して学習された母国語話者音響モデルと、上述した言語モデルよりも文法制約の少ない文法（例えば、全ての音素のループを許す音素タイプライタ等）である低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを記憶する。

なお、低制約文法言語モデルは予め用意した音素タイプライタでなくても良く、音声認識結果の音素系列から別途、生成するものでも良い。例えば，ｒｉｃｅ（発音記号：ｒａｉｓ）という音声認識結果が出た場合に，（ｒ／ｌ）ａｉｓといった文法を生成する。

＜発音誤り検出部１４＞
発音誤り検出部１４は、判定後時間情報ｔ＿ｓで指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度ｃｐ＿ｌが、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度ｃｐ＿ｈよりも大きくなる場合に、当該音素を発音誤りｅとして出力する（Ｓ１４）。なお、音素については、音声認識結果から取得できるものとする。例えば、音声認識結果テキストには、「ｒｉｃｅ：ｒ＿ａ＿ｉ＿ｓ」というように音素系列も含まれるため、音声認識後に用意に音素を取得できる。

別の表現では、発音誤り検出部１４は、判定後時間情報ｔ＿ｓで指定される区間の音声データについて、低制約文法で母国語話者音響モデルを用いて音声認識を行う。発音誤り検出部１４は、判定後音声認識結果ｈ＿ｓに含まれる音素系列を正解音素系列とする制約下において、母国語話者音響モデルを用いて音声認識したスコア（信頼度ｃｐ＿ｈ、例えば音素事後確率）よりも、低制約文法で母国語話者音響モデルを用いて音声認識したスコア（信頼度ｃｐ＿ｌ）の方が高いスコアとなった場合、該当する音素を発音誤りｅとして出力する（Ｓ１４）。低制約文法に対応するスコア（信頼度ｃｐ＿ｌ）が正解音素系列に対応するスコア（信頼度ｃｐ＿ｈ）より高くなる音素が無かった場合、発音誤りを「なし」とする。低制約文法に対応する音声認識、正解音素系列に基づく音声認識の双方に対して母国語話者音響モデルを用いることで、母国語話者らしさに基づく判定基準による発音誤り検出を実行することができる。以下に、低制約文法に対応するスコア（信頼度ｃｐ＿ｌ）と正解音素系列に対応するスコア（信頼度ｃｐ＿ｈ）の具体例を示す。下表の例では、低制約文法に対応するスコア（信頼度ｃｐ＿ｌ）が正解音素系列に対応するスコア（信頼度ｃｐ＿ｈ）より高くなるため、当該音素については、発音誤りｅとして出力される。

この時、一つの文あるいは単語の中で複数の音素が発音誤りとして検出された場合は、正解音素と発音誤り音素のスコア（信頼度、例えば音素事後確率）差が最も大きいものを発音誤り検出結果として選定してもよい。また、スコア差を発音誤り検出結果とともに出力してもよい。

上記の音素タイプライタは、母国語が日本語のように音節を単位とする言語の場合には、音節タイプライタとしてもよい。

また、母国語話者音響モデルは、母国語話者音声を含むデータから学習されたモデルであればよい。例えば、母国語話者音声、非母国語話者音声の双方を含むデータから学習した母国語・非母国語話者混合モデルであってもよい。この場合、誤りを指摘する感度が弱まり、過剰なフィードバックが抑制される。

なお、本実施例の発音誤り検出装置１は、正解文を出力して学習者に呈示する処理、正解文から合成した音声と発音誤りを含む文から合成した音声とを比較可能な態様で学習者に呈示する処理の少なくとも何れか一つの処理を実行する出力部を含んでもよい。

本実施例の発音誤り検出装置１によれば、対象言語に追従する音声認識処理を含むため、正解文を必須としない。また、読み間違い等の誤認識が発生した場合にも追従が可能である。

以下、実施例１の機能に加え、ステップＳ１３で用いられる閾値を自動推定する実施例２の発音誤り検出装置の構成、および動作を図４、図５を参照して説明する。

図４に示すように本実施例の発音誤り検出装置２は、非母国語話者データベース１１ａと、モデル作成部１１と、第１認識モデル記憶部１２ａと、閾値推定部２１と、閾値記憶部１３ａと、音声認識部１２と、信頼度判定部１３と、第２認識モデル記憶部１４ａと、発音誤り検出部１４を含む。以下、実施例１と異なる構成要件である閾値推定部２１の動作について説明する。

＜閾値推定部２１＞
閾値推定部２１は、非母国語話者音声認識モデルによって非母国語話者データベース１１ａの各音声データを認識した認識結果の信頼度と、この信頼度に対して予め設定される閾値と、信頼度が閾値以上となる認識結果の実際の正解率によって定まる音声認識精度との関係性に基づいて、目標の音声認識精度である目標精度を満たすための閾値を推定する（Ｓ２１）。

別の表現では、閾値推定部２１は、非母国語話者音声データベース１１ａに含まれる各音声データに対して音声認識を行い、単語毎の信頼度を計算する。非母国語話者音声データベース１１ａには各音声データに対応する正解テキストがあるので、各音声認識結果が実際に正解であるか否かは既知である。すなわち、所定の閾値以上の信頼度となる音声認識結果のそれぞれが実際に正解であるか否かは既知であり、その正解の割合（音声認識精度）は、閾値を上下することで変動することになる。閾値を下げれば正解の割合（音声認識精度）は低くなり、閾値を上げれば正解の割合（音声認識精度）は高くなると見積もられる。目標とする音声認識精度を目標精度ｐとした場合、閾値推定部２１は、目標精度ｐを充たす閾値ｔｈを推定して出力する。下表に閾値と音声認識精度の対応関係の具体例を示す。下表の具体例において、目標精度ｐ＝９０％とした場合、閾値ｔｈ＝０．９と推定される。目標精度ｐ＝８５％とした場合、閾値ｔｈ＝０．５と推定される。

本実施例の発音誤り検出装置２によれば、実施例１の効果に加え、目標精度に応じてステップＳ１３で用いられる閾値を自動推定することができる。

以下、実施例１の機能に加え、発音がよい話者での認識率が劣化することを考慮し、母国語話者音響モデルの基となるデータに母国語話者の音声データを加える構成とした実施例３の発音誤り検出装置の構成、および動作を図６、図７を参照して説明する。

図６に示すように本実施例の発音誤り検出装置３は、非母国語話者データベース１１ａと、母国語話者データベース３１ａと、モデル作成部３１と、第１認識モデル記憶部１２ａと、音声認識部１２と、閾値記憶部１３ａと、信頼度判定部１３と、第２認識モデル記憶部１４ａと、発音誤り検出部１４を含む。以下、実施例１と異なるモデルである非母国語話者音声認識モデルと、実施例１と異なる構成要件である母国語話者データベース３１ａと、モデル作成部３１の動作について説明する。

＜非母国語話者音声認識モデル＞
本実施例において非母国語話者音声認識モデルは、非母国語話者のデータに加え、母国語話者のデータを利用して学習される。非母国語話者音声認識モデルの学習に利用される非母国語話者のデータと、同学習に利用される母国語話者のデータの配分比率は、学習対象者のスキル（非母国語を英語とした場合、例えばＴＯＥＩＣのスコア、英検○級、英語圏における滞在歴など）に応じた設定値としてもよい。

＜母国語話者データベース３１ａ＞
母国語話者データベース３１ａは、母国語話者による音声データと対応する書き起こしテキスト（正解テキスト）の組を大量に記憶している。

＜モデル作成部３１＞
モデル作成部３１は、非母国語話者データベース１１ａと、母国語話者データベース３１ａの双方を利用して前述の非母国語話者音声認識モデルを作成する（Ｓ３１）。モデル作成部３１は、例えば、母国語話者のデータの分量を、非母国語話者のデータと同じかそれ以下のデータ時間長となるように調整することで、非母国語話者の音声認識精度を劣化させないように工夫してもよい。前述したとおり、学習対象者のスキルレベルの分布に応じて、追加する母国語話者のデータの分量を調整してもよい。例えば、低スキルの学習者が多い場合は、母国語話者のデータの分量を少なくしてもよい。

また、上記のバランス調整については、データの全体の時間長が、非母国語話者と母国語話者で同等となるようにしてもよい。単語や音素毎のデータ時間長が同等となるようにすれば、単語や音素の違いによる影響を抑える事も可能である。

また、一般的に、非母国語話者の音声データに比べ、母国語話者の音声データは多く存在するため、収録しやすく集めやすい。ここで、できるだけ多くの話者が混在するように選定すれば、話者数を増やせるので話者バリエーションが拡大し、音声認識精度が安定する。

本実施例の発音誤り検出装置３によれば、実施例１の効果に加え、学習対象者のスキルに応じて非母国語話者音声認識モデルを調整することができる。

以下、実施例１の機能に加え、母国語話者音響モデルにおいてスコア（信頼度）が低くなるデータを事前に選定する構成とした実施例４の発音誤り検出装置の構成、および動作を図８、図９を参照して説明する。

図８に示すように本実施例の発音誤り検出装置４は、非母国語話者データベース１１ａと、モデル作成部１１と、第１認識モデル記憶部１２ａと、音声認識部１２と、閾値記憶部１３ａと、信頼度判定部１３と、発音誤り事前選定部４１と、第２認識モデル記憶部１４ａと、発音誤り検出部１４を含む。以下、実施例１と異なる構成要件である発音誤り事前選定部４１の動作について説明する。

＜発音誤り事前選定部４１＞
発音誤り事前選定部４１は、信頼度判定部１３が出力した判定後時間情報ｔ＿ｓで指定される区間の音声データに対して、低制約文法母国語話者音声認識モデルを用いて音声認識した信頼度ｃｐが、予め設定された事前選定閾値ｔｈｐより低い場合に、対応する判定後音声認識結果ｈ＿ｓｐおよび対応する判定後時間情報ｔ＿ｓｐを発音誤り検出部１４に出力する（Ｓ４１）。

なお、ステップＳ４１では、低制約文法母国語話者音声認識モデルの事後確率の代わりに、母国語話者音響モデルと非母国語話者音響モデルのスコアの差を用いてもよい。

本実施例の発音誤り検出装置４によれば、実施例１の効果に加え、発音誤り検出対象を事前選定することができる。

以下、実施例４の機能に加え、発音誤りｅの検出結果の数を予め定めた数Ｎに限定して出力する構成とした実施例５の発音誤り検出装置の構成、および動作を図１０、図１１を参照して説明する。

図１０に示すように本実施例の発音誤り検出装置５は、非母国語話者データベース１１ａと、モデル作成部１１と、第１認識モデル記憶部１２ａと、音声認識部１２と、閾値記憶部１３ａと、信頼度判定部１３と、発音誤り事前選定部４１と、第２認識モデル記憶部１４ａと、発音誤り検出部１４と、フィードバック調整部５１を含む。以下、実施例４と異なる構成要件であるフィードバック調整部５１の動作について説明する。

＜フィードバック調整部５１＞
フィードバック調整部５１は、発音誤りに対応する音素のうち、信頼度（例えば音素事後確率）の差が大きい順に、予め設定された数（上位Ｎ個）の音素を発音誤りとして出力する（Ｓ５１）。

本実施例の発音誤り検出装置５によれば、実施例４の効果に加え、発音誤りｅの検出結果の数を予め定めた数Ｎに限定し、発音誤りを過剰に指摘しないように選定することができる。

以下、実施例５の機能に加え、非母国語話者特有の発音誤り傾向を考慮した発音誤りｅを出力する構成とした実施例６の発音誤り検出装置の構成、および動作を図１２、図１３を参照して説明する。

図１２に示すように本実施例の発音誤り検出装置６は、非母国語話者データベース１１ａと、モデル作成部１１と、第１認識モデル記憶部１２ａと、音声認識部１２と、閾値記憶部１３ａと、信頼度判定部１３と、発音誤り事前選定部４１と、第２認識モデル記憶部１４ａと、発音誤り傾向テーブル記憶部６１ａと、発音誤り検出部６１と、フィードバック調整部５１を含む。以下、実施例５と異なる構成要件である発音誤り傾向テーブル記憶部６１ａと、発音誤り検出部６１の動作について説明する。

＜発音誤り傾向テーブル記憶部６１ａ＞
発音誤り傾向テーブル記憶部６１ａは、発音誤り傾向テーブルを予め記憶する。発音誤り傾向テーブルは、非母国語話者の発音誤りの傾向を表すテーブルである。発音誤り傾向テーブルの作成方法は任意であるが、例えば非母国語話者音声データベース１１ａに対して、低制約文法−母国語話者音響モデル（すなわち、実施例１などの低制約文法母国語話者音声認識モデル）を用いて音声認識した認識結果と、正解テキストから得た正解音素を比較することにより、非母国語話者の発音誤りの傾向を抽出し、これに基づいて発音誤り傾向テーブルを作成してもよい。

＜発音誤り検出部６１＞
発音誤り検出部６１は、非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて発音誤りを検出する（Ｓ６１）。具体的には、発音誤り検出部６１は、判定後時間情報ｔ＿ｓで指定される区間の音声データについて、低制約文法認識の代わりに、発音誤り傾向テーブルに含まれる音素誤りのみの可能性を考慮した文法誤り考慮文法（例えば、ｒｏｃｋ（／ｒａｋ／の発声に対して、／（ｒ｜ｌ）ａｋ／という文法）により音声認識を行う。発音誤り検出部６１は、判定後音声認識結果ｈ＿ｓに含まれる音素系列を正解音素系列とした場合に、正解音素系列のスコアよりも高いスコアとなる（文法誤り考慮文法の）認識音素を発音誤り結果として出力する。

本実施例の発音誤り検出装置６によれば、実施例５の効果に加え、非母国語話者特有の発音誤り傾向を考慮することができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

＜モデル作成部１１＞
モデル作成部１１は、非母国語話者データベース１１ａを参照し、非母国語話者のデータ（非母国語話者による音声データと対応する書き起こしテキスト）を利用して学習を行い、非母国語話者音声認識モデルを作成する（Ｓ１１）。なお、非母国語話者音声認識モデルは、音声−テキスト対から学習した非母国語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母国語話者データベース１１ａから音声認識モデルを学習してもよいし、ネイティブ話者による音声認識モデルを入力とし、ネイティブ話者による音声認識モデルをチューニングすることにより、非母国語話者音声認識モデルを作成してもよい。

＜発音誤り検出部１４＞
発音誤り検出部１４は、判定後時間情報ｔ＿ｓで指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度ｃｐ＿ｌが、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度ｃｐ＿ｈよりも大きくなる場合に、当該音素を発音誤りｅとして出力する（Ｓ１４）。なお、音素については、音声認識結果から取得できるものとする。例えば、音声認識結果テキストには、「ｒｉｃｅ：ｒ＿ａ＿ｉ＿ｓ」というように音素系列も含まれるため、音声認識後に容易に音素を取得できる。

別の表現では、閾値推定部２１は、非母国語話者データベース１１ａに含まれる各音声データに対して音声認識を行い、単語毎の信頼度を計算する。非母国語話者データベース１１ａには各音声データに対応する正解テキストがあるので、各音声認識結果が実際に正解であるか否かは既知である。すなわち、所定の閾値以上の信頼度となる音声認識結果のそれぞれが実際に正解であるか否かは既知であり、その正解の割合（音声認識精度）は、閾値を上下することで変動することになる。閾値を下げれば正解の割合（音声認識精度）は低くなり、閾値を上げれば正解の割合（音声認識精度）は高くなると見積もられる。目標とする音声認識精度を目標精度ｐとした場合、閾値推定部２１は、目標精度ｐを充たす閾値ｔｈを推定して出力する。下表に閾値と音声認識精度の対応関係の具体例を示す。下表の具体例において、目標精度ｐ＝９０％とした場合、閾値ｔｈ＝０．９と推定される。目標精度ｐ＝８５％とした場合、閾値ｔｈ＝０．５と推定される。

＜発音誤り傾向テーブル記憶部６１ａ＞
発音誤り傾向テーブル記憶部６１ａは、発音誤り傾向テーブルを予め記憶する。発音誤り傾向テーブルは、非母国語話者の発音誤りの傾向を表すテーブルである。発音誤り傾向テーブルの作成方法は任意であるが、例えば非母国語話者データベース１１ａに対して、低制約文法−母国語話者音響モデル（すなわち、実施例１などの低制約文法母国語話者音声認識モデル）を用いて音声認識した認識結果と、正解テキストから得た正解音素を比較することにより、非母国語話者の発音誤りの傾向を抽出し、これに基づいて発音誤り傾向テーブルを作成してもよい。

＜発音誤り検出部６１＞
発音誤り検出部６１は、非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて発音誤りを検出する（Ｓ６１）。具体的には、発音誤り検出部６１は、判定後時間情報ｔ＿ｓで指定される区間の音声データについて、低制約文法認識の代わりに、発音誤り傾向テーブルに含まれる音素誤りのみの可能性を考慮した文法誤り考慮文法（例えば、ｒｏｃｋ（／ｒａｋ／）の発声に対して、／（ｒ｜ｌ）ａｋ／という文法）により音声認識を行う。発音誤り検出部６１は、判定後音声認識結果ｈ＿ｓに含まれる音素系列を正解音素系列とした場合に、正解音素系列のスコアよりも高いスコアとなる（文法誤り考慮文法の）認識音素を発音誤り結果として出力する。

Claims

非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルを記憶する第１認識モデル記憶部と、
前記非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力する音声認識部と、
予め設定された閾値より前記信頼度が高い前記音声認識結果および対応する前記時間情報を、判定後音声認識結果および判定後時間情報として出力する信頼度判定部と、
母国語話者のデータを利用して学習された母国語話者音響モデルと、前記言語モデルよりも文法制約の少ない低制約文法言語モデルからなる低制約文法母国語話者音声認識モデルを記憶する第２認識モデル記憶部と、
前記判定後時間情報で指定される区間の音声データについて、前記低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、前記判定後音声認識結果を正解とする文法制約下における前記母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する発音誤り検出部を含む
発音誤り検出装置。
請求項１に記載の発音誤り検出装置であって、
前記非母国語話者の音声データと正解テキストの組が記憶された非母国語話者データベースと、
前記非母国語話者音声認識モデルによって前記非母国語話者データベースの各音声データを認識した認識結果の信頼度と、前記信頼度に対して予め設定される前記閾値と、前記信頼度が前記閾値以上となる前記認識結果の正解率によって定まる音声認識精度との関係性に基づいて、目標の前記音声認識精度である目標精度を満たすための前記閾値を推定する閾値推定部を含む
発音誤り検出装置。
請求項１または２に記載の発音誤り検出装置であって、
前記非母国語話者音声認識モデルは、非母国語話者のデータに加え、母国語話者のデータを利用して学習されたものであって、
前記非母国語話者音声認識モデルの学習に利用される前記非母国語話者のデータと、同学習に利用される前記母国語話者のデータの配分比率は、学習対象者のスキルに応じた設定値である
発音誤り検出装置。
請求項１から３の何れかに記載の発音誤り検出装置であって、
前記信頼度判定部が出力した前記判定後時間情報で指定される区間の音声データに対して、前記低制約文法母国語話者音声認識モデルを用いて音声認識した信頼度が、予め設定された事前選定閾値より低い場合に、対応する前記判定後音声認識結果および対応する前記判定後時間情報を前記発音誤り検出部に出力する発音誤り事前選定部を含む
発音誤り検出装置。
請求項１から４の何れかに記載の発音誤り検出装置であって、
前記発音誤りに対応する音素のうち、前記信頼度の差が大きい順に、予め設定された数の音素を発音誤りとして出力するフィードバック調整部を含む
発音誤り検出装置。
請求項１から５の何れかに記載の発音誤り検出装置であって、前記発音誤り検出部は、
前記非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて前記発音誤りを検出する
発音誤り検出装置。
請求項１から６の何れかに記載の発音誤り検出装置であって、
正解文を出力する処理、正解文から合成した音声と前記発音誤りを含む文から合成した音声とを比較可能な態様で出力する処理の少なくとも何れか一つの処理を実行する
発音誤り検出装置。
発音誤り検出装置が実行する発音誤り検出方法であって、
非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力するステップと、
予め設定された閾値より前記信頼度が高い前記音声認識結果および対応する前記時間情報を、判定後音声認識結果および判定後時間情報として出力するステップと、
母国語話者のデータを利用して学習された母国語話者音響モデルと、前記言語モデルよりも文法制約の少ない低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを用いた、前記判定後時間情報で指定される区間の音声データについての音声認識結果の音素ごとの信頼度が、前記判定後音声認識結果を正解とする文法制約下における前記母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力するステップを含む
発音誤り検出方法。
請求項８に記載の発音誤り検出方法であって、
正解文を出力する処理、正解文から合成した音声と前記発音誤りを含む文から合成した音声とを比較可能な態様で出力する処理の少なくとも何れか一つの処理を実行する
発音誤り検出方法。
コンピュータを、請求項１から７の何れかに記載の発音誤り検出装置として機能させるプログラム。