JPWO2019065263A1 - 発音誤り検出装置、発音誤り検出方法、プログラム - Google Patents

発音誤り検出装置、発音誤り検出方法、プログラム Download PDF

Info

Publication number
JPWO2019065263A1
JPWO2019065263A1 JP2019544561A JP2019544561A JPWO2019065263A1 JP WO2019065263 A1 JPWO2019065263 A1 JP WO2019065263A1 JP 2019544561 A JP2019544561 A JP 2019544561A JP 2019544561 A JP2019544561 A JP 2019544561A JP WO2019065263 A1 JPWO2019065263 A1 JP WO2019065263A1
Authority
JP
Japan
Prior art keywords
pronunciation error
error detection
native
reliability
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019544561A
Other languages
English (en)
Other versions
JP6840858B2 (ja
Inventor
哲 小橋川
哲 小橋川
亮 増村
亮 増村
歩相名 神山
歩相名 神山
勇祐 井島
勇祐 井島
裕司 青野
裕司 青野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019065263A1 publication Critical patent/JPWO2019065263A1/ja
Application granted granted Critical
Publication of JP6840858B2 publication Critical patent/JP6840858B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/04Electrically-operated educational appliances with audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

正解文が必須でなく、読み間違い等の誤認識が発生した場合にも追従が可能な発音誤り検出装置を提供する。非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果とその信頼度とその時間情報とを出力する音声認識部と、予め設定された閾値より信頼度が高い音声認識結果および対応する時間情報を、判定後音声認識結果および判定後時間情報として出力する信頼度判定部と、判定後時間情報で指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する発音誤り検出部を含む。

Description

本発明は、発音誤り検出装置、発音誤り検出方法、プログラムに関する。
語学学習における発音評価に関する従来技術として例えば非特許文献1がある。非特許文献1のGOPスコア算出装置9は、音声言語データ記憶部91aと、音素タイプライタ記憶部91bと、英語音響モデル記憶部91cと、音素アライメント生成部91と、GOPスコア算出部92を含む。音素アライメント生成部91は、音声言語データ(音声データとテキストデータからなる)、音素タイプライタ、英語音響モデルに基づいて音素アライメントを生成する(S91)。GOPスコア算出部92は、生成した音素アライメントに基づいてGOPスコアを算出する(S92)。
楽俊偉、塩沢文野、外山翔平、畑アンナマリア知寿江、山内豊、伊藤佳世子、齋藤大輔、峯松信明、「シャドーイング音声に対するDNNを用いたGOPスコアと手動スコアへの近接性」、日本音響学会講演論文集、2-P-31、2017年3月
非特許文献1のGOPスコア算出装置9は、GOPスコア算出に際し、学習対象の正解文が必須である。よって学習者は既知の文章を読み上げる事になるため、実際の対象言語を使う場面での学習効果が出ない。また、読み間違い、読み誤りに対応できない。
そこで本発明では、正解文が必須でなく、読み間違い等の誤認識が発生した場合にも追従が可能な発音誤り検出装置を提供することを目的とする。
本発明の発音誤り検出装置は、第1認識モデル記憶部と、音声認識部と、信頼度判定部と、第2認識モデル記憶部と、発音誤り検出部を含む。
第1認識モデル記憶部は、非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルを記憶する。音声認識部は、非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力する。信頼度判定部は、予め設定された閾値より信頼度が高い音声認識結果および対応する時間情報を、判定後音声認識結果および判定後時間情報として出力する。第2認識モデル記憶部は、母国語話者のデータを利用して学習された母国語話者音響モデルと、言語モデルよりも文法制約の少ない低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを記憶する。発音誤り検出部は、判定後時間情報で指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する。
本発明の発音誤り検出装置によれば、正解文が必須でなく、読み間違い等の誤認識が発生した場合にも追従が可能である。
非特許文献1のGOPスコア算出装置の構成を示すブロック図。 実施例1の発音誤り検出装置の構成を示すブロック図。 実施例1の発音誤り検出装置の動作を示すフローチャート。 実施例2の発音誤り検出装置の構成を示すブロック図。 実施例2の発音誤り検出装置の動作を示すフローチャート。 実施例3の発音誤り検出装置の構成を示すブロック図。 実施例3の発音誤り検出装置の動作を示すフローチャート。 実施例4の発音誤り検出装置の構成を示すブロック図。 実施例4の発音誤り検出装置の動作を示すフローチャート。 実施例5の発音誤り検出装置の構成を示すブロック図。 実施例5の発音誤り検出装置の動作を示すフローチャート。 実施例6の発音誤り検出装置の構成を示すブロック図。 実施例6の発音誤り検出装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、非母国語話者の音響モデルにより音声認識を行い、高い信頼度の音声認識結果のみを発音誤り指摘対象とした実施例1の発音誤り検出装置の構成、および動作を図2、図3を参照して説明する。
図2に示すように本実施例の発音誤り検出装置1は、非母国語話者データベース11aと、モデル作成部11と、第1認識モデル記憶部12aと、音声認識部12と、閾値記憶部13aと、信頼度判定部13と、第2認識モデル記憶部14aと、発音誤り検出部14を含む。以下、各構成要件について説明する。
<非母国語話者データベース11a>
非母国語話者データベース11aは、非母国語話者による音声データと対応する書き起こしテキスト(正解テキスト)の組を大量に記憶している。
<モデル作成部11>
モデル作成部11は、非母国語話者音声データベース11aを参照し、非母国語話者のデータ(非母国語話者による音声データと対応する書き起こしテキスト)を利用して学習を行い、非母国語話者音声認識モデルを作成する(S11)。なお、非母国語話者音声認識モデルは、音声−テキスト対から学習した非母国語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母国語話者音声データベース11aから音声認識モデルを学習してもよいし、ネイティブ話者による音声認識モデルを入力とし、ネイティブ話者による音声認識モデルをチューニングすることにより、非母国語話者音声認識モデルを作成してもよい。
非母国語話者音声認識モデルは、オンラインで作成する必要はなく、予め作成しておいても良い。
<第1認識モデル記憶部12a>
第1認識モデル記憶部12aは、上述の非母国語話者音声認識モデルを記憶する。
<音声認識部12>
音声認識部12は、非母国語話者音声認識モデルに基づいて、非母国語話者の音声データxの音声認識を行い、音声認識結果hと、その信頼度cと、その時間情報tとを出力する(S12)。例えば単語事後確率を信頼度cとしてもよい。下表に音声認識結果hと信頼度cと時間情報tの具体例を示す。
Figure 2019065263
<閾値記憶部13a>
閾値記憶部13aは、後述の信頼度判定部13の動作において用いられる閾値thを予め記憶する。
<信頼度判定部13>
信頼度判定部13は、予め設定された閾値thより信頼度cが高い音声認識結果hおよび対応する時間情報tを、判定後音声認識結果h_sおよび判定後時間情報t_sとして出力する(S13)。別の表現では、信頼度判定部13は、音声認識結果hに対して、信頼度cが閾値thよりも大きい(高い)単語を判定後音声認識結果h_sとして出力し、当該判定後音声認識結果h_sと対応する判定後時間情報t_sを出力する。例えば、閾値thは、0.9等と設定する。下表にth=0.9とした場合の判定後音声認識結果h_s、判定後時間情報t_sの具体例を示す。
Figure 2019065263
<第2認識モデル記憶部14a>
第2認識モデル記憶部14aは、母国語話者のデータを利用して学習された母国語話者音響モデルと、上述した言語モデルよりも文法制約の少ない文法(例えば、全ての音素のループを許す音素タイプライタ等)である低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを記憶する。
なお、低制約文法言語モデルは予め用意した音素タイプライタでなくても良く、音声認識結果の音素系列から別途、生成するものでも良い。例えば,rice(発音記号:rais)という音声認識結果が出た場合に,(r/l)aisといった文法を生成する。
<発音誤り検出部14>
発音誤り検出部14は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度cp_lが、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度cp_hよりも大きくなる場合に、当該音素を発音誤りeとして出力する(S14)。なお、音素については、音声認識結果から取得できるものとする。例えば、音声認識結果テキストには、「rice:r_a_i_s」というように音素系列も含まれるため、音声認識後に用意に音素を取得できる。
別の表現では、発音誤り検出部14は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法で母国語話者音響モデルを用いて音声認識を行う。発音誤り検出部14は、判定後音声認識結果h_sに含まれる音素系列を正解音素系列とする制約下において、母国語話者音響モデルを用いて音声認識したスコア(信頼度cp_h、例えば音素事後確率)よりも、低制約文法で母国語話者音響モデルを用いて音声認識したスコア(信頼度cp_l)の方が高いスコアとなった場合、該当する音素を発音誤りeとして出力する(S14)。低制約文法に対応するスコア(信頼度cp_l)が正解音素系列に対応するスコア(信頼度cp_h)より高くなる音素が無かった場合、発音誤りを「なし」とする。低制約文法に対応する音声認識、正解音素系列に基づく音声認識の双方に対して母国語話者音響モデルを用いることで、母国語話者らしさに基づく判定基準による発音誤り検出を実行することができる。以下に、低制約文法に対応するスコア(信頼度cp_l)と正解音素系列に対応するスコア(信頼度cp_h)の具体例を示す。下表の例では、低制約文法に対応するスコア(信頼度cp_l)が正解音素系列に対応するスコア(信頼度cp_h)より高くなるため、当該音素については、発音誤りeとして出力される。
Figure 2019065263
この時、一つの文あるいは単語の中で複数の音素が発音誤りとして検出された場合は、正解音素と発音誤り音素のスコア(信頼度、例えば音素事後確率)差が最も大きいものを発音誤り検出結果として選定してもよい。また、スコア差を発音誤り検出結果とともに出力してもよい。
上記の音素タイプライタは、母国語が日本語のように音節を単位とする言語の場合には、音節タイプライタとしてもよい。
また、母国語話者音響モデルは、母国語話者音声を含むデータから学習されたモデルであればよい。例えば、母国語話者音声、非母国語話者音声の双方を含むデータから学習した母国語・非母国語話者混合モデルであってもよい。この場合、誤りを指摘する感度が弱まり、過剰なフィードバックが抑制される。
なお、本実施例の発音誤り検出装置1は、正解文を出力して学習者に呈示する処理、正解文から合成した音声と発音誤りを含む文から合成した音声とを比較可能な態様で学習者に呈示する処理の少なくとも何れか一つの処理を実行する出力部を含んでもよい。
本実施例の発音誤り検出装置1によれば、対象言語に追従する音声認識処理を含むため、正解文を必須としない。また、読み間違い等の誤認識が発生した場合にも追従が可能である。
以下、実施例1の機能に加え、ステップS13で用いられる閾値を自動推定する実施例2の発音誤り検出装置の構成、および動作を図4、図5を参照して説明する。
図4に示すように本実施例の発音誤り検出装置2は、非母国語話者データベース11aと、モデル作成部11と、第1認識モデル記憶部12aと、閾値推定部21と、閾値記憶部13aと、音声認識部12と、信頼度判定部13と、第2認識モデル記憶部14aと、発音誤り検出部14を含む。以下、実施例1と異なる構成要件である閾値推定部21の動作について説明する。
<閾値推定部21>
閾値推定部21は、非母国語話者音声認識モデルによって非母国語話者データベース11aの各音声データを認識した認識結果の信頼度と、この信頼度に対して予め設定される閾値と、信頼度が閾値以上となる認識結果の実際の正解率によって定まる音声認識精度との関係性に基づいて、目標の音声認識精度である目標精度を満たすための閾値を推定する(S21)。
別の表現では、閾値推定部21は、非母国語話者音声データベース11aに含まれる各音声データに対して音声認識を行い、単語毎の信頼度を計算する。非母国語話者音声データベース11aには各音声データに対応する正解テキストがあるので、各音声認識結果が実際に正解であるか否かは既知である。すなわち、所定の閾値以上の信頼度となる音声認識結果のそれぞれが実際に正解であるか否かは既知であり、その正解の割合(音声認識精度)は、閾値を上下することで変動することになる。閾値を下げれば正解の割合(音声認識精度)は低くなり、閾値を上げれば正解の割合(音声認識精度)は高くなると見積もられる。目標とする音声認識精度を目標精度pとした場合、閾値推定部21は、目標精度pを充たす閾値thを推定して出力する。下表に閾値と音声認識精度の対応関係の具体例を示す。下表の具体例において、目標精度p=90%とした場合、閾値th=0.9と推定される。目標精度p=85%とした場合、閾値th=0.5と推定される。
Figure 2019065263
本実施例の発音誤り検出装置2によれば、実施例1の効果に加え、目標精度に応じてステップS13で用いられる閾値を自動推定することができる。
以下、実施例1の機能に加え、発音がよい話者での認識率が劣化することを考慮し、母国語話者音響モデルの基となるデータに母国語話者の音声データを加える構成とした実施例3の発音誤り検出装置の構成、および動作を図6、図7を参照して説明する。
図6に示すように本実施例の発音誤り検出装置3は、非母国語話者データベース11aと、母国語話者データベース31aと、モデル作成部31と、第1認識モデル記憶部12aと、音声認識部12と、閾値記憶部13aと、信頼度判定部13と、第2認識モデル記憶部14aと、発音誤り検出部14を含む。以下、実施例1と異なるモデルである非母国語話者音声認識モデルと、実施例1と異なる構成要件である母国語話者データベース31aと、モデル作成部31の動作について説明する。
<非母国語話者音声認識モデル>
本実施例において非母国語話者音声認識モデルは、非母国語話者のデータに加え、母国語話者のデータを利用して学習される。非母国語話者音声認識モデルの学習に利用される非母国語話者のデータと、同学習に利用される母国語話者のデータの配分比率は、学習対象者のスキル(非母国語を英語とした場合、例えばTOEICのスコア、英検○級、英語圏における滞在歴など)に応じた設定値としてもよい。
<母国語話者データベース31a>
母国語話者データベース31aは、母国語話者による音声データと対応する書き起こしテキスト(正解テキスト)の組を大量に記憶している。
<モデル作成部31>
モデル作成部31は、非母国語話者データベース11aと、母国語話者データベース31aの双方を利用して前述の非母国語話者音声認識モデルを作成する(S31)。モデル作成部31は、例えば、母国語話者のデータの分量を、非母国語話者のデータと同じかそれ以下のデータ時間長となるように調整することで、非母国語話者の音声認識精度を劣化させないように工夫してもよい。前述したとおり、学習対象者のスキルレベルの分布に応じて、追加する母国語話者のデータの分量を調整してもよい。例えば、低スキルの学習者が多い場合は、母国語話者のデータの分量を少なくしてもよい。
また、上記のバランス調整については、データの全体の時間長が、非母国語話者と母国語話者で同等となるようにしてもよい。単語や音素毎のデータ時間長が同等となるようにすれば、単語や音素の違いによる影響を抑える事も可能である。
また、一般的に、非母国語話者の音声データに比べ、母国語話者の音声データは多く存在するため、収録しやすく集めやすい。ここで、できるだけ多くの話者が混在するように選定すれば、話者数を増やせるので話者バリエーションが拡大し、音声認識精度が安定する。
本実施例の発音誤り検出装置3によれば、実施例1の効果に加え、学習対象者のスキルに応じて非母国語話者音声認識モデルを調整することができる。
以下、実施例1の機能に加え、母国語話者音響モデルにおいてスコア(信頼度)が低くなるデータを事前に選定する構成とした実施例4の発音誤り検出装置の構成、および動作を図8、図9を参照して説明する。
図8に示すように本実施例の発音誤り検出装置4は、非母国語話者データベース11aと、モデル作成部11と、第1認識モデル記憶部12aと、音声認識部12と、閾値記憶部13aと、信頼度判定部13と、発音誤り事前選定部41と、第2認識モデル記憶部14aと、発音誤り検出部14を含む。以下、実施例1と異なる構成要件である発音誤り事前選定部41の動作について説明する。
<発音誤り事前選定部41>
発音誤り事前選定部41は、信頼度判定部13が出力した判定後時間情報t_sで指定される区間の音声データに対して、低制約文法母国語話者音声認識モデルを用いて音声認識した信頼度cpが、予め設定された事前選定閾値thpより低い場合に、対応する判定後音声認識結果h_spおよび対応する判定後時間情報t_spを発音誤り検出部14に出力する(S41)。
なお、ステップS41では、低制約文法母国語話者音声認識モデルの事後確率の代わりに、母国語話者音響モデルと非母国語話者音響モデルのスコアの差を用いてもよい。
本実施例の発音誤り検出装置4によれば、実施例1の効果に加え、発音誤り検出対象を事前選定することができる。
以下、実施例4の機能に加え、発音誤りeの検出結果の数を予め定めた数Nに限定して出力する構成とした実施例5の発音誤り検出装置の構成、および動作を図10、図11を参照して説明する。
図10に示すように本実施例の発音誤り検出装置5は、非母国語話者データベース11aと、モデル作成部11と、第1認識モデル記憶部12aと、音声認識部12と、閾値記憶部13aと、信頼度判定部13と、発音誤り事前選定部41と、第2認識モデル記憶部14aと、発音誤り検出部14と、フィードバック調整部51を含む。以下、実施例4と異なる構成要件であるフィードバック調整部51の動作について説明する。
<フィードバック調整部51>
フィードバック調整部51は、発音誤りに対応する音素のうち、信頼度(例えば音素事後確率)の差が大きい順に、予め設定された数(上位N個)の音素を発音誤りとして出力する(S51)。
本実施例の発音誤り検出装置5によれば、実施例4の効果に加え、発音誤りeの検出結果の数を予め定めた数Nに限定し、発音誤りを過剰に指摘しないように選定することができる。
以下、実施例5の機能に加え、非母国語話者特有の発音誤り傾向を考慮した発音誤りeを出力する構成とした実施例6の発音誤り検出装置の構成、および動作を図12、図13を参照して説明する。
図12に示すように本実施例の発音誤り検出装置6は、非母国語話者データベース11aと、モデル作成部11と、第1認識モデル記憶部12aと、音声認識部12と、閾値記憶部13aと、信頼度判定部13と、発音誤り事前選定部41と、第2認識モデル記憶部14aと、発音誤り傾向テーブル記憶部61aと、発音誤り検出部61と、フィードバック調整部51を含む。以下、実施例5と異なる構成要件である発音誤り傾向テーブル記憶部61aと、発音誤り検出部61の動作について説明する。
<発音誤り傾向テーブル記憶部61a>
発音誤り傾向テーブル記憶部61aは、発音誤り傾向テーブルを予め記憶する。発音誤り傾向テーブルは、非母国語話者の発音誤りの傾向を表すテーブルである。発音誤り傾向テーブルの作成方法は任意であるが、例えば非母国語話者音声データベース11aに対して、低制約文法−母国語話者音響モデル(すなわち、実施例1などの低制約文法母国語話者音声認識モデル)を用いて音声認識した認識結果と、正解テキストから得た正解音素を比較することにより、非母国語話者の発音誤りの傾向を抽出し、これに基づいて発音誤り傾向テーブルを作成してもよい。
<発音誤り検出部61>
発音誤り検出部61は、非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて発音誤りを検出する(S61)。具体的には、発音誤り検出部61は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法認識の代わりに、発音誤り傾向テーブルに含まれる音素誤りのみの可能性を考慮した文法誤り考慮文法(例えば、rock(/rak/の発声に対して、/(r|l)ak/という文法)により音声認識を行う。発音誤り検出部61は、判定後音声認識結果h_sに含まれる音素系列を正解音素系列とした場合に、正解音素系列のスコアよりも高いスコアとなる(文法誤り考慮文法の)認識音素を発音誤り結果として出力する。
本実施例の発音誤り検出装置6によれば、実施例5の効果に加え、非母国語話者特有の発音誤り傾向を考慮することができる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
<モデル作成部11>
モデル作成部11は、非母国語話者データベース11aを参照し、非母国語話者のデータ(非母国語話者による音声データと対応する書き起こしテキスト)を利用して学習を行い、非母国語話者音声認識モデルを作成する(S11)。なお、非母国語話者音声認識モデルは、音声−テキスト対から学習した非母国語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母国語話者データベース11aから音声認識モデルを学習してもよいし、ネイティブ話者による音声認識モデルを入力とし、ネイティブ話者による音声認識モデルをチューニングすることにより、非母国語話者音声認識モデルを作成してもよい。
<発音誤り検出部14>
発音誤り検出部14は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度cp_lが、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度cp_hよりも大きくなる場合に、当該音素を発音誤りeとして出力する(S14)。なお、音素については、音声認識結果から取得できるものとする。例えば、音声認識結果テキストには、「rice:r_a_i_s」というように音素系列も含まれるため、音声認識後に容易に音素を取得できる。
別の表現では、閾値推定部21は、非母国語話者データベース11aに含まれる各音声データに対して音声認識を行い、単語毎の信頼度を計算する。非母国語話者データベース11aには各音声データに対応する正解テキストがあるので、各音声認識結果が実際に正解であるか否かは既知である。すなわち、所定の閾値以上の信頼度となる音声認識結果のそれぞれが実際に正解であるか否かは既知であり、その正解の割合(音声認識精度)は、閾値を上下することで変動することになる。閾値を下げれば正解の割合(音声認識精度)は低くなり、閾値を上げれば正解の割合(音声認識精度)は高くなると見積もられる。目標とする音声認識精度を目標精度pとした場合、閾値推定部21は、目標精度pを充たす閾値thを推定して出力する。下表に閾値と音声認識精度の対応関係の具体例を示す。下表の具体例において、目標精度p=90%とした場合、閾値th=0.9と推定される。目標精度p=85%とした場合、閾値th=0.5と推定される。
<発音誤り傾向テーブル記憶部61a>
発音誤り傾向テーブル記憶部61aは、発音誤り傾向テーブルを予め記憶する。発音誤り傾向テーブルは、非母国語話者の発音誤りの傾向を表すテーブルである。発音誤り傾向テーブルの作成方法は任意であるが、例えば非母国語話者データベース11aに対して、低制約文法−母国語話者音響モデル(すなわち、実施例1などの低制約文法母国語話者音声認識モデル)を用いて音声認識した認識結果と、正解テキストから得た正解音素を比較することにより、非母国語話者の発音誤りの傾向を抽出し、これに基づいて発音誤り傾向テーブルを作成してもよい。
<発音誤り検出部61>
発音誤り検出部61は、非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて発音誤りを検出する(S61)。具体的には、発音誤り検出部61は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法認識の代わりに、発音誤り傾向テーブルに含まれる音素誤りのみの可能性を考慮した文法誤り考慮文法(例えば、rock(/rak/の発声に対して、/(r|l)ak/という文法)により音声認識を行う。発音誤り検出部61は、判定後音声認識結果h_sに含まれる音素系列を正解音素系列とした場合に、正解音素系列のスコアよりも高いスコアとなる(文法誤り考慮文法の)認識音素を発音誤り結果として出力する。

Claims (10)

  1. 非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルを記憶する第1認識モデル記憶部と、
    前記非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力する音声認識部と、
    予め設定された閾値より前記信頼度が高い前記音声認識結果および対応する前記時間情報を、判定後音声認識結果および判定後時間情報として出力する信頼度判定部と、
    母国語話者のデータを利用して学習された母国語話者音響モデルと、前記言語モデルよりも文法制約の少ない低制約文法言語モデルからなる低制約文法母国語話者音声認識モデルを記憶する第2認識モデル記憶部と、
    前記判定後時間情報で指定される区間の音声データについて、前記低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、前記判定後音声認識結果を正解とする文法制約下における前記母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する発音誤り検出部を含む
    発音誤り検出装置。
  2. 請求項1に記載の発音誤り検出装置であって、
    前記非母国語話者の音声データと正解テキストの組が記憶された非母国語話者データベースと、
    前記非母国語話者音声認識モデルによって前記非母国語話者データベースの各音声データを認識した認識結果の信頼度と、前記信頼度に対して予め設定される前記閾値と、前記信頼度が前記閾値以上となる前記認識結果の正解率によって定まる音声認識精度との関係性に基づいて、目標の前記音声認識精度である目標精度を満たすための前記閾値を推定する閾値推定部を含む
    発音誤り検出装置。
  3. 請求項1または2に記載の発音誤り検出装置であって、
    前記非母国語話者音声認識モデルは、非母国語話者のデータに加え、母国語話者のデータを利用して学習されたものであって、
    前記非母国語話者音声認識モデルの学習に利用される前記非母国語話者のデータと、同学習に利用される前記母国語話者のデータの配分比率は、学習対象者のスキルに応じた設定値である
    発音誤り検出装置。
  4. 請求項1から3の何れかに記載の発音誤り検出装置であって、
    前記信頼度判定部が出力した前記判定後時間情報で指定される区間の音声データに対して、前記低制約文法母国語話者音声認識モデルを用いて音声認識した信頼度が、予め設定された事前選定閾値より低い場合に、対応する前記判定後音声認識結果および対応する前記判定後時間情報を前記発音誤り検出部に出力する発音誤り事前選定部を含む
    発音誤り検出装置。
  5. 請求項1から4の何れかに記載の発音誤り検出装置であって、
    前記発音誤りに対応する音素のうち、前記信頼度の差が大きい順に、予め設定された数の音素を発音誤りとして出力するフィードバック調整部を含む
    発音誤り検出装置。
  6. 請求項1から5の何れかに記載の発音誤り検出装置であって、 前記発音誤り検出部は、
    前記非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて前記発音誤りを検出する
    発音誤り検出装置。
  7. 請求項1から6の何れかに記載の発音誤り検出装置であって、
    正解文を出力する処理、正解文から合成した音声と前記発音誤りを含む文から合成した音声とを比較可能な態様で出力する処理の少なくとも何れか一つの処理を実行する
    発音誤り検出装置。
  8. 発音誤り検出装置が実行する発音誤り検出方法であって、
    非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力するステップと、
    予め設定された閾値より前記信頼度が高い前記音声認識結果および対応する前記時間情報を、判定後音声認識結果および判定後時間情報として出力するステップと、
    母国語話者のデータを利用して学習された母国語話者音響モデルと、前記言語モデルよりも文法制約の少ない低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを用いた、前記判定後時間情報で指定される区間の音声データについての音声認識結果の音素ごとの信頼度が、前記判定後音声認識結果を正解とする文法制約下における前記母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力するステップを含む
    発音誤り検出方法。
  9. 請求項8に記載の発音誤り検出方法であって、
    正解文を出力する処理、正解文から合成した音声と前記発音誤りを含む文から合成した音声とを比較可能な態様で出力する処理の少なくとも何れか一つの処理を実行する
    発音誤り検出方法。
  10. コンピュータを、請求項1から7の何れかに記載の発音誤り検出装置として機能させるプログラム。
JP2019544561A 2017-09-26 2018-09-13 発音誤り検出装置、発音誤り検出方法、プログラム Active JP6840858B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017185003 2017-09-26
JP2017185003 2017-09-26
PCT/JP2018/033936 WO2019065263A1 (ja) 2017-09-26 2018-09-13 発音誤り検出装置、発音誤り検出方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2019065263A1 true JPWO2019065263A1 (ja) 2020-11-05
JP6840858B2 JP6840858B2 (ja) 2021-03-10

Family

ID=65901397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019544561A Active JP6840858B2 (ja) 2017-09-26 2018-09-13 発音誤り検出装置、発音誤り検出方法、プログラム

Country Status (3)

Country Link
US (1) US11568761B2 (ja)
JP (1) JP6840858B2 (ja)
WO (1) WO2019065263A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6970345B2 (ja) * 2018-08-21 2021-11-24 日本電信電話株式会社 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム
JP2021110874A (ja) * 2020-01-14 2021-08-02 シンレイ チョウ 発話練習プログラム、発話練習方法、及び、発話練習装置
CN111653292B (zh) * 2020-06-22 2023-03-31 桂林电子科技大学 一种中国学生英语朗读质量分析方法
CN111986650B (zh) * 2020-08-07 2024-02-27 云知声智能科技股份有限公司 借助语种识别辅助语音评测的方法及系统
CN112562636B (zh) * 2020-12-03 2024-07-05 云知声智能科技股份有限公司 一种语音合成纠错的方法和装置
CN112634862B (zh) * 2020-12-18 2024-01-23 北京大米科技有限公司 一种信息交互方法、装置、可读存储介质和电子设备
CN112908363B (zh) * 2021-01-21 2022-11-22 北京乐学帮网络技术有限公司 一种发音检测方法、装置、计算机设备及存储介质
US20220277737A1 (en) * 2021-03-01 2022-09-01 Google Llc Methods for evaluating the pronunciation of speech
CN113299278B (zh) * 2021-05-20 2023-06-13 北京大米科技有限公司 一种声学模型性能评估的方法、装置和电子设备
CN113327595B (zh) * 2021-06-16 2022-08-02 北京语言大学 发音偏误检测方法、装置及存储介质
CN113938708B (zh) * 2021-10-14 2024-04-09 咪咕文化科技有限公司 直播的音频纠错方法、装置、计算设备及存储介质
CN116805495B (zh) * 2023-08-17 2023-11-21 北京语言大学 基于大语言模型的发音偏误检测及动作反馈方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282096A (ja) * 2000-03-31 2001-10-12 Sanyo Electric Co Ltd 外国語発音評価装置
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
WO2005099414A2 (en) * 2004-04-12 2005-10-27 Burlingtonspeech Limited Comprehensive spoken language learning system
US20050277094A1 (en) * 2004-05-28 2005-12-15 Davidson Karen L System and method to teach reading
JP2006084966A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 発話音声の自動評定装置およびコンピュータプログラム
US20090239201A1 (en) * 2005-07-15 2009-09-24 Richard A Moe Phonetic pronunciation training device, phonetic pronunciation training method and phonetic pronunciation training program
US8234107B2 (en) * 2007-05-03 2012-07-31 Ketera Technologies, Inc. Supplier deduplication engine
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation
US9652999B2 (en) * 2010-04-29 2017-05-16 Educational Testing Service Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition
WO2014005142A2 (en) * 2012-06-29 2014-01-03 Rosetta Stone Ltd Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system
US9076347B2 (en) * 2013-03-14 2015-07-07 Better Accent, LLC System and methods for improving language pronunciation
WO2015057907A2 (en) * 2013-10-16 2015-04-23 Interactive Intelligence Group, Inc. System and method for learning alternate pronunciations for speech recognition
US9613638B2 (en) * 2014-02-28 2017-04-04 Educational Testing Service Computer-implemented systems and methods for determining an intelligibility score for speech
JP6527000B2 (ja) * 2015-03-30 2019-06-05 株式会社エヌ・ティ・ティ・データ 発音誤り検出装置、方法およびプログラム
US10319369B2 (en) * 2015-09-22 2019-06-11 Vendome Consulting Pty Ltd Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition
US10468015B2 (en) * 2017-01-12 2019-11-05 Vocollect, Inc. Automated TTS self correction system

Also Published As

Publication number Publication date
WO2019065263A1 (ja) 2019-04-04
US11568761B2 (en) 2023-01-31
JP6840858B2 (ja) 2021-03-10
US20200219413A1 (en) 2020-07-09

Similar Documents

Publication Publication Date Title
JP6840858B2 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US8990082B2 (en) Non-scorable response filters for speech scoring systems
US9588967B2 (en) Interpretation apparatus and method
JP3232289B2 (ja) 記号挿入装置およびその方法
US8577679B2 (en) Symbol insertion apparatus and symbol insertion method
US20150194147A1 (en) Non-Scorable Response Filters for Speech Scoring Systems
US10249321B2 (en) Sound rate modification
US9548052B2 (en) Ebook interaction using speech recognition
US20090150154A1 (en) Method and system of generating and detecting confusing phones of pronunciation
US20170091177A1 (en) Machine translation apparatus, machine translation method and computer program product
US20080046247A1 (en) System And Method For Supporting Text-To-Speech
JP2015187684A (ja) N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US11495245B2 (en) Urgency level estimation apparatus, urgency level estimation method, and program
Audhkhasi et al. Reliability-Weighted Acoustic Model Adaptation Using Crowd Sourced Transcriptions.
Ibrahim et al. Improve design for automated Tajweed checking rules engine of Quranic verse recitation: a review
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
Saadany et al. Better transcription of uk supreme court hearings
KR101283271B1 (ko) 어학 학습 장치 및 어학 학습 방법
Yarra et al. Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation
KR100319448B1 (ko) 속도변환을 이용한 대화형 언어 교습 시스템 및 그 방법
JP2014102345A (ja) 音響モデル学習用テキスト作成装置とその方法とプログラム
JP2017090660A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210216

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210217

R150 Certificate of patent or registration of utility model

Ref document number: 6840858

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150