JPWO2019065263A1 - 発音誤り検出装置、発音誤り検出方法、プログラム - Google Patents
発音誤り検出装置、発音誤り検出方法、プログラム Download PDFInfo
- Publication number
- JPWO2019065263A1 JPWO2019065263A1 JP2019544561A JP2019544561A JPWO2019065263A1 JP WO2019065263 A1 JPWO2019065263 A1 JP WO2019065263A1 JP 2019544561 A JP2019544561 A JP 2019544561A JP 2019544561 A JP2019544561 A JP 2019544561A JP WO2019065263 A1 JPWO2019065263 A1 JP WO2019065263A1
- Authority
- JP
- Japan
- Prior art keywords
- pronunciation error
- error detection
- native
- reliability
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 92
- 230000006870 function Effects 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 241000209094 Oryza Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
非母国語話者データベース11aは、非母国語話者による音声データと対応する書き起こしテキスト(正解テキスト)の組を大量に記憶している。
モデル作成部11は、非母国語話者音声データベース11aを参照し、非母国語話者のデータ(非母国語話者による音声データと対応する書き起こしテキスト)を利用して学習を行い、非母国語話者音声認識モデルを作成する(S11)。なお、非母国語話者音声認識モデルは、音声−テキスト対から学習した非母国語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母国語話者音声データベース11aから音声認識モデルを学習してもよいし、ネイティブ話者による音声認識モデルを入力とし、ネイティブ話者による音声認識モデルをチューニングすることにより、非母国語話者音声認識モデルを作成してもよい。
第1認識モデル記憶部12aは、上述の非母国語話者音声認識モデルを記憶する。
音声認識部12は、非母国語話者音声認識モデルに基づいて、非母国語話者の音声データxの音声認識を行い、音声認識結果hと、その信頼度cと、その時間情報tとを出力する(S12)。例えば単語事後確率を信頼度cとしてもよい。下表に音声認識結果hと信頼度cと時間情報tの具体例を示す。
閾値記憶部13aは、後述の信頼度判定部13の動作において用いられる閾値thを予め記憶する。
信頼度判定部13は、予め設定された閾値thより信頼度cが高い音声認識結果hおよび対応する時間情報tを、判定後音声認識結果h_sおよび判定後時間情報t_sとして出力する(S13)。別の表現では、信頼度判定部13は、音声認識結果hに対して、信頼度cが閾値thよりも大きい(高い)単語を判定後音声認識結果h_sとして出力し、当該判定後音声認識結果h_sと対応する判定後時間情報t_sを出力する。例えば、閾値thは、0.9等と設定する。下表にth=0.9とした場合の判定後音声認識結果h_s、判定後時間情報t_sの具体例を示す。
第2認識モデル記憶部14aは、母国語話者のデータを利用して学習された母国語話者音響モデルと、上述した言語モデルよりも文法制約の少ない文法(例えば、全ての音素のループを許す音素タイプライタ等)である低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを記憶する。
発音誤り検出部14は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度cp_lが、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度cp_hよりも大きくなる場合に、当該音素を発音誤りeとして出力する(S14)。なお、音素については、音声認識結果から取得できるものとする。例えば、音声認識結果テキストには、「rice:r_a_i_s」というように音素系列も含まれるため、音声認識後に用意に音素を取得できる。
閾値推定部21は、非母国語話者音声認識モデルによって非母国語話者データベース11aの各音声データを認識した認識結果の信頼度と、この信頼度に対して予め設定される閾値と、信頼度が閾値以上となる認識結果の実際の正解率によって定まる音声認識精度との関係性に基づいて、目標の音声認識精度である目標精度を満たすための閾値を推定する(S21)。
本実施例において非母国語話者音声認識モデルは、非母国語話者のデータに加え、母国語話者のデータを利用して学習される。非母国語話者音声認識モデルの学習に利用される非母国語話者のデータと、同学習に利用される母国語話者のデータの配分比率は、学習対象者のスキル(非母国語を英語とした場合、例えばTOEICのスコア、英検○級、英語圏における滞在歴など)に応じた設定値としてもよい。
母国語話者データベース31aは、母国語話者による音声データと対応する書き起こしテキスト(正解テキスト)の組を大量に記憶している。
モデル作成部31は、非母国語話者データベース11aと、母国語話者データベース31aの双方を利用して前述の非母国語話者音声認識モデルを作成する(S31)。モデル作成部31は、例えば、母国語話者のデータの分量を、非母国語話者のデータと同じかそれ以下のデータ時間長となるように調整することで、非母国語話者の音声認識精度を劣化させないように工夫してもよい。前述したとおり、学習対象者のスキルレベルの分布に応じて、追加する母国語話者のデータの分量を調整してもよい。例えば、低スキルの学習者が多い場合は、母国語話者のデータの分量を少なくしてもよい。
発音誤り事前選定部41は、信頼度判定部13が出力した判定後時間情報t_sで指定される区間の音声データに対して、低制約文法母国語話者音声認識モデルを用いて音声認識した信頼度cpが、予め設定された事前選定閾値thpより低い場合に、対応する判定後音声認識結果h_spおよび対応する判定後時間情報t_spを発音誤り検出部14に出力する(S41)。
フィードバック調整部51は、発音誤りに対応する音素のうち、信頼度(例えば音素事後確率)の差が大きい順に、予め設定された数(上位N個)の音素を発音誤りとして出力する(S51)。
発音誤り傾向テーブル記憶部61aは、発音誤り傾向テーブルを予め記憶する。発音誤り傾向テーブルは、非母国語話者の発音誤りの傾向を表すテーブルである。発音誤り傾向テーブルの作成方法は任意であるが、例えば非母国語話者音声データベース11aに対して、低制約文法−母国語話者音響モデル(すなわち、実施例1などの低制約文法母国語話者音声認識モデル)を用いて音声認識した認識結果と、正解テキストから得た正解音素を比較することにより、非母国語話者の発音誤りの傾向を抽出し、これに基づいて発音誤り傾向テーブルを作成してもよい。
発音誤り検出部61は、非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて発音誤りを検出する(S61)。具体的には、発音誤り検出部61は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法認識の代わりに、発音誤り傾向テーブルに含まれる音素誤りのみの可能性を考慮した文法誤り考慮文法(例えば、rock(/rak/の発声に対して、/(r|l)ak/という文法)により音声認識を行う。発音誤り検出部61は、判定後音声認識結果h_sに含まれる音素系列を正解音素系列とした場合に、正解音素系列のスコアよりも高いスコアとなる(文法誤り考慮文法の)認識音素を発音誤り結果として出力する。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
モデル作成部11は、非母国語話者データベース11aを参照し、非母国語話者のデータ(非母国語話者による音声データと対応する書き起こしテキスト)を利用して学習を行い、非母国語話者音声認識モデルを作成する(S11)。なお、非母国語話者音声認識モデルは、音声−テキスト対から学習した非母国語話者音響モデルと、対応する言語のテキストから学習した言語モデルからなる。非母国語話者データベース11aから音声認識モデルを学習してもよいし、ネイティブ話者による音声認識モデルを入力とし、ネイティブ話者による音声認識モデルをチューニングすることにより、非母国語話者音声認識モデルを作成してもよい。
発音誤り検出部14は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度cp_lが、判定後音声認識結果を正解とする文法制約下における母国語話者音響モデルによる音声認識結果の対応する音素の信頼度cp_hよりも大きくなる場合に、当該音素を発音誤りeとして出力する(S14)。なお、音素については、音声認識結果から取得できるものとする。例えば、音声認識結果テキストには、「rice:r_a_i_s」というように音素系列も含まれるため、音声認識後に容易に音素を取得できる。
発音誤り傾向テーブル記憶部61aは、発音誤り傾向テーブルを予め記憶する。発音誤り傾向テーブルは、非母国語話者の発音誤りの傾向を表すテーブルである。発音誤り傾向テーブルの作成方法は任意であるが、例えば非母国語話者データベース11aに対して、低制約文法−母国語話者音響モデル(すなわち、実施例1などの低制約文法母国語話者音声認識モデル)を用いて音声認識した認識結果と、正解テキストから得た正解音素を比較することにより、非母国語話者の発音誤りの傾向を抽出し、これに基づいて発音誤り傾向テーブルを作成してもよい。
発音誤り検出部61は、非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて発音誤りを検出する(S61)。具体的には、発音誤り検出部61は、判定後時間情報t_sで指定される区間の音声データについて、低制約文法認識の代わりに、発音誤り傾向テーブルに含まれる音素誤りのみの可能性を考慮した文法誤り考慮文法(例えば、rock(/rak/)の発声に対して、/(r|l)ak/という文法)により音声認識を行う。発音誤り検出部61は、判定後音声認識結果h_sに含まれる音素系列を正解音素系列とした場合に、正解音素系列のスコアよりも高いスコアとなる(文法誤り考慮文法の)認識音素を発音誤り結果として出力する。
Claims (10)
- 非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルを記憶する第1認識モデル記憶部と、
前記非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力する音声認識部と、
予め設定された閾値より前記信頼度が高い前記音声認識結果および対応する前記時間情報を、判定後音声認識結果および判定後時間情報として出力する信頼度判定部と、
母国語話者のデータを利用して学習された母国語話者音響モデルと、前記言語モデルよりも文法制約の少ない低制約文法言語モデルからなる低制約文法母国語話者音声認識モデルを記憶する第2認識モデル記憶部と、
前記判定後時間情報で指定される区間の音声データについて、前記低制約文法母国語話者音声認識モデルを用いた音声認識結果の音素ごとの信頼度が、前記判定後音声認識結果を正解とする文法制約下における前記母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力する発音誤り検出部を含む
発音誤り検出装置。 - 請求項1に記載の発音誤り検出装置であって、
前記非母国語話者の音声データと正解テキストの組が記憶された非母国語話者データベースと、
前記非母国語話者音声認識モデルによって前記非母国語話者データベースの各音声データを認識した認識結果の信頼度と、前記信頼度に対して予め設定される前記閾値と、前記信頼度が前記閾値以上となる前記認識結果の正解率によって定まる音声認識精度との関係性に基づいて、目標の前記音声認識精度である目標精度を満たすための前記閾値を推定する閾値推定部を含む
発音誤り検出装置。 - 請求項1または2に記載の発音誤り検出装置であって、
前記非母国語話者音声認識モデルは、非母国語話者のデータに加え、母国語話者のデータを利用して学習されたものであって、
前記非母国語話者音声認識モデルの学習に利用される前記非母国語話者のデータと、同学習に利用される前記母国語話者のデータの配分比率は、学習対象者のスキルに応じた設定値である
発音誤り検出装置。 - 請求項1から3の何れかに記載の発音誤り検出装置であって、
前記信頼度判定部が出力した前記判定後時間情報で指定される区間の音声データに対して、前記低制約文法母国語話者音声認識モデルを用いて音声認識した信頼度が、予め設定された事前選定閾値より低い場合に、対応する前記判定後音声認識結果および対応する前記判定後時間情報を前記発音誤り検出部に出力する発音誤り事前選定部を含む
発音誤り検出装置。 - 請求項1から4の何れかに記載の発音誤り検出装置であって、
前記発音誤りに対応する音素のうち、前記信頼度の差が大きい順に、予め設定された数の音素を発音誤りとして出力するフィードバック調整部を含む
発音誤り検出装置。 - 請求項1から5の何れかに記載の発音誤り検出装置であって、 前記発音誤り検出部は、
前記非母国語話者の発音誤り傾向を表す発音誤り傾向テーブルに基づいて前記発音誤りを検出する
発音誤り検出装置。 - 請求項1から6の何れかに記載の発音誤り検出装置であって、
正解文を出力する処理、正解文から合成した音声と前記発音誤りを含む文から合成した音声とを比較可能な態様で出力する処理の少なくとも何れか一つの処理を実行する
発音誤り検出装置。 - 発音誤り検出装置が実行する発音誤り検出方法であって、
非母国語話者のデータを利用して学習された非母国語話者音響モデルと、対応する言語の言語モデルと、からなる非母国語話者音声認識モデルに基づいて音声データの音声認識を行い、音声認識結果と、その信頼度と、その時間情報とを出力するステップと、
予め設定された閾値より前記信頼度が高い前記音声認識結果および対応する前記時間情報を、判定後音声認識結果および判定後時間情報として出力するステップと、
母国語話者のデータを利用して学習された母国語話者音響モデルと、前記言語モデルよりも文法制約の少ない低制約文法言語モデルと、からなる低制約文法母国語話者音声認識モデルを用いた、前記判定後時間情報で指定される区間の音声データについての音声認識結果の音素ごとの信頼度が、前記判定後音声認識結果を正解とする文法制約下における前記母国語話者音響モデルによる音声認識結果の対応する音素の信頼度よりも大きくなる場合に、当該音素を発音誤りとして出力するステップを含む
発音誤り検出方法。 - 請求項8に記載の発音誤り検出方法であって、
正解文を出力する処理、正解文から合成した音声と前記発音誤りを含む文から合成した音声とを比較可能な態様で出力する処理の少なくとも何れか一つの処理を実行する
発音誤り検出方法。 - コンピュータを、請求項1から7の何れかに記載の発音誤り検出装置として機能させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017185003 | 2017-09-26 | ||
JP2017185003 | 2017-09-26 | ||
PCT/JP2018/033936 WO2019065263A1 (ja) | 2017-09-26 | 2018-09-13 | 発音誤り検出装置、発音誤り検出方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019065263A1 true JPWO2019065263A1 (ja) | 2020-11-05 |
JP6840858B2 JP6840858B2 (ja) | 2021-03-10 |
Family
ID=65901397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019544561A Active JP6840858B2 (ja) | 2017-09-26 | 2018-09-13 | 発音誤り検出装置、発音誤り検出方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11568761B2 (ja) |
JP (1) | JP6840858B2 (ja) |
WO (1) | WO2019065263A1 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6970345B2 (ja) * | 2018-08-21 | 2021-11-24 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
JP2021110874A (ja) * | 2020-01-14 | 2021-08-02 | シンレイ チョウ | 発話練習プログラム、発話練習方法、及び、発話練習装置 |
CN111653292B (zh) * | 2020-06-22 | 2023-03-31 | 桂林电子科技大学 | 一种中国学生英语朗读质量分析方法 |
CN111986650B (zh) * | 2020-08-07 | 2024-02-27 | 云知声智能科技股份有限公司 | 借助语种识别辅助语音评测的方法及系统 |
CN112562636B (zh) * | 2020-12-03 | 2024-07-05 | 云知声智能科技股份有限公司 | 一种语音合成纠错的方法和装置 |
CN112634862B (zh) * | 2020-12-18 | 2024-01-23 | 北京大米科技有限公司 | 一种信息交互方法、装置、可读存储介质和电子设备 |
CN112908363B (zh) * | 2021-01-21 | 2022-11-22 | 北京乐学帮网络技术有限公司 | 一种发音检测方法、装置、计算机设备及存储介质 |
US20220277737A1 (en) * | 2021-03-01 | 2022-09-01 | Google Llc | Methods for evaluating the pronunciation of speech |
CN113299278B (zh) * | 2021-05-20 | 2023-06-13 | 北京大米科技有限公司 | 一种声学模型性能评估的方法、装置和电子设备 |
CN113327595B (zh) * | 2021-06-16 | 2022-08-02 | 北京语言大学 | 发音偏误检测方法、装置及存储介质 |
CN113938708B (zh) * | 2021-10-14 | 2024-04-09 | 咪咕文化科技有限公司 | 直播的音频纠错方法、装置、计算设备及存储介质 |
CN116805495B (zh) * | 2023-08-17 | 2023-11-21 | 北京语言大学 | 基于大语言模型的发音偏误检测及动作反馈方法及系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282096A (ja) * | 2000-03-31 | 2001-10-12 | Sanyo Electric Co Ltd | 外国語発音評価装置 |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
WO2005099414A2 (en) * | 2004-04-12 | 2005-10-27 | Burlingtonspeech Limited | Comprehensive spoken language learning system |
US20050277094A1 (en) * | 2004-05-28 | 2005-12-15 | Davidson Karen L | System and method to teach reading |
JP2006084966A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 発話音声の自動評定装置およびコンピュータプログラム |
US20090239201A1 (en) * | 2005-07-15 | 2009-09-24 | Richard A Moe | Phonetic pronunciation training device, phonetic pronunciation training method and phonetic pronunciation training program |
US8234107B2 (en) * | 2007-05-03 | 2012-07-31 | Ketera Technologies, Inc. | Supplier deduplication engine |
TW200926140A (en) * | 2007-12-11 | 2009-06-16 | Inst Information Industry | Method and system of generating and detecting confusion phones of pronunciation |
US9652999B2 (en) * | 2010-04-29 | 2017-05-16 | Educational Testing Service | Computer-implemented systems and methods for estimating word accuracy for automatic speech recognition |
WO2014005142A2 (en) * | 2012-06-29 | 2014-01-03 | Rosetta Stone Ltd | Systems and methods for modeling l1-specific phonological errors in computer-assisted pronunciation training system |
US9076347B2 (en) * | 2013-03-14 | 2015-07-07 | Better Accent, LLC | System and methods for improving language pronunciation |
WO2015057907A2 (en) * | 2013-10-16 | 2015-04-23 | Interactive Intelligence Group, Inc. | System and method for learning alternate pronunciations for speech recognition |
US9613638B2 (en) * | 2014-02-28 | 2017-04-04 | Educational Testing Service | Computer-implemented systems and methods for determining an intelligibility score for speech |
JP6527000B2 (ja) * | 2015-03-30 | 2019-06-05 | 株式会社エヌ・ティ・ティ・データ | 発音誤り検出装置、方法およびプログラム |
US10319369B2 (en) * | 2015-09-22 | 2019-06-11 | Vendome Consulting Pty Ltd | Methods for the automated generation of speech sample asset production scores for users of a distributed language learning system, automated accent recognition and quantification and improved speech recognition |
US10468015B2 (en) * | 2017-01-12 | 2019-11-05 | Vocollect, Inc. | Automated TTS self correction system |
-
2018
- 2018-09-13 WO PCT/JP2018/033936 patent/WO2019065263A1/ja active Application Filing
- 2018-09-13 US US16/648,392 patent/US11568761B2/en active Active
- 2018-09-13 JP JP2019544561A patent/JP6840858B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2019065263A1 (ja) | 2019-04-04 |
US11568761B2 (en) | 2023-01-31 |
JP6840858B2 (ja) | 2021-03-10 |
US20200219413A1 (en) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6840858B2 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US8990082B2 (en) | Non-scorable response filters for speech scoring systems | |
US9588967B2 (en) | Interpretation apparatus and method | |
JP3232289B2 (ja) | 記号挿入装置およびその方法 | |
US8577679B2 (en) | Symbol insertion apparatus and symbol insertion method | |
US20150194147A1 (en) | Non-Scorable Response Filters for Speech Scoring Systems | |
US10249321B2 (en) | Sound rate modification | |
US9548052B2 (en) | Ebook interaction using speech recognition | |
US20090150154A1 (en) | Method and system of generating and detecting confusing phones of pronunciation | |
US20170091177A1 (en) | Machine translation apparatus, machine translation method and computer program product | |
US20080046247A1 (en) | System And Method For Supporting Text-To-Speech | |
JP2015187684A (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US11495245B2 (en) | Urgency level estimation apparatus, urgency level estimation method, and program | |
Audhkhasi et al. | Reliability-Weighted Acoustic Model Adaptation Using Crowd Sourced Transcriptions. | |
Ibrahim et al. | Improve design for automated Tajweed checking rules engine of Quranic verse recitation: a review | |
JP6728116B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
Saadany et al. | Better transcription of uk supreme court hearings | |
KR101283271B1 (ko) | 어학 학습 장치 및 어학 학습 방법 | |
Yarra et al. | Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation | |
KR100319448B1 (ko) | 속도변환을 이용한 대화형 언어 교습 시스템 및 그 방법 | |
JP2014102345A (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP2017090660A (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6840858 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |