JPWO2022105472A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2022105472A5 JPWO2022105472A5 JP2021577529A JP2021577529A JPWO2022105472A5 JP WO2022105472 A5 JPWO2022105472 A5 JP WO2022105472A5 JP 2021577529 A JP2021577529 A JP 2021577529A JP 2021577529 A JP2021577529 A JP 2021577529A JP WO2022105472 A5 JPWO2022105472 A5 JP WO2022105472A5
- Authority
- JP
- Japan
- Prior art keywords
- model
- acoustic
- language
- models
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Description
一実施態様において、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、このニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、音響特徴は、GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、あるいは、音響特徴は、ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した事後確率PDF付きの発音ユニットシーケンスグリッドとを含む。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。
現在の最も先進的な音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。音響モデルには、最も基本的な言語モデル情報のみが含まれる。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン(pipeline)方式の音声認識システムでは、一般的には、音響モデルAM、言語モデルLM、及び、発音モデルPMがそれぞれ1つ含まれる。
ここで、音響モデルAMは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルAMは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率PDF付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルLMは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルPMは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン(pipeline)スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルAMは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット(subword unit)のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルLMは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記3つのモデルは、従来の隠れマルコフモデル(hidden markov model、HMM)やN-グラム(N-Gram)などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの2つを組み合わせて、モデルが2つ(発音モデルAMと言語モデルLM)しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン(pipeline)スキームの変更にかかわらず、発音モデルAMと言語モデルLMとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン(pipeline)方式の音声認識システムでは、一般的には、音響モデルAM、言語モデルLM、及び、発音モデルPMがそれぞれ1つ含まれる。
ここで、音響モデルAMは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルAMは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率PDF付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルLMは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルPMは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン(pipeline)スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルAMは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット(subword unit)のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルLMは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記3つのモデルは、従来の隠れマルコフモデル(hidden markov model、HMM)やN-グラム(N-Gram)などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの2つを組み合わせて、モデルが2つ(発音モデルAMと言語モデルLM)しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン(pipeline)スキームの変更にかかわらず、発音モデルAMと言語モデルLMとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011294806.8A CN112420050B (zh) | 2020-11-18 | 2020-11-18 | 一种语音识别方法、装置和电子设备 |
CN202011294806.8 | 2020-11-18 | ||
PCT/CN2021/122961 WO2022105472A1 (zh) | 2020-11-18 | 2021-10-11 | 一种语音识别方法、装置和电子设备 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022551678A JP2022551678A (ja) | 2022-12-13 |
JPWO2022105472A5 true JPWO2022105472A5 (ja) | 2023-08-02 |
JP7335569B2 JP7335569B2 (ja) | 2023-08-30 |
Family
ID=74774269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021577529A Active JP7335569B2 (ja) | 2020-11-18 | 2021-10-11 | 音声認識方法、装置及び電子機器 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7335569B2 (ja) |
CN (1) | CN112420050B (ja) |
WO (1) | WO2022105472A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN113643694A (zh) * | 2021-08-17 | 2021-11-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN116013256B (zh) * | 2022-12-19 | 2024-01-30 | 镁佳(北京)科技有限公司 | 一种语音识别模型构建及语音识别方法、装置及存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3813491B2 (ja) * | 2001-10-30 | 2006-08-23 | 日本放送協会 | 連続音声認識装置およびそのプログラム |
KR20160098910A (ko) * | 2015-02-11 | 2016-08-19 | 한국전자통신연구원 | 음성 인식 데이터 베이스 확장 방법 및 장치 |
WO2017037830A1 (ja) * | 2015-08-31 | 2017-03-09 | 三菱電機株式会社 | 音声認識装置および音声認識処理方法 |
KR102423302B1 (ko) * | 2015-10-06 | 2022-07-19 | 삼성전자주식회사 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
KR102399535B1 (ko) * | 2017-03-23 | 2022-05-19 | 삼성전자주식회사 | 음성 인식을 위한 학습 방법 및 장치 |
CN111095397A (zh) * | 2017-10-04 | 2020-05-01 | 福特全球技术公司 | 自然言语数据生成系统和方法 |
CN110085215B (zh) * | 2018-01-23 | 2021-06-08 | 中国科学院声学研究所 | 一种基于生成对抗网络的语言模型数据增强方法 |
CN108922518B (zh) * | 2018-07-18 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 语音数据扩增方法和系统 |
CN109117484B (zh) * | 2018-08-13 | 2019-08-06 | 北京帝派智能科技有限公司 | 一种语音翻译方法和语音翻译设备 |
US10573296B1 (en) * | 2018-12-10 | 2020-02-25 | Apprente Llc | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping |
US11417322B2 (en) * | 2018-12-12 | 2022-08-16 | Google Llc | Transliteration for speech recognition training and scoring |
CN109739370B (zh) * | 2019-01-10 | 2019-09-03 | 北京帝派智能科技有限公司 | 一种语言模型训练方法、汉语拼音输入方法及装置 |
CN111179917B (zh) * | 2020-01-17 | 2023-01-03 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
-
2020
- 2020-11-18 CN CN202011294806.8A patent/CN112420050B/zh active Active
-
2021
- 2021-10-11 WO PCT/CN2021/122961 patent/WO2022105472A1/zh active Application Filing
- 2021-10-11 JP JP2021577529A patent/JP7335569B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rao et al. | Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer | |
US10559299B1 (en) | Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping | |
US11837216B2 (en) | Speech recognition using unspoken text and speech synthesis | |
US10249294B2 (en) | Speech recognition system and method | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
KR102375115B1 (ko) | 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화 | |
McGraw et al. | Learning lexicons from speech using a pronunciation mixture model | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
JP6876543B2 (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
JP6552999B2 (ja) | テキスト補正装置、テキスト補正方法、およびプログラム | |
Hu et al. | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
JP2024510817A (ja) | 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
KR20240051176A (ko) | 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기 | |
Razavi et al. | Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework | |
Wang et al. | Pronunciation modeling of foreign words for mandarin ASR by considering the effect of language transfer | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
JPWO2022105472A5 (ja) | ||
JP2015161927A (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
Kleinert et al. | Easy adaptation of speech recognition to different air traffic control environments using the deepspeech engine | |
Razavi et al. | Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic | |
Escur i Gelabert | Exploring automatic speech recognition with TensorFlow | |
KR102637025B1 (ko) | 자동 음성 인식을 위한 다언어 리스코어링 모델들 | |
Raj et al. | Design and implementation of speech recognition systems |