JPWO2022105472A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022105472A5
JPWO2022105472A5 JP2021577529A JP2021577529A JPWO2022105472A5 JP WO2022105472 A5 JPWO2022105472 A5 JP WO2022105472A5 JP 2021577529 A JP2021577529 A JP 2021577529A JP 2021577529 A JP2021577529 A JP 2021577529A JP WO2022105472 A5 JPWO2022105472 A5 JP WO2022105472A5
Authority
JP
Japan
Prior art keywords
model
acoustic
language
models
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021577529A
Other languages
English (en)
Other versions
JP2022551678A (ja
JP7335569B2 (ja
Publication date
Priority claimed from CN202011294806.8A external-priority patent/CN112420050B/zh
Application filed filed Critical
Publication of JP2022551678A publication Critical patent/JP2022551678A/ja
Publication of JPWO2022105472A5 publication Critical patent/JPWO2022105472A5/ja
Application granted granted Critical
Publication of JP7335569B2 publication Critical patent/JP7335569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

一実施態様において、音響モデルは、隠れマルコフモデルと組み合わせたガウス混合モデルGMM-HMM、又は、隠れマルコフモデルと組み合わせたニューラルネットワークモデルNN-HMMを含み、このニューラルネットワークモデルは、長短期記憶ネットワークモデルLSTMを含み、音響特徴は、GMM-HMMから出力されたすべてのHMM状態での出力確率を含み、あるいは、音響特徴は、ニューラルネットワークモデルがsoftmax層を介して出力したすべてのHMM状態での正規化確率が接続タイミングモデルCTC又はビタビアルゴリズムviterbiを介して出力した事後確率PDF付きの発音ユニットシーケンスグリッドとを含む。
前記発音ユニットは、状態、音素、声韻母、音節、文字又は単語であってもよく、本実施例は、これについて限定しない。
現在の最も先進的な音声認識システムは、一般的には、音響モデルと言語モデルを完全に分離する方法でトレーニングし、音声認識の応用を疎結合的に行う。音響モデルには、最も基本的な言語モデル情報のみが含まれる。
言語モデルには、音響データとは関係ない言語関連の情報のみが含まれる。つまり、言語モデルは、テキストレベルでの文字コロケーション関係のみを表す。
例えば、従来のパイプライン(pipeline)方式の音声認識システムでは、一般的には、音響モデルAM、言語モデルLM、及び、発音モデルPMがそれぞれ1つ含まれる。
ここで、音響モデルAMは、音響特徴から発音ユニットへの関係を表すために用いられ、音響モデルAMは、一般に、オーディオデータから抽出された音響特徴を入力とし、通常に、各音響特徴に対応する発音ユニットシーケンスを出力とする。
ここで、音響モデルは、サウンドユニットシーケンスを表すために用いられる事後確率PDF付きの音素シーケンスグリッド又はマトリックスを中間出力の音響特徴とすることができる。
言語モデルLMは、発音ユニットシーケンスと最終的に認識されるテキストシーケンスの間のマッピング関係を表すために用いられ、言語モデルは、音響モデルの中間出力の音響特徴を入力とし、テキストシーケンスを出力とすることができる。
発音モデルPMは、テキストシーケンスをサウンドとして出力するために用いられる。
パイプライン(pipeline)スキームに基づいて、従来の音声認識は、以下のように実現される。まず、音響モデルAMは、音響特徴を抽出し、一般的に、文脈依存又は文脈非依存の音素シーケンスであるサブワードユニット(subword unit)のセットを予測する。次に、音響モデルによって生成された音素シーケンスを、手動設計された辞書を用いてワードシーケンスにマッピングする。最後に、言語モデルLMは、確率をワードシーケンスに割り当て、全体的な同時確率が最大のワードシーケンスを探して認識結果とする。
上記3つのモデルは、従来の隠れマルコフモデル(hidden markov model、HMM)やN-グラム(N-Gram)などの方法で構築してもよく、ディープニューラルネットワークなどの方法で構築してもよく、また、上記モデルのうちの2つを組み合わせて、モデルが2つ(発音モデルAMと言語モデルLM)しかないことを外の世界に見せるようにしてもよい。
しかし、パイプライン(pipeline)スキームの変更にかかわらず、発音モデルAMと言語モデルLMとを分離して互いに独立させる技術思想から離れることはない。
このスキームの欠点は、音響モデルと言語モデルが別々にトレーニングされ、独立して最適化されるため、パイプラインスキームに対してエンドツーエンドの全体的な最適化を実行できず、グローバル(大域的)な最適認識結果を取得できず、したがって、パイプラインスキームの音声認識精度を向上させることが難しいことである。
JP2021577529A 2020-11-18 2021-10-11 音声認識方法、装置及び電子機器 Active JP7335569B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011294806.8A CN112420050B (zh) 2020-11-18 2020-11-18 一种语音识别方法、装置和电子设备
CN202011294806.8 2020-11-18
PCT/CN2021/122961 WO2022105472A1 (zh) 2020-11-18 2021-10-11 一种语音识别方法、装置和电子设备

Publications (3)

Publication Number Publication Date
JP2022551678A JP2022551678A (ja) 2022-12-13
JPWO2022105472A5 true JPWO2022105472A5 (ja) 2023-08-02
JP7335569B2 JP7335569B2 (ja) 2023-08-30

Family

ID=74774269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021577529A Active JP7335569B2 (ja) 2020-11-18 2021-10-11 音声認識方法、装置及び電子機器

Country Status (3)

Country Link
JP (1) JP7335569B2 (ja)
CN (1) CN112420050B (ja)
WO (1) WO2022105472A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN113643694A (zh) * 2021-08-17 2021-11-12 科大讯飞股份有限公司 语音识别方法、装置、电子设备和存储介质
CN116013256B (zh) * 2022-12-19 2024-01-30 镁佳(北京)科技有限公司 一种语音识别模型构建及语音识别方法、装置及存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3813491B2 (ja) * 2001-10-30 2006-08-23 日本放送協会 連続音声認識装置およびそのプログラム
KR20160098910A (ko) * 2015-02-11 2016-08-19 한국전자통신연구원 음성 인식 데이터 베이스 확장 방법 및 장치
WO2017037830A1 (ja) * 2015-08-31 2017-03-09 三菱電機株式会社 音声認識装置および音声認識処理方法
KR102423302B1 (ko) * 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
CN111095397A (zh) * 2017-10-04 2020-05-01 福特全球技术公司 自然言语数据生成系统和方法
CN110085215B (zh) * 2018-01-23 2021-06-08 中国科学院声学研究所 一种基于生成对抗网络的语言模型数据增强方法
CN108922518B (zh) * 2018-07-18 2020-10-23 苏州思必驰信息科技有限公司 语音数据扩增方法和系统
CN109117484B (zh) * 2018-08-13 2019-08-06 北京帝派智能科技有限公司 一种语音翻译方法和语音翻译设备
US10573296B1 (en) * 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
US11417322B2 (en) * 2018-12-12 2022-08-16 Google Llc Transliteration for speech recognition training and scoring
CN109739370B (zh) * 2019-01-10 2019-09-03 北京帝派智能科技有限公司 一种语言模型训练方法、汉语拼音输入方法及装置
CN111179917B (zh) * 2020-01-17 2023-01-03 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112420050B (zh) * 2020-11-18 2021-06-18 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Similar Documents

Publication Publication Date Title
Rao et al. Exploring architectures, data and units for streaming end-to-end speech recognition with rnn-transducer
US10559299B1 (en) Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
US10249294B2 (en) Speech recognition system and method
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
McGraw et al. Learning lexicons from speech using a pronunciation mixture model
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
JP6876543B2 (ja) 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
JP2024510817A (ja) 効率的なストリーミング非リカレントオンデバイスエンドツーエンドモデル
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
KR20240051176A (ko) 스피치 합성 기반 모델 적응을 통한 스피치 인식 개선하기
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
Wang et al. Pronunciation modeling of foreign words for mandarin ASR by considering the effect of language transfer
Rasipuram et al. Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic
JPWO2022105472A5 (ja)
JP2015161927A (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
Kleinert et al. Easy adaptation of speech recognition to different air traffic control environments using the deepspeech engine
Razavi et al. Pronunciation lexicon development for under-resourced languages using automatically derived subword units: a case study on Scottish Gaelic
Escur i Gelabert Exploring automatic speech recognition with TensorFlow
KR102637025B1 (ko) 자동 음성 인식을 위한 다언어 리스코어링 모델들
Raj et al. Design and implementation of speech recognition systems