JPWO2021019775A1 - 多言語音声認識装置および多言語音声認識方法 - Google Patents
多言語音声認識装置および多言語音声認識方法 Download PDFInfo
- Publication number
- JPWO2021019775A1 JPWO2021019775A1 JP2021536583A JP2021536583A JPWO2021019775A1 JP WO2021019775 A1 JPWO2021019775 A1 JP WO2021019775A1 JP 2021536583 A JP2021536583 A JP 2021536583A JP 2021536583 A JP2021536583 A JP 2021536583A JP WO2021019775 A1 JPWO2021019775 A1 JP WO2021019775A1
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- language
- voice recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Description
図1は、本発明の実施の形態1に係る多言語音声認識装置10の構成を示す図である。図1のように、多言語音声認識装置10は、入力音声記憶部1と、複数(N個)の音声認識部2(第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_N)と、複数の音響モデル3(第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_N)と、複数の音声認識辞書4(第1の音声認識辞書4_1、第2の音声認識辞書4_2、・・・、第Nの音声認識辞書4_N)と、再認識用辞書作成部5と、再認識用音声認識辞書6と、音声再認識部7と、再認識用音響モデル8とを備えている。
実施の形態2に係る多言語音声認識装置10の構成は、実施の形態1(図1)と同様である。実施の形態1では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが、入力音声の音声認識の結果として、入力音声の表記文字列を出力した。それに対し、実施の形態2では、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nは、入力音声の音声認識の結果として、入力音声に対応する音素文字列を出力する。
図4は、実施の形態3に係る多言語音声認識装置10の構成を示す図である。図4の多言語音声認識装置10の構成は、図1の構成に対し、再認識用音響モデル8を再認識用言語選択部9に置き換えたものである。
実施の形態4に係る多言語音声認識装置10の構成は、実施の形態3(図4)と同様である。ただし、実施の形態4では、再認識用言語選択部9が、第1の音声認識部2_1、第2の音声認識部2_2、・・・、第Nの音声認識部2_Nが入力音声の音声認識に用いた言語で、且つ、有効な音声認識結果が得られた言語のうちから、優先順位の最も高い言語を、再認識用言語として選択する。そして、再認識用言語選択部9は、第1の音響モデル3_1、第2の音響モデル3_2、・・・、第Nの音響モデル3_Nのうちから、選択した言語の音声モデルを、音声再認識部7に提供する。つまり、実施の形態4の多言語音声認識装置10は、再認識用言語選択部9が、有効な音声認識結果が得られなかった言語を、再認識用言語の選択対象から除外する点で、実施の形態3とは異なる。
図8および図9は、それぞれ多言語音声認識装置10のハードウェア構成の例を示す図である。図1または図4に示した多言語音声認識装置10の構成要素の各機能は、例えば図8に示す処理回路50により実現される。すなわち、多言語音声認識装置10は、ユーザーが発話した入力音声を記憶し、入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、入力音声に対して再認識用音声認識辞書および再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、ための処理回路50を備える。処理回路50は、専用のハードウェアであってもよいし、メモリに格納されたプログラムを実行するプロセッサ(中央処理装置(CPU:Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)とも呼ばれる)を用いて構成されていてもよい。
Claims (7)
- ユーザーが発話した入力音声を記憶する入力音声記憶部と、
前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行う複数の音声認識部と、
複数の前記音声認識部それぞれの音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成する再認識用辞書作成部と、
前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う音声再認識部と、
を備える多言語音声認識装置。 - 複数の前記音声認識部のそれぞれは、前記音声認識の結果として前記表記文字列を出力し、
前記再認識用辞書作成部は、前記表記文字列に対する前記再認識用言語のG2P(Grapheme to Phoneme)変換によって得られた音素文字列を、前記再認識用音声認識辞書に登録する、
請求項1に記載の多言語音声認識装置。 - 複数の前記音声認識部のそれぞれは、前記音声認識の結果として前記音素文字列を出力し、
前記再認識用辞書作成部は、Cross lingual mappingを用いて前記音素文字列を前記再認識用言語に変換した音素文字列を、前記再認識用音声認識辞書に登録する、
請求項1に記載の多言語音声認識装置。 - 前記再認識用言語は、複数の前記音声認識部の認識対象である複数の言語のうちから前記ユーザーが選択した言語である
請求項1に記載の多言語音声認識装置。 - 複数の前記音声認識部の認識対象である複数の言語のそれぞれには、優先順位が設定されており、
複数の前記音声認識部が前記入力音声の音声認識に用いた言語のうちから、前記優先順位の最も高い言語を、前記再認識用言語として選択する再認識用言語選択部をさらに備える、
請求項1に記載の多言語音声認識装置。 - 前記再認識用言語選択部は、複数の前記音声認識部において有効な音声認識結果が得られなかった言語を、前記再認識用言語の選択対象から除外する、
請求項5に記載の多言語音声認識装置。 - 多言語音声認識装置の入力音声記憶部が、ユーザーが発話した入力音声を記憶し、
前記多言語音声認識装置の複数の音声認識部が、前記入力音声に対してそれぞれ異なる言語の音声認識辞書および音響モデルを用いて音声認識を行い、
前記多言語音声認識装置の再認識用辞書作成部が、前記それぞれ異なる言語での音声認識の結果としての表記文字列または音素文字列に基づいて、予め選択された再認識用言語の音声認識辞書である再認識用音声認識辞書を作成し、
前記多言語音声認識装置の音声再認識部が、前記入力音声に対して前記再認識用音声認識辞書および前記再認識用言語の音響モデルである再認識用音響モデルを用いた音声再認識を行う、
多言語音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/030281 WO2021019775A1 (ja) | 2019-08-01 | 2019-08-01 | 多言語音声認識装置および多言語音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021019775A1 true JPWO2021019775A1 (ja) | 2021-11-04 |
JP7038919B2 JP7038919B2 (ja) | 2022-03-18 |
Family
ID=74230642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021536583A Active JP7038919B2 (ja) | 2019-08-01 | 2019-08-01 | 多言語音声認識装置および多言語音声認識方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7038919B2 (ja) |
WO (1) | WO2021019775A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188556A (ja) * | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JP2004101727A (ja) * | 2002-09-06 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム |
JP2011154341A (ja) * | 2009-12-28 | 2011-08-11 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP2012529080A (ja) * | 2009-06-04 | 2012-11-15 | マイクロソフト コーポレーション | 再認識および統計的分類を使用する認識 |
WO2014136222A1 (ja) * | 2013-03-06 | 2014-09-12 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2016103358A1 (ja) * | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
-
2019
- 2019-08-01 WO PCT/JP2019/030281 patent/WO2021019775A1/ja active Application Filing
- 2019-08-01 JP JP2021536583A patent/JP7038919B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188556A (ja) * | 1999-12-27 | 2001-07-10 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置 |
JP2004101727A (ja) * | 2002-09-06 | 2004-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 多言語音声認識方法、装置、プログラム、および多言語話者適応方法、装置、プログラム |
JP2012529080A (ja) * | 2009-06-04 | 2012-11-15 | マイクロソフト コーポレーション | 再認識および統計的分類を使用する認識 |
JP2011154341A (ja) * | 2009-12-28 | 2011-08-11 | Fujitsu Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
WO2014136222A1 (ja) * | 2013-03-06 | 2014-09-12 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
WO2016103358A1 (ja) * | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7038919B2 (ja) | 2022-03-18 |
WO2021019775A1 (ja) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6686154B2 (ja) | 発話認識方法及び装置 | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
CN113692616B (zh) | 用于在端到端模型中的跨语言语音识别的基于音素的场境化 | |
US9449599B2 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
US7957969B2 (en) | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
US8532990B2 (en) | Speech recognition of a list entry | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
US20080027725A1 (en) | Automatic Accent Detection With Limited Manually Labeled Data | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
WO2011121649A1 (ja) | 音声認識装置 | |
CN112331229A (zh) | 语音检测方法、装置、介质和计算设备 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
US11295733B2 (en) | Dialogue system, dialogue processing method, translating apparatus, and method of translation | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
CN113327597B (zh) | 语音识别方法、介质、装置和计算设备 | |
US8494855B1 (en) | Method, system, and computer readable medium for comparing phonetic similarity of return words to resolve ambiguities during voice recognition | |
JP4905522B2 (ja) | 機器制御装置、機器制御方法及びプログラム | |
US20150066472A1 (en) | Method and apparatus for generating multiple phoneme strings for foreign noun | |
KR20120052591A (ko) | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
JP7038919B2 (ja) | 多言語音声認識装置および多言語音声認識方法 | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
US20140372118A1 (en) | Method and apparatus for exemplary chip architecture | |
JP6277659B2 (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210709 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7038919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |