WO2014136222A1 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- WO2014136222A1 WO2014136222A1 PCT/JP2013/056142 JP2013056142W WO2014136222A1 WO 2014136222 A1 WO2014136222 A1 WO 2014136222A1 JP 2013056142 W JP2013056142 W JP 2013056142W WO 2014136222 A1 WO2014136222 A1 WO 2014136222A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- recognition
- result
- reading
- unit
- acoustic
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Abstract
Description
実施の形態1.
図1に示すように、本実施の形態1に係る音声認識装置1は、送信部3、分析部5、内部認識部7、言語モデル8、音響モデル9、読み付与部12、読み辞書13、再照合部15、再照合結果16を備えている。この音声認識装置1は、クライアント・サーバ型の音声認識システムを構成するクライアントに相当し、例えば利用者が携帯するスマートフォンなどのポータブル機器、車両等の移動体に搭載または持ち込まれるナビゲーション装置などの既存の機器に対して組み込んだり搭載したりしてもよく、または別体で用いてもよい。
外部認識部19は、ネットワークを介して音声認識装置1と接続されている音声認識サーバとする。ネットワークを介さず、有線または無線で直接接続されていても構わない。
なお、音響モデル9がモデル化する特徴ベクトル(即ち、図1の特徴ベクトル6)は、例えばMFCC(Mel Frequency Cepstral Coefficient)とする。また、音響モデルは、例えばHMM(Hidden Markov Model)とする。
また、音声認識装置1を、プログラムを格納したメモリと、そのプログラムを実行するCPUとを有する構成にして、CPUがプログラムを実行することにより送信部3、分析部5、内部認識部7、読み付与部12、再照合部15、および結果決定部17が持つ機能(詳細は後述する)をソフトウエアによって実現してもよいし、あるいはその一部をハードウエアで実現してもよい。
ステップST1において、利用者が発話すると、その発話の入力音声2が送信部3に入力される。送信部3は、入力音声2を音声データ4にA/D変換して分析部5に出力する。また、送信部3は同一の音声データ4を外部認識部19に送信する。
なお、ここでは音響尤度の高い上位1個の語彙のみを内部認識結果10に含める場合を説明するが、これに限定されるものではなく、例えば音響尤度の高い上位1個以上の各語彙を内部認識結果10に含める構成にしてもよい。
図6は、本実施の形態2に係る音声認識装置1の構成を示すブロック図である。図6において図1と同一または相当の部分については同一の符号を付し説明を省略する。本実施の形態2に係る音声認識装置1では、第2音響モデル20を追加したことが特徴である。
利用者が発話すると、送信部3が入力音声2を音声データ4にA/D変換し、分析部5と外部認識部19に出力する(ステップST1)。分析部5および内部認識部7は、上記実施の形態1と同一の動作をして(ステップST2,ST3)、内部認識結果10を出力する。但し、上記実施の形態1のステップST3では内部認識結果10を内部認識部7から結果決定部17に出力したが、本実施の形態2のステップST3では内部認識部7から再照合部15に出力する。
なお、前述したとおり、第2音響モデル20は音響モデル9と比較してモデルの種類が多いため、パターン照合に要する処理量が増加するが、再照合部15での照合対象は内部認識結果10に含まれる語彙に限定されるため、処理量の増加を小さく抑えることができる。
本実施の形態3に係る音声認識装置は、図1または図6に示す音声認識装置1と図面上では同様の構成であるため、以下では図1を援用して説明する。本実施の形態3に係る音声認識装置1では、読み辞書13の内容、ならびに読み付与部12および再照合部15の動作を後述するように変更するものである。
利用者が発話すると、送信部3が入力音声2を音声データ4にA/D変換し、分析部5と外部認識部19に出力する。分析部5および内部認識部7は、上記実施の形態1と同一の動作をして内部認識結果10を出力する。例えば入力音声2が「鈴鹿坂(すずかさか)」であった場合、「鈴鹿坂」は言語モデル8中に存在しないが、言語モデル8に記述された各語彙との間でパターン照合が行われ、音響尤度が最も高い語彙が出力される。本実施の形態3では、「鈴木酒店(すずきさけてん)」の音響尤度が最も高かったとする。従って、内部認識部7はその語彙の表記、読みおよび音響尤度を内部認識結果10として出力する。
図9は、本実施の形態4に係る音声認識装置1の構成を示すブロック図である。図9において図1および図6と同一または相当の部分については同一の符号を付し説明を省略する。本実施の形態4に係る音声認識装置1では、結果決定用言語モデル21を追加し、結果決定部17の動作を以下に説明するように変更するものである。
利用者が発話すると、その発話を入力として送信部3、分析部5、内部認識部7、読み付与部12、および再照合部15が上記実施の形態1と同一の動作をして、結果決定部17に対して内部認識部7から内部認識結果10を出力するとともに再照合部15から再照合結果16を出力する。
Claims (6)
- 入力音声データを認識処理した内部認識結果と、当該入力音声データを外部に存在する1個以上の外部認識部で認識処理した外部認識結果とを得て、最終的な認識結果を決定する音声認識装置であって、
音声の特徴量をモデル化した音響モデルと、
音声認識装置が認識対象とする1個以上の語彙の表記と読みを格納している言語モデルと、
前記認識対象および前記認識対象外の語彙の表記とその読みのペアを格納している読み辞書と、
前記入力音声データを分析して特徴ベクトルを算出する分析部と、
前記音響モデルを用いて、前記分析部の算出した前記特徴ベクトルと前記言語モデルに格納されている各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果として出力する内部認識部と、
前記外部認識部により前記入力音声データを認識処理した外部認識結果を取得し、前記読み辞書を用いて当該外部認識結果に対する読みを付与し、当該外部認識結果とその読みから構成される読み付与結果を出力する読み付与部と、
前記音響モデルを用いて、前記分析部の算出した前記特徴ベクトルと前記読み付与部の出力した前記読み付与結果とのパターン照合を行って、前記外部認識結果に対する音響尤度を算出する再照合部と、
前記内部認識結果の音響尤度と前記外部認識結果の音響尤度を比較して、最終的な認識結果を決定する結果決定部とを備えることを特徴とする音声認識装置。 - 前記音響モデルとは異なる第2音響モデルを備え、
前記再照合部は、前記第2音響モデルを用いて、前記分析部の算出した前記特徴ベクトルと前記内部認識部の出力した前記内部認識結果とのパターン照合を行って前記内部認識結果に対する音響尤度を算出すると共に、前記特徴ベクトルと前記読み付与部の出力した前記読み付与結果とのパターン照合を行って前記外部認識結果に対する音響尤度を算出し、
前記結果決定部は、前記再照合部の算出した前記内部認識結果の音響尤度と前記外部認識結果の音響尤度を比較して、最終的な認識結果を決定することを特徴とする請求項1記載の音声認識装置。 - 前記読み付与部は、前記外部認識結果に対する読みの候補が複数個存在する場合に当該複数個の読みを付与した読み付与結果を出力し、
前記再照合部は、前記読み付与結果に含まれる読みごとにパターン照合を行って音響尤度を算出し、当該音響尤度が最大の読みを選択して前記結果決定部に出力することを特徴とする請求項1記載の音声認識装置。 - 語彙とその言語尤度のペアを格納している結果決定用言語モデルを備え、
前記結果決定部は、前記結果決定用言語モデルを用いて前記内部認識結果の言語尤度と前記外部認識結果の言語尤度を算出し、前記内部認識結果の音響尤度および言語尤度と前記外部認識結果の音響尤度および言語尤度とを比較して、最終的な認識結果を決定することを特徴とする請求項1記載の音声認識装置。 - 前記結果決定用言語モデルは、統計n-gram言語モデルであることを特徴とする請求項4記載の音声認識装置。
- 入力音声データを音声認識装置内で認識処理した内部認識結果と、当該入力音声データを外部に存在する1個以上の外部認識部で認識処理した外部認識結果とを得て、最終的な認識結果を決定する音声認識方法であって、
前記入力音声データを前記外部認識部へ送信する送信ステップと、
前記入力音声データを分析して特徴ベクトルを算出する分析ステップと、
音声の特徴量をモデル化した音響モデルを用いて、前記分析ステップで算出した前記特徴ベクトルと、音声認識装置が認識対象とする1個以上の語彙の表記と読みを格納している言語モデル内の当該各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果として出力する内部認識ステップと、
前記外部認識部により前記入力音声データを認識処理した外部認識結果を取得し、前記認識対象および前記認識対象外の語彙の表記とその読みのペアを格納している読み辞書を用いて当該外部認識結果に対する読みを付与し、当該外部認識結果とその読みから構成される読み付与結果を出力する読み付与ステップと、
前記音響モデルを用いて、前記分析ステップで算出した前記特徴ベクトルと前記読み付与ステップで出力した前記読み付与結果とのパターン照合を行って、前記外部認識結果に対する音響尤度を算出する再照合ステップと、
前記内部認識結果の音響尤度と前記外部認識結果の音響尤度を比較して、最終的な認識結果を決定する結果決定ステップとを備えることを特徴とする音声認識方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201380074221.7A CN105009206B (zh) | 2013-03-06 | 2013-03-06 | 语音识别装置和语音识别方法 |
PCT/JP2013/056142 WO2014136222A1 (ja) | 2013-03-06 | 2013-03-06 | 音声認識装置および音声認識方法 |
DE112013006770.6T DE112013006770B4 (de) | 2013-03-06 | 2013-03-06 | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
JP2015504055A JP5868544B2 (ja) | 2013-03-06 | 2013-03-06 | 音声認識装置および音声認識方法 |
US14/655,141 US9431010B2 (en) | 2013-03-06 | 2013-03-06 | Speech-recognition device and speech-recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/056142 WO2014136222A1 (ja) | 2013-03-06 | 2013-03-06 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014136222A1 true WO2014136222A1 (ja) | 2014-09-12 |
Family
ID=51490785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/056142 WO2014136222A1 (ja) | 2013-03-06 | 2013-03-06 | 音声認識装置および音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9431010B2 (ja) |
JP (1) | JP5868544B2 (ja) |
CN (1) | CN105009206B (ja) |
DE (1) | DE112013006770B4 (ja) |
WO (1) | WO2014136222A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021019775A1 (ja) * | 2019-08-01 | 2021-02-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105161092B (zh) * | 2015-09-17 | 2017-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法和装置 |
CN106782546A (zh) * | 2015-11-17 | 2017-05-31 | 深圳市北科瑞声科技有限公司 | 语音识别方法与装置 |
US20180366123A1 (en) * | 2015-12-01 | 2018-12-20 | Nuance Communications, Inc. | Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base |
CN105957516B (zh) * | 2016-06-16 | 2019-03-08 | 百度在线网络技术(北京)有限公司 | 多语音识别模型切换方法及装置 |
JP6585022B2 (ja) * | 2016-11-11 | 2019-10-02 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
CN106782502A (zh) * | 2016-12-29 | 2017-05-31 | 昆山库尔卡人工智能科技有限公司 | 一种儿童机器人用的语音识别装置 |
US11132998B2 (en) * | 2017-03-24 | 2021-09-28 | Mitsubishi Electric Corporation | Voice recognition device and voice recognition method |
CN110111778B (zh) * | 2019-04-30 | 2021-11-12 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005037662A (ja) * | 2003-07-14 | 2005-02-10 | Denso Corp | 音声対話システム |
JP2010085536A (ja) * | 2008-09-30 | 2010-04-15 | Fyuutorekku:Kk | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
JP2010091675A (ja) * | 2008-10-06 | 2010-04-22 | Mitsubishi Electric Corp | 音声認識装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3581648B2 (ja) * | 2000-11-27 | 2004-10-27 | キヤノン株式会社 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
JP5046589B2 (ja) * | 2006-09-05 | 2012-10-10 | 日本電気通信システム株式会社 | 電話システムと通話補助方法とプログラム |
WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP5621993B2 (ja) * | 2009-10-28 | 2014-11-12 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8972263B2 (en) * | 2011-11-18 | 2015-03-03 | Soundhound, Inc. | System and method for performing dual mode speech recognition |
-
2013
- 2013-03-06 CN CN201380074221.7A patent/CN105009206B/zh not_active Expired - Fee Related
- 2013-03-06 WO PCT/JP2013/056142 patent/WO2014136222A1/ja active Application Filing
- 2013-03-06 DE DE112013006770.6T patent/DE112013006770B4/de not_active Expired - Fee Related
- 2013-03-06 JP JP2015504055A patent/JP5868544B2/ja not_active Expired - Fee Related
- 2013-03-06 US US14/655,141 patent/US9431010B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003323196A (ja) * | 2002-05-08 | 2003-11-14 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005037662A (ja) * | 2003-07-14 | 2005-02-10 | Denso Corp | 音声対話システム |
JP2010085536A (ja) * | 2008-09-30 | 2010-04-15 | Fyuutorekku:Kk | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
JP2010091675A (ja) * | 2008-10-06 | 2010-04-22 | Mitsubishi Electric Corp | 音声認識装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021019775A1 (ja) * | 2019-08-01 | 2021-02-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
JPWO2021019775A1 (ja) * | 2019-08-01 | 2021-11-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
JP7038919B2 (ja) | 2019-08-01 | 2022-03-18 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2014136222A1 (ja) | 2017-02-09 |
US20160005400A1 (en) | 2016-01-07 |
US9431010B2 (en) | 2016-08-30 |
CN105009206B (zh) | 2018-02-09 |
JP5868544B2 (ja) | 2016-02-24 |
DE112013006770B4 (de) | 2020-06-18 |
DE112013006770T5 (de) | 2015-12-24 |
CN105009206A (zh) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5868544B2 (ja) | 音声認識装置および音声認識方法 | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
JP5957269B2 (ja) | 音声認識サーバ統合装置および音声認識サーバ統合方法 | |
JP4802434B2 (ja) | 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体 | |
JP5200712B2 (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
JP5409931B2 (ja) | 音声認識装置及びナビゲーション装置 | |
JP4224250B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP2001242884A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
KR20210034276A (ko) | 대화 시스템, 대화 처리 방법 및 전자 장치 | |
CN112651247A (zh) | 对话系统、对话处理方法、翻译装置和翻译方法 | |
JP2010078877A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
Sahu et al. | A study on automatic speech recognition toolkits | |
US20150262575A1 (en) | Meta-data inputs to front end processing for automatic speech recognition | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP6078435B2 (ja) | 記号列変換方法、音声認識方法、それらの装置及びプログラム | |
JP2012255867A (ja) | 音声認識装置 | |
WO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
KR20140051519A (ko) | 연속어 음성인식 방법 및 연속어 음성인식 장치 | |
JP3894419B2 (ja) | 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3936919B2 (ja) | 音声キーワード認識装置 | |
JP4600705B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13876914 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2015504055 Country of ref document: JP Kind code of ref document: A |
|
WWE | Wipo information: entry into national phase |
Ref document number: 14655141 Country of ref document: US |
|
WWE | Wipo information: entry into national phase |
Ref document number: 1120130067706 Country of ref document: DE Ref document number: 112013006770 Country of ref document: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13876914 Country of ref document: EP Kind code of ref document: A1 |