WO2014136222A1 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
WO2014136222A1
WO2014136222A1 PCT/JP2013/056142 JP2013056142W WO2014136222A1 WO 2014136222 A1 WO2014136222 A1 WO 2014136222A1 JP 2013056142 W JP2013056142 W JP 2013056142W WO 2014136222 A1 WO2014136222 A1 WO 2014136222A1
Authority
WO
WIPO (PCT)
Prior art keywords
recognition
result
reading
unit
acoustic
Prior art date
Application number
PCT/JP2013/056142
Other languages
English (en)
French (fr)
Inventor
利行 花沢
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to CN201380074221.7A priority Critical patent/CN105009206B/zh
Priority to PCT/JP2013/056142 priority patent/WO2014136222A1/ja
Priority to DE112013006770.6T priority patent/DE112013006770B4/de
Priority to JP2015504055A priority patent/JP5868544B2/ja
Priority to US14/655,141 priority patent/US9431010B2/en
Publication of WO2014136222A1 publication Critical patent/WO2014136222A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Abstract

 音声認識装置1は、入力音声2の音声データ4に対して、内部認識部7において音響モデル9を用いた認識処理を行って内部認識結果10と音響尤度を求める。読み付与部12は、入力音声2の音声データ4を外部認識部19で認識処理した外部認識結果11を取得して読みを付与し、再照合部15が音響モデル9を用いて外部認識結果11の音響尤度を求めて再照合結果16とする。結果決定部17は、内部認識結果10の音響尤度と、再照合結果16に含まれる外部認識結果11の音響尤度とを比較して、最終認識結果18を決定する。

Description

音声認識装置および音声認識方法
 この発明は、外部の音声認識部と内部の音声認識部とからそれぞれ認識結果を得て、最終的な認識結果を決定する音声認識装置および音声認識方法に関する。
 カーナビゲーション装置およびスマートフォンなどの機器で音声認識を行う場合、それらの機器はハードウエア資源が必ずしも十分でないため、発話全ての音声認識を機器内で実行するのではなく、外部のサーバに音声データを送信しそのサーバで音声認識を行った結果を受信するというクライアント・サーバ型の音声認識システムがある。なお、ここでのクライアントとは、カーナビゲーション装置およびスマートフォンなど、利用者の手元にある機器のことである。これによって、クライアントでも大語彙の音声認識を利用することが可能となる。但し、クライアントに特有な認識語彙、および利用者のアドレス帳にのみ存在する固有名詞などは、必ずしもサーバで認識可能とは限らない。
 その対策として、特許文献1では、単にサーバで音声認識してクライアントで結果を受信するというだけでなく、発話によってはクライアントとサーバの両方で音声認識し、両方の結果を併記、またはどちらかの認識結果を選択する技術が開示されている。具体的には、特許文献1には、クライアントとサーバの認識結果のどちらかを選択する場合には、音響尤度の高いほうを選択することが記述されている。
特開2010-85536号公報
 従来のクライアント・サーバ型の音声認識方法の場合、クライアントとサーバの認識結果のどちらかを選択する際に両者の認識結果の確からしさを示す数値である認識スコア、尤度などを比較する必要があるが、サーバ側からこれらの情報が得られない場合がある。また、得られたとしてもクライアント側の音声認識と同一基準で算出したものである保証はない。そのため、クライアントとサーバの認識結果のどちらかを選択する場合、正確な比較ができず十分な音声認識精度が得られない場合があるという課題があった。
 この発明は、上記のような課題を解決するためになされたもので、クライアントの認識結果とサーバの認識結果を同一条件下で比較して最終的な認識精度を向上させる音声認識装置および音声認識方法を得ることを目的とする。
 この発明の音声認識装置は、音声の特徴量をモデル化した音響モデルと、音声認識装置が認識対象とする1個以上の語彙の表記と読みを格納している言語モデルと、認識対象および認識対象外の語彙の表記とその読みのペアを格納している読み辞書と、入力音声データを分析して特徴ベクトルを算出する分析部と、音響モデルを用いて、分析部の算出した特徴ベクトルと言語モデルに格納されている各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果として出力する内部認識部と、外部認識部により入力音声データを認識処理した外部認識結果を取得し、読み辞書を用いて当該外部認識結果に対する読みを付与し、当該外部認識結果とその読みから構成される読み付与結果を出力する読み付与部と、音響モデルを用いて、分析部の算出した特徴ベクトルと読み付与部の出力した読み付与結果とのパターン照合を行って、外部認識結果に対する音響尤度を算出する再照合部と、内部認識結果の音響尤度と外部認識結果の音響尤度を比較して、最終的な認識結果を決定する結果決定部とを備えるものである。
 この発明の音声認識方法は、入力音声データを外部認識部へ送信する送信ステップと、入力音声データを分析して特徴ベクトルを算出する分析ステップと、音声の特徴量をモデル化した音響モデルを用いて、分析ステップで算出した特徴ベクトルと、音声認識装置が認識対象とする1個以上の語彙の表記と読みを格納している言語モデル内の当該各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果として出力する内部認識ステップと、外部認識部により入力音声データを認識処理した外部認識結果を取得し、認識対象および認識対象外の語彙の表記とその読みのペアを格納している読み辞書を用いて当該外部認識結果に対する読みを付与し、当該外部認識結果とその読みから構成される読み付与結果を出力する読み付与ステップと、音響モデルを用いて、分析ステップで算出した特徴ベクトルと読み付与ステップで出力した読み付与結果とのパターン照合を行って、外部認識結果に対する音響尤度を算出する再照合ステップと、内部認識結果の音響尤度と外部認識結果の音響尤度を比較して、最終的な認識結果を決定する結果決定ステップとを備えるものである。
 この発明によれば、同一の音響モデルを用いて内部認識結果の音響尤度と外部認識結果の音響尤度を算出して比較することにより、最終的な認識精度を向上させた音声認識装置および音声認識方法を得ることができる。
この発明の実施の形態1に係る音声認識装置の構成を示すブロック図である。 実施の形態1に係る音声認識装置の有する言語モデルの内容例を説明する図である。 実施の形態1に係る音声認識装置の有する読み辞書の内容例を説明する図である。 実施の形態1に係る音声認識装置の動作を示すフローチャートである。 実施の形態1に係る音声認識装置の変形例として、英語の読み辞書の内容例を説明する図である。 この発明の実施の形態2に係る音声認識装置の構成を示すブロック図である。 実施の形態2に係る音声認識装置の動作を示すフローチャートである。 この発明の実施の形態3に係る音声認識装置の有する読み辞書の内容例を説明する図である。 この発明の実施の形態4に係る音声認識装置の構成を示すブロック図である。 実施の形態4に係る音声認識装置の有する結果決定用言語モデルの内容例を説明する図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1に示すように、本実施の形態1に係る音声認識装置1は、送信部3、分析部5、内部認識部7、言語モデル8、音響モデル9、読み付与部12、読み辞書13、再照合部15、再照合結果16を備えている。この音声認識装置1は、クライアント・サーバ型の音声認識システムを構成するクライアントに相当し、例えば利用者が携帯するスマートフォンなどのポータブル機器、車両等の移動体に搭載または持ち込まれるナビゲーション装置などの既存の機器に対して組み込んだり搭載したりしてもよく、または別体で用いてもよい。
 外部認識部19は、ネットワークを介して音声認識装置1と接続されている音声認識サーバとする。ネットワークを介さず、有線または無線で直接接続されていても構わない。
 音声認識装置1において、音響モデル9は、音声の特徴ベクトルをモデル化した音響モデルを格納している。本実施の形態1では、音響モデルは音素をモデル化したものとし、音響モデル9には全ての音素に対する音響モデルを格納している。全音素の音響モデルがあれば、音素の音響モデルを接続することにより、任意の語彙の音声の特徴ベクトルをモデル化することができる。
 なお、音響モデル9がモデル化する特徴ベクトル(即ち、図1の特徴ベクトル6)は、例えばMFCC(Mel Frequency Cepstral Coefficient)とする。また、音響モデルは、例えばHMM(Hidden Markov Model)とする。
 言語モデル8は、内部認識部7で認識対象とする語彙の表記と読みを格納している。なお、ここで言う読みとは、音響モデル9との対応付けが可能な記号の系列である。例えば、音響モデル9が音素をモデル化したものであれば、言語モデル8の読みは音素系列等である。本実施の形態1では、音声認識装置1の認識対象を神奈川県内の施設名とする。この場合の言語モデル8の内容例を、図2に示す。図2では読みとして音素の系列を用いている。
 読み辞書13は、内部認識部7では認識対象としない語彙も含む大量の語彙の表記と読みのペアを格納している。なお、読みは、言語モデル8と同様に、音響モデル9との対応付けが可能な記号の系列としておく。本実施の形態1では読み辞書13の読みを音素系列とする。この読み辞書13の内容例を、図3に示す。
 これらの言語モデル8、音響モデル9、および読み辞書13は、共通の記憶素子または記憶装置などに記憶してもよいし、それぞれ独立した記憶素子または記憶装置などに記憶してもよい。
 また、音声認識装置1を、プログラムを格納したメモリと、そのプログラムを実行するCPUとを有する構成にして、CPUがプログラムを実行することにより送信部3、分析部5、内部認識部7、読み付与部12、再照合部15、および結果決定部17が持つ機能(詳細は後述する)をソフトウエアによって実現してもよいし、あるいはその一部をハードウエアで実現してもよい。
 次に、図4のフローチャートを参照して、音声認識時の動作を説明する。
 ステップST1において、利用者が発話すると、その発話の入力音声2が送信部3に入力される。送信部3は、入力音声2を音声データ4にA/D変換して分析部5に出力する。また、送信部3は同一の音声データ4を外部認識部19に送信する。
 ステップST2において、分析部5は、音声データ4を特徴ベクトル6に変換して内部認識部7と再照合部15に出力する。特徴ベクトル6は、上述したように、例えばMFCCとする。
 ステップST3において、内部認識部7は、言語モデル8と音響モデル9を用い、例えばビタビアルゴリズムに従って特徴ベクトル6と言語モデル8に記述された各語彙との間でパターン照合(パターンマッチング)を行って音響尤度を算出し、音響尤度が最も高い語彙を選択して内部認識結果10として結果決定部17に出力する。
 なお、ここでは音響尤度の高い上位1個の語彙のみを内部認識結果10に含める場合を説明するが、これに限定されるものではなく、例えば音響尤度の高い上位1個以上の各語彙を内部認識結果10に含める構成にしてもよい。
 この内部認識結果10は、語彙の表記、読み、および音響尤度から構成される。例えば、入力音声2が「舞浜国際競技場(まいはまこくさいきょーぎじょー)」であった場合、同一の語彙は言語モデル8中に存在しないが、言語モデル8の語彙のうち音響尤度が最も高い語彙が出力される。本例では「横浜国際競技場(よこはまこくさいきょーぎじょー)」の音響尤度が最も高かったとする。従って、内部認識部7はその語彙の表記「横浜国際競技場」、読み「yokohamakokusaikyoogizyoo」、および音響尤度を、内部認識結果10として出力する。
 ステップST4において、読み付与部12は、外部認識部19から外部認識結果11が返送されるのを待つ。なお、本実施の形態1では、外部認識結果11が少なくとも音声データ4の認識結果である語彙の表記を含むが、その語彙の読みは含まないものと仮定する。
 読み付与部12が外部認識結果11を受信すると(ステップST4“YES”)、読み辞書13を参照して外部認識結果11に含まれる語彙の表記と一致するものの読みを抽出し、読み付与結果14として再照合部15に出力する(ステップST5)。例えば、外部認識結果11が「舞浜国際競技場」であった場合、読み付与部12は読み辞書13を参照して一致する表記「舞浜国際競技場」と読み「maihamakokusaikyoogizyoo」を抽出し、読み付与結果14として出力する。
 ステップST6において、再照合部15は、特徴ベクトル6と読み付与結果14を入力とし、内部認識部7でパターン照合に使用したものと同一の音響モデルを用いて、即ち音響モデル9を用いて、特徴ベクトル6の読みと読み付与結果14の読みとの間でパターン照合を行い、読み付与結果14に対する音響尤度を算出する。再照合部15のパターン照合方法は、内部認識部7で使用するパターン照合方法と同一のものとする。本実施の形態1ではビタビアルゴリズムを使用する。
 このように、再照合部15が、内部認識部7と同一の音響モデルとパターン照合方法を使用することによって、内部認識部7で算出した内部認識結果10と外部認識部19で算出した外部認識結果11の音響尤度が比較可能になる。再照合部15は、読み付与結果14と算出した音響尤度とから構成される再照合結果16を結果決定部17に出力する。
 ステップST7において、結果決定部17は、内部認識結果10と再照合結果16を入力とし、音響尤度の高い順に認識結果を並べ替えて、最終認識結果18として出力する。上記説明例では、入力音声2が「舞浜国際競技場」で、内部認識部7による内部認識結果10が「横浜国際競技場」、外部認識部19による外部認識結果11が「舞浜国際競技場」なので、同一の音響モデル9を用いてパターン照合を行い音響尤度を算出すれば、外部認識部19の「舞浜国際競技場」のほうが音響尤度が高くなることが期待でき、音声認識精度改善に寄与する。
 以上より、実施の形態1によれば、音声認識装置1は、音声の特徴量をモデル化した音響モデル9と、音声認識装置1が認識対象とする1個以上の語彙の表記と読みを格納している言語モデル8と、認識対象だけでなく認識対象外も含めた大量の語彙の表記とその読みのペアを格納している読み辞書13と、入力音声2の音声データ4を分析して特徴ベクトル6を算出する分析部5と、音響モデル9を用いて分析部5の算出した特徴ベクトル6と言語モデル8に格納されている各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果10として出力する内部認識部7と、外部認識部19により音声データ4を認識処理した外部認識結果11を取得し、読み辞書13を用いて外部認識結果11に対する読みを付与し、外部認識結果11とその読みから構成される読み付与結果14を出力する読み付与部12と、音響モデル9を用いて分析部5の算出した特徴ベクトル6と読み付与部12の出力した読み付与結果14とのパターン照合を行って、外部認識結果11に対する音響尤度を算出する再照合部15と、内部認識結果10の音響尤度と再照合結果16の音響尤度を比較して最終的な認識結果を決定する結果決定部17とを備えるように構成した。このため、外部認識結果11に対し、内部認識部7と同一の音響モデルとパターン照合方法を使用して音響尤度を求めることができ、外部認識結果11の音響尤度と内部認識結果10の音響尤度の正確な比較が可能になり、最終的な認識精度を向上することができる。従って、例えば音声認識装置1のハードウエア資源が十分でなく言語モデル8の語彙数が少ない場合であっても、大規模な言語モデルを有する外部認識部19の認識結果を利用することができ、音声認識装置1の認識性能が改善するという効果がある。
 なお、本実施の形態1に係る音声認識装置1は、日本語以外の言語にも適用可能である。例えば、音声認識装置1を英語に適用する場合は、言語モデル8、音響モデル9および読み辞書13をそれぞれ英語用に変更すればよい。その場合、読み辞書13には大量の英語の語彙の表記と読みを登録しておけばよい。なお、読み辞書13の読みは音響モデル9と対応付けが可能な表記にしておく。例えば、音響モデル9が英語の音素であれば、読み辞書13の読みは音素表記、または音素表記に変換可能な記号にしておく。図5に、英語の読み辞書13の例を示す。図5の1列目に表記、2列目にその読みとして音素表記を記している。
 また、読み辞書13には、外部認識結果11の語彙に一致する読みが存在しないことがないように、大量の語彙の読みを格納しておくが、それでも一致するものが読み辞書13に存在しない場合は、予め内部認識部7と外部認識部19のどちらの認識結果を採用するか決めておき、結果決定部17がその決めておいた方の認識結果を最終結果とすればよい。
実施の形態2.
 図6は、本実施の形態2に係る音声認識装置1の構成を示すブロック図である。図6において図1と同一または相当の部分については同一の符号を付し説明を省略する。本実施の形態2に係る音声認識装置1では、第2音響モデル20を追加したことが特徴である。
 第2音響モデル20は、上記実施の形態1の音響モデル9と同様に、音声の特徴ベクトルをモデル化した音響モデルを格納している。但し、第2音響モデル20は、音響モデル9よりも精密で認識精度の高い音響モデルとする。例えば音響モデルで音素をモデル化する場合に、モデル化の対象とする音素だけではなくその音素の前後の音素も考慮したトライフォン音素をモデル化したものとする。トライフォンの場合、「朝/asa」の第2番目の音素/s/と、「石/isi/」の第2番目の音素/s/とでは、前後の音素が異なるので、異なる音響モデルでモデル化することになり、これによって認識精度が向上することが知られている。但し音響モデルの種類が増えるため、パターン照合時の演算量が増加する。
 次に、図7のフローチャートを参照して、音声認識時の動作を説明する。
 利用者が発話すると、送信部3が入力音声2を音声データ4にA/D変換し、分析部5と外部認識部19に出力する(ステップST1)。分析部5および内部認識部7は、上記実施の形態1と同一の動作をして(ステップST2,ST3)、内部認識結果10を出力する。但し、上記実施の形態1のステップST3では内部認識結果10を内部認識部7から結果決定部17に出力したが、本実施の形態2のステップST3では内部認識部7から再照合部15に出力する。
 ステップST11において、再照合部15は、特徴ベクトル6と内部認識結果10を入力とし、第2音響モデル20を用いて特徴ベクトル6の読みと内部認識結果10の読みとの間でパターン照合を行い、内部認識結果10に対する音響尤度を算出する。このときのパターン照合方法は、内部認識部7で使用する方法と同一である必要はないが、本実施の形態2ではビタビアルゴリズムを使用する。再照合部15は、内部認識結果10と算出した音響尤度とから構成される再照合結果16aを結果決定部17に出力する。
 なお、前述したとおり、第2音響モデル20は音響モデル9と比較してモデルの種類が多いため、パターン照合に要する処理量が増加するが、再照合部15での照合対象は内部認識結果10に含まれる語彙に限定されるため、処理量の増加を小さく抑えることができる。
 読み付与部12は、上記実施の形態1と同一の動作をして(ステップST4,ST5)、外部認識結果11に対する読み付与結果14を求め、再照合部15に出力する。
 ステップST12において、再照合部15は、読み付与結果14が入力されると、上記実施の形態1と同等の動作によって読み付与結果14とその音響尤度とから構成される再照合結果16を求め、結果決定部17に出力する。但しパターン照合には第2音響モデル20を用いる。
 ステップST13において、結果決定部17は、内部認識結果10に対する再照合結果16aと外部認識結果11に対する再照合結果16を入力とし、音響尤度の高い順に認識結果を並べ替えて、最終認識結果18として出力する。
 以上より、実施の形態2によれば、音声認識装置1は、音響モデル9とは異なる第2音響モデル20を備え、再照合部15は、第2音響モデル20を用いて、分析部5の算出した特徴ベクトル6と内部認識部7の出力した内部認識結果10とのパターン照合を行って内部認識結果10に対する音響尤度(再照合結果16a)を算出すると共に、特徴ベクトル6と読み付与部12の出力した読み付与結果14とのパターン照合を行って外部認識結果11に対する音響尤度(再照合結果16)を算出し、結果決定部17は、再照合部15の算出した内部認識結果10の音響尤度と外部認識結果11の音響尤度を比較して、最終的な認識結果を決定するように構成した。従って、音響モデル9よりも精密で認識精度の高い第2音響モデル20を用いて再照合することにより、外部認識結果11の音響尤度と内部認識結果10の音響尤度の比較がより正確になり、認識精度を改善させる効果がある。
 なお、内部認識部7において第2音響モデル20を使用しない理由は、内部認識部7のパターン照合に第2音響モデル20を使用すると音響モデル9よりもモデルの種類が増えるため、パターン照合時の演算量が増加するからである。本実施の形態2のように音響モデル9と第2音響モデル20で別々のモデルを使用することにより、演算量の増加を小さく抑えつつ認識精度を向上させる効果がある。
実施の形態3.
 本実施の形態3に係る音声認識装置は、図1または図6に示す音声認識装置1と図面上では同様の構成であるため、以下では図1を援用して説明する。本実施の形態3に係る音声認識装置1では、読み辞書13の内容、ならびに読み付与部12および再照合部15の動作を後述するように変更するものである。
 図8は、本実施の形態3に係る音声認識装置1の読み辞書13の内容例を示す図である。本実施の形態3に係る音声認識装置1において、読み辞書13は、図3に示した単語および施設名の辞書の他に、図8に示す1文字単位程度の語彙の辞書も格納している。このように1文字単位程度の細かい単位の語彙を持つことにより、外部認識結果11の様々な表記に対して読みを付与することが可能になる。
 次に、音声認識時の動作を説明する。
 利用者が発話すると、送信部3が入力音声2を音声データ4にA/D変換し、分析部5と外部認識部19に出力する。分析部5および内部認識部7は、上記実施の形態1と同一の動作をして内部認識結果10を出力する。例えば入力音声2が「鈴鹿坂(すずかさか)」であった場合、「鈴鹿坂」は言語モデル8中に存在しないが、言語モデル8に記述された各語彙との間でパターン照合が行われ、音響尤度が最も高い語彙が出力される。本実施の形態3では、「鈴木酒店(すずきさけてん)」の音響尤度が最も高かったとする。従って、内部認識部7はその語彙の表記、読みおよび音響尤度を内部認識結果10として出力する。
 読み付与部12は、外部認識部19から外部認識結果11が返送されるのを待ち、外部認識結果11を受信すると図8に示す読み辞書13を参照して、外部認識結果11に含まれる語彙の表記(例えば「鈴鹿坂」)と一致するものの読みを抽出する。外部認識結果11の表記に一致する読みが読み辞書13中に複数個存在する場合は複数個の読みを出力する。また、一致する読みが存在しない場合は、読み辞書13中の表記の接続によって外部認識結果11の表記を構成できるものを抽出する。この抽出作業は、例えば外部認識結果11の表記を、分割数最小の基準で、読み辞書13中の全表記を照合対象とした連続DP(Dynamic Programming)マッチングを行うことによって可能である。
 本実施の形態3の例では外部認識結果11の「鈴鹿坂」と一致する表記が読み辞書13中に存在しないため、読み付与部12は、読み辞書13中に存在する表記「鈴」「鹿」「坂」を抽出する。このように抽出した表記に対する読みが複数個存在する場合は、全ての読みの組み合わせを抽出する。この場合、「鈴」の読みは「suzu」と「rei」、「鹿」の読みは「sika」と「ka」のそれぞれ2個、「坂」の読みは「saka」の1個なので、外部認識結果11の「鈴鹿坂」の読みとして、「suzushikasaka」、「reishikasaka」、「suzukasaka」、「reikasaka」の4種類の読みが抽出される。そして、読み付与部12は、抽出した4種類の読みを、表記「鈴鹿坂」と共に読み付与結果14として出力する。
 再照合部15は、特徴ベクトル6と読み付与結果14を入力とし、内部認識部7でパターン照合に使用したものと同一の音響モデル9を用いて、特徴ベクトル6の読みと読み付与結果14の複数個の読みとの間でそれぞれパターン照合を行い、そして音響尤度が最も高い読み付与結果14の読みを、読み付与結果14に対する音響尤度として算出する。再照合部15は、読み付与結果14と算出した音響尤度とから構成される再照合結果16を出力する。
 このように、外部認識結果11の語彙の表記に対して複数個の読みの候補が存在する場合に、再照合部15において特徴ベクトル6と複数個の読みとをパターン照合することによって、読みの決定とともに音響尤度を算出することができる。上記説明例では、外部認識結果11の「鈴鹿坂」の4種類の読みのうち、最も音響尤度が高い読み「suzukasaka」を再照合結果16に含める。
 結果決定部17は、内部認識結果10と再照合結果16を入力とし、上記実施の形態1と同一の動作をして音響尤度の高い順に認識結果を並べ替え、最終認識結果18として出力する。上記説明例では、入力音声2が「鈴鹿坂」で、内部認識部7による内部認識結果10が「鈴木酒店」、外部認識部19による外部認識結果11が「鈴鹿坂」(suzukasaka)なので、同一の音響モデル9を用いてパターン照合を行い音響尤度を算出すれば、外部認識部19の「鈴鹿坂」(suzukasaka)のほうが音響尤度が高くなることが期待でき、音声認識改善に寄与する。
 以上より、実施の形態3によれば、読み付与結果14は、読み辞書13に、外部認識結果11に対する読みの候補が複数個存在する場合、当該複数個の読みを付与した読み付与結果14を出力し、再照合部15は、読み付与結果14に含まれる読みごとにパターン照合を行って音響尤度を算出し、当該音響尤度が最大の読みを選択して結果決定部17に出力するように構成した。このため、外部認識結果11の表記のみでは読みを一意決定できない場合でも、再照合部15にて特徴ベクトル6とパターン照合することによって読みの決定とともに音響尤度を算出することが可能となり、音声認識精度が改善する効果がある。
 また、実施の形態3の読み辞書13に対しては単語より細かい単位で表記と読みを与えているので、その組み合わせで多用な単語の表記が作れることになり表記の一致するものが見つかる確率が高くなるというメリットがある。一方、上記実施の形態1の読み辞書13に対しては単語ごとに表記と読みを与えているので、読み付与の精度が高いというメリットがある。
 なお、上記実施の形態3では、上記実施の形態1の音声認識装置1に対して読み付与部12および再照合部15の動作を変更した場合について説明したが、上記実施の形態2の音声認識装置1に対しても同様に、読み付与部12および再照合部15の動作を変更することが可能であり、外部認識結果11の表記のみでは読みを一意決定できない場合に対して同一の効果がある。
実施の形態4.
 図9は、本実施の形態4に係る音声認識装置1の構成を示すブロック図である。図9において図1および図6と同一または相当の部分については同一の符号を付し説明を省略する。本実施の形態4に係る音声認識装置1では、結果決定用言語モデル21を追加し、結果決定部17の動作を以下に説明するように変更するものである。
 図9に示す結果決定用言語モデル21としては、語彙、または複数個の語彙の並びに対して尤度を与えるものであれば任意のモデルを使用することができる。本実施の形態4では、結果決定用言語モデル21として単語のユニグラム言語モデルを用いる場合を例に説明する。結果決定用言語モデル21の内容例を、図10に示す。一列目が語彙の表記、2列目が言語尤度である。結果決定用言語モデル21は事前に大量の語彙のデータベースを用いて作成しておく。例えば、本例のユニグラム言語モデルであれば、大量の語彙のデータベースから各語彙の出現確率を算出し、出現確率の対数値を尤度として結果決定用言語モデル21に登録する。
 次に、音声認識時の動作を説明する。
 利用者が発話すると、その発話を入力として送信部3、分析部5、内部認識部7、読み付与部12、および再照合部15が上記実施の形態1と同一の動作をして、結果決定部17に対して内部認識部7から内部認識結果10を出力するとともに再照合部15から再照合結果16を出力する。
 結果決定部17は、結果決定用言語モデル21を参照して、内部認識結果10と再照合結果16のそれぞれに対して言語尤度Slを求める。例えば内部認識結果10の表記が「鈴鹿酒店」であれば、図10の結果決定用言語モデル21を参照して言語尤度Sl=-0.32である。同様に、再照合結果16の表記が「鈴鹿坂」であれば、言語尤度Sl=-0.30である。そして、結果決定部17は、内部認識結果10と再照合結果16のそれぞれに対して、下式(1)に従って総合尤度Sを算出する。式(1)中のSaは音響尤度、wは事前に実験的に定めた定数であり、例えばw=10である。
  S=Sa+w×Sl   (1)
 結果決定部17は、内部認識結果10と再照合結果16の認識結果を、総合尤度Sの高い順に並べ替えて、最終認識結果18として出力する。
 以上より、実施の形態4によれば、音声認識装置1は、語彙とその言語尤度のペアを格納している結果決定用言語モデル21を備え、結果決定部17は、結果決定用言語モデル21を用いて内部認識結果10の言語尤度と再照合結果16(即ち、外部認識結果11)の言語尤度を算出し、内部認識結果10の音響尤度および当該言語尤度と再照合結果16の音響尤度および当該言語尤度とを比較して、最終的な認識結果を決定するように構成した。このため、内部認識結果10と再照合結果16に対して同一の結果決定用言語モデル21を用いて言語尤度Slを算出するので、言語尤度Slを考慮した比較が可能になり、認識精度が改善するという効果がある。
 なお、上記実施の形態4では、結果決定用言語モデル21として単語のユニグラムを使用した例を説明したが、これに限定されるものではなく、バイグラムおよびトライグラムなどを含めた任意の統計言語モデル(n-gram)を使用してもよい。
 また、上記実施の形態4では、上記実施の形態1の音声認識装置1に対して結果決定用言語モデル21を追加し結果決定部17の動作を変更した場合について説明したが、上記実施の形態2,3の音声認識装置1に対しても同様に、結果決定用言語モデル21を追加し結果決定部17の動作を変更することが可能である。
 また、上記実施の形態1~4では、1個の外部認識部19から受信した外部認識結果11を使用したが、複数個の外部認識部19から受信した複数個の外部認識結果11を使用してもよい。また、結果決定部17が音響尤度等の高い順に並べ替えた認識結果を最終認識結果18として出力するようにしたが、これに限定されるものではなく、音響尤度が高い順に所定の数だけ最終認識結果18として出力するなどの構成にしてもよい。
 上記以外にも、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 以上のように、この発明に係る音声認識装置は、同一の音響モデルを用いて内部認識結果の音響尤度と外部認識結果の音響尤度を算出して比較するようにしたので、クライアント・サーバ型の音声認識システムを構成するクライアント側のカーナビゲーション装置およびスマートフォンなどに用いるのに適している。
 1 音声認識装置、2 入力音声、3 送信部、4 音声データ、5 分析部、6 特徴ベクトル、7 内部認識部、8 言語モデル、9 音響モデル、10 内部認識結果、11 外部認識結果、12 読み付与部、13 読み辞書、14 読み付与結果、15 再照合部、16,16a 再照合結果、17 結果決定部、18 最終認識結果、19 外部認識部、20 第2音響モデル、21 結果決定用言語モデル。

Claims (6)

  1.  入力音声データを認識処理した内部認識結果と、当該入力音声データを外部に存在する1個以上の外部認識部で認識処理した外部認識結果とを得て、最終的な認識結果を決定する音声認識装置であって、
     音声の特徴量をモデル化した音響モデルと、
     音声認識装置が認識対象とする1個以上の語彙の表記と読みを格納している言語モデルと、
     前記認識対象および前記認識対象外の語彙の表記とその読みのペアを格納している読み辞書と、
     前記入力音声データを分析して特徴ベクトルを算出する分析部と、
     前記音響モデルを用いて、前記分析部の算出した前記特徴ベクトルと前記言語モデルに格納されている各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果として出力する内部認識部と、
     前記外部認識部により前記入力音声データを認識処理した外部認識結果を取得し、前記読み辞書を用いて当該外部認識結果に対する読みを付与し、当該外部認識結果とその読みから構成される読み付与結果を出力する読み付与部と、
     前記音響モデルを用いて、前記分析部の算出した前記特徴ベクトルと前記読み付与部の出力した前記読み付与結果とのパターン照合を行って、前記外部認識結果に対する音響尤度を算出する再照合部と、
     前記内部認識結果の音響尤度と前記外部認識結果の音響尤度を比較して、最終的な認識結果を決定する結果決定部とを備えることを特徴とする音声認識装置。
  2.  前記音響モデルとは異なる第2音響モデルを備え、
     前記再照合部は、前記第2音響モデルを用いて、前記分析部の算出した前記特徴ベクトルと前記内部認識部の出力した前記内部認識結果とのパターン照合を行って前記内部認識結果に対する音響尤度を算出すると共に、前記特徴ベクトルと前記読み付与部の出力した前記読み付与結果とのパターン照合を行って前記外部認識結果に対する音響尤度を算出し、
     前記結果決定部は、前記再照合部の算出した前記内部認識結果の音響尤度と前記外部認識結果の音響尤度を比較して、最終的な認識結果を決定することを特徴とする請求項1記載の音声認識装置。
  3.  前記読み付与部は、前記外部認識結果に対する読みの候補が複数個存在する場合に当該複数個の読みを付与した読み付与結果を出力し、
     前記再照合部は、前記読み付与結果に含まれる読みごとにパターン照合を行って音響尤度を算出し、当該音響尤度が最大の読みを選択して前記結果決定部に出力することを特徴とする請求項1記載の音声認識装置。
  4.  語彙とその言語尤度のペアを格納している結果決定用言語モデルを備え、
     前記結果決定部は、前記結果決定用言語モデルを用いて前記内部認識結果の言語尤度と前記外部認識結果の言語尤度を算出し、前記内部認識結果の音響尤度および言語尤度と前記外部認識結果の音響尤度および言語尤度とを比較して、最終的な認識結果を決定することを特徴とする請求項1記載の音声認識装置。
  5.  前記結果決定用言語モデルは、統計n-gram言語モデルであることを特徴とする請求項4記載の音声認識装置。
  6.  入力音声データを音声認識装置内で認識処理した内部認識結果と、当該入力音声データを外部に存在する1個以上の外部認識部で認識処理した外部認識結果とを得て、最終的な認識結果を決定する音声認識方法であって、
     前記入力音声データを前記外部認識部へ送信する送信ステップと、
     前記入力音声データを分析して特徴ベクトルを算出する分析ステップと、
     音声の特徴量をモデル化した音響モデルを用いて、前記分析ステップで算出した前記特徴ベクトルと、音声認識装置が認識対象とする1個以上の語彙の表記と読みを格納している言語モデル内の当該各語彙とのパターン照合を行って音響尤度を算出し、当該音響尤度の高い上位1個以上の語彙の表記、読みおよび音響尤度を内部認識結果として出力する内部認識ステップと、
     前記外部認識部により前記入力音声データを認識処理した外部認識結果を取得し、前記認識対象および前記認識対象外の語彙の表記とその読みのペアを格納している読み辞書を用いて当該外部認識結果に対する読みを付与し、当該外部認識結果とその読みから構成される読み付与結果を出力する読み付与ステップと、
     前記音響モデルを用いて、前記分析ステップで算出した前記特徴ベクトルと前記読み付与ステップで出力した前記読み付与結果とのパターン照合を行って、前記外部認識結果に対する音響尤度を算出する再照合ステップと、
     前記内部認識結果の音響尤度と前記外部認識結果の音響尤度を比較して、最終的な認識結果を決定する結果決定ステップとを備えることを特徴とする音声認識方法。
PCT/JP2013/056142 2013-03-06 2013-03-06 音声認識装置および音声認識方法 WO2014136222A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201380074221.7A CN105009206B (zh) 2013-03-06 2013-03-06 语音识别装置和语音识别方法
PCT/JP2013/056142 WO2014136222A1 (ja) 2013-03-06 2013-03-06 音声認識装置および音声認識方法
DE112013006770.6T DE112013006770B4 (de) 2013-03-06 2013-03-06 Spracherkennungsvorrichtung und Spracherkennungsverfahren
JP2015504055A JP5868544B2 (ja) 2013-03-06 2013-03-06 音声認識装置および音声認識方法
US14/655,141 US9431010B2 (en) 2013-03-06 2013-03-06 Speech-recognition device and speech-recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/056142 WO2014136222A1 (ja) 2013-03-06 2013-03-06 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
WO2014136222A1 true WO2014136222A1 (ja) 2014-09-12

Family

ID=51490785

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/056142 WO2014136222A1 (ja) 2013-03-06 2013-03-06 音声認識装置および音声認識方法

Country Status (5)

Country Link
US (1) US9431010B2 (ja)
JP (1) JP5868544B2 (ja)
CN (1) CN105009206B (ja)
DE (1) DE112013006770B4 (ja)
WO (1) WO2014136222A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105161092B (zh) * 2015-09-17 2017-03-01 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
US20180366123A1 (en) * 2015-12-01 2018-12-20 Nuance Communications, Inc. Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN106782502A (zh) * 2016-12-29 2017-05-31 昆山库尔卡人工智能科技有限公司 一种儿童机器人用的语音识别装置
US11132998B2 (en) * 2017-03-24 2021-09-28 Mitsubishi Electric Corporation Voice recognition device and voice recognition method
CN110111778B (zh) * 2019-04-30 2021-11-12 北京大米科技有限公司 一种语音处理方法、装置、存储介质及电子设备
CN113345418A (zh) * 2021-06-09 2021-09-03 中国科学技术大学 基于跨语种自训练的多语种模型训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323196A (ja) * 2002-05-08 2003-11-14 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
JP2004198831A (ja) * 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP2005037662A (ja) * 2003-07-14 2005-02-10 Denso Corp 音声対話システム
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010091675A (ja) * 2008-10-06 2010-04-22 Mitsubishi Electric Corp 音声認識装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581648B2 (ja) * 2000-11-27 2004-10-27 キヤノン株式会社 音声認識システム、情報処理装置及びそれらの制御方法、プログラム
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP5046589B2 (ja) * 2006-09-05 2012-10-10 日本電気通信システム株式会社 電話システムと通話補助方法とプログラム
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
JP5621993B2 (ja) * 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US8972263B2 (en) * 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003323196A (ja) * 2002-05-08 2003-11-14 Nec Corp 音声認識システム、音声認識方法および音声認識用プログラム
JP2004198831A (ja) * 2002-12-19 2004-07-15 Sony Corp 音声認識装置および方法、プログラム、並びに記録媒体
JP2005037662A (ja) * 2003-07-14 2005-02-10 Denso Corp 音声対話システム
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010091675A (ja) * 2008-10-06 2010-04-22 Mitsubishi Electric Corp 音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021019775A1 (ja) * 2019-08-01 2021-02-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JPWO2021019775A1 (ja) * 2019-08-01 2021-11-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JP7038919B2 (ja) 2019-08-01 2022-03-18 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法

Also Published As

Publication number Publication date
JPWO2014136222A1 (ja) 2017-02-09
US20160005400A1 (en) 2016-01-07
US9431010B2 (en) 2016-08-30
CN105009206B (zh) 2018-02-09
JP5868544B2 (ja) 2016-02-24
DE112013006770B4 (de) 2020-06-18
DE112013006770T5 (de) 2015-12-24
CN105009206A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
JP5868544B2 (ja) 音声認識装置および音声認識方法
JP6188831B2 (ja) 音声検索装置および音声検索方法
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP5957269B2 (ja) 音声認識サーバ統合装置および音声認識サーバ統合方法
JP4802434B2 (ja) 音声認識装置及び音声認識方法、並びにプログラムを記録した記録媒体
JP5200712B2 (ja) 音声認識装置、音声認識方法及びコンピュータプログラム
JP5409931B2 (ja) 音声認識装置及びナビゲーション装置
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2001242884A (ja) 音声認識装置および音声認識方法、並びに記録媒体
WO2014183373A1 (en) Systems and methods for voice identification
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
KR20210034276A (ko) 대화 시스템, 대화 처리 방법 및 전자 장치
CN112651247A (zh) 对话系统、对话处理方法、翻译装置和翻译方法
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
Sahu et al. A study on automatic speech recognition toolkits
US20150262575A1 (en) Meta-data inputs to front end processing for automatic speech recognition
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
JP2012255867A (ja) 音声認識装置
WO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
JP3894419B2 (ja) 音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3936919B2 (ja) 音声キーワード認識装置
JP4600705B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13876914

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015504055

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14655141

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120130067706

Country of ref document: DE

Ref document number: 112013006770

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13876914

Country of ref document: EP

Kind code of ref document: A1