JPWO2010128560A1 - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法、及び音声認識プログラム Download PDF

Info

Publication number
JPWO2010128560A1
JPWO2010128560A1 JP2011512291A JP2011512291A JPWO2010128560A1 JP WO2010128560 A1 JPWO2010128560 A1 JP WO2010128560A1 JP 2011512291 A JP2011512291 A JP 2011512291A JP 2011512291 A JP2011512291 A JP 2011512291A JP WO2010128560 A1 JPWO2010128560 A1 JP WO2010128560A1
Authority
JP
Japan
Prior art keywords
pass
reliability
speech recognition
availability determination
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011512291A
Other languages
English (en)
Inventor
川添 佳洋
佳洋 川添
吉田 実
実 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pioneer Corp
Original Assignee
Pioneer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corp filed Critical Pioneer Corp
Publication of JPWO2010128560A1 publication Critical patent/JPWO2010128560A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

音声認識装置は、音響モデル記憶部と、言語モデル記憶部と、第1パス処理手段と、第2パス実行可否判定手段と、第2パス処理手段と、を備える。第1パス処理手段は、音響モデルと言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する。第2パス実行可否判定手段は、第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する。そして、第2パス処理手段は、第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、音響モデル及び前記言語モデルに基づき、単語列の候補及びスコアを再決定する。

Description

本発明は、音声認識処理を複数回実行するマルチパス探索を用いた音声認識技術に関する。
ディクテーション認識に代表される大語彙連続音声認識のアルゴリズムの1つとして、入力された発話に対して音声認識を複数回実行するマルチパス探索が既知である。例えば、特許文献1には、簡易な音響モデル及び簡易な言語モデルに基づき連続音声に対し認識処理を実行する第1パス処理手段と、第1パス処理の認識結果と詳細な音響モデル及び詳細な言語モデルとに基づき単語列を生成する第2パス処理手段と、を備えた音声認識装置が開示されている。
特開2003−140685号公報
一般に、第1パス処理は、入力音声とほぼ並行してリアルタイムに処理をすることが可能である。しかし、第2パス処理は、その処理時間分だけ音声認識処理全体のレスポンスに影響を与える。即ち、第2パス処理の処理時間分だけ結果出力の遅延が発生する。一方、第1パス処理の認識結果が十分に信頼できるとみなせる場合には、音声認識装置は、第2パス処理以降の認識処理を必ずしも実行する必要がない。特許文献1には、上記の問題は、何ら検討されていない。
本発明は、上記のような課題を解決するためになされたものであり、マルチパス探索において処理量を削減し、結果出力までの処理速度を向上させることが可能な音声認識装置を提供することを目的とする。
請求項1に記載の発明は、音声認識装置は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、を備えることを特徴とする。
請求項11に記載の発明は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用する音声認識方法であって、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理工程と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定工程と、前記第2パス実行可否判定工程が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理工程と、を備えることを特徴とする。
請求項12に記載の発明は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用するコンピュータにより実行される音声認識プログラムであって、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、を備えることを特徴とする。
言語モデルを用いた音声認識装置の概略構成図である。 音声認識装置が実行する処理のブロック図を示す。 第1パスマッチング処理部11cの認識結果を表す単語グラフの例を示す。 信頼度Tに基づき音声認識装置が実行する処理を示した図である。 本実施例の処理手順を示すフローチャートの一例である。 変形例1に係る音声認識装置の概略構成図である。
本発明の1つの観点では、音声認識装置は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、を備える。
上記の音声認識装置は、音響モデル記憶部と、言語モデル記憶部と、第1パス処理手段と、第2パス実行可否判定手段と、第2パス処理手段と、を備える。第1パス処理手段は、音響モデルと言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する。第2パス実行可否判定手段は、第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する。「認識環境の情報」とは、音声認識装置が認識処理を実行する環境に関する情報を指し、例えば、SN比、発話スピード、入力音声の大きさ、車両の情報等が該当する。そして、第2パス処理手段は、第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、音響モデル及び前記言語モデルに基づき、単語列の候補及びスコアを再決定する。このように、音声認識装置は、認識結果及び/又は認識環境の情報に基づき、適切に第2パス処理を実行すべきか否か判定することで、不要に第2パス処理以降の認識処理を実行するのを抑制することができる。従って、音声認識装置は、処理量を削減し、結果出力までの処理速度を向上させることができる。
上記の音声認識装置の一態様では、前記第2パス処理手段は、前記第2パス実行可否判定手段が前記第2パス処理を実行すべきと判定した場合、前記第1パス処理手段で使用された音響モデル及び言語モデル以上の精度を具備する音響モデル及び言語モデルに基づき、前記候補及び前記スコアを再決定する。ここで、「第1パス処理手段で使用された音響モデル及び言語モデル以上の精度」とは、第一パス処理手段で使用された音響モデル及び言語モデルより精度の高い音響モデル及び言語モデルはもとより、第1パス処理手段で使用された音響モデル及び言語モデルと同じ音響モデル及び言語モデルをも含む意味である。このように、音声認識装置は、第1パス処理の処理量を低減し、かつ、必要なときのみ第2パス処理を実行することで、全体の処理量を削減し、結果出力までの処理速度を向上させることができる。
上記の音声認識装置の他の一態様では、前記第2パス実行可否判定手段は、前記認識結果及び/又は前記情報に基づき前記認識結果の信頼度を算出し、当該信頼度が第1の閾値よりも高い場合又は第2の閾値よりも低い場合、前記第2パス処理を継続すべきではないと判定する。第1の閾値及び第2の閾値は、実験等に基づき適切な値に設定される。この態様では、音声認識装置は、第1パス処理の認識結果に対する信頼度を計算し、当該信頼度に基づき第2パス処理を実行すべきか否か判定する。そして、音声認識装置は、信頼度が第1の閾値より大きい場合、第1パス処理の認識結果が十分信頼でき、正解の可能性が高いと判定する。一方、音声認識装置は、信頼度が第2の閾値より小さい場合、第1パス処理の認識結果の信頼性が低く、第2パス処理を実行しても正解の単語列を得られる可能性が極めて低いと判定する。そして、音声認識装置は、信頼度が第1の閾値よりも高い場合又は第2の閾値よりも低い場合、前記第2パス処理を継続すべきではないと判定し、不要に第2のパス処理以降の認識処理を実行するのを抑制する。このように、音声認識装置は、信頼度に基づき第2パス処理を実行すべきか否か適切に判定することができ、結果出力までの処理速度を向上させることができる。
上記の音声認識装置の他の一態様では、前記第2パス実行可否判定手段は、前記第1パス処理により決定された前記単語列を構成する各単語の候補数に基づき前記信頼度を決定する。一般に、第1パス処理により得られた単語列を構成する各単語の候補数が少ない場合、第2パス処理を実行しても認識結果が全く変わらない可能性が高い。一方、認識できない未知語が入力された場合、上述の候補数が多くなる傾向がある。従って、この態様により、音声認識装置は、信頼度を適切に設定することができる。
上記の音声認識装置の他の一態様では、前記第2パス実行可否判定手段は、前記第2パス実行可否判定手段は、前記第1パス処理により決定されたキーワードの候補数が第1所定個数以下の場合に前記信頼度を第1の閾値より高い値に設定し、当該候補数が第2所定個数以上の場合に前記信頼度を第2の閾値より低い値に設定する。ここで、キーワードとは、音声認識装置が単語列中で特に認識する必要がある単語を指す。第1所定個数は、第2所定個数未満の値に設定される。具体的には、第1所定個数及び第2所定個数は、実験等に基づき適切な値に設定される。この態様では、音声認識装置は、キーワードの候補が第1所定個数以下の場合、十分にキーワードが絞られており、第1パス処理手段の認識結果の信頼性が高いと判断する。一方、音声認識装置は、キーワードの候補が第2所定個数以上の場合、未知語の入力等に起因して第1パス処理手段の認識結果の信頼性が低いと判断する。このように、音声認識装置は、キーワードの候補数に基づき信頼度を決定することで、適切に第2パス処理を実行すべきか否かについて判定することができる。
上記の音声認識装置の他の一態様では、前記第2パス実行可否判定手段は、SN比が第1所定値より大きい場合に前記信頼度を第1の閾値より高く設定し、SN比が第2所定値より小さい場合に前記信頼度を第2の閾値より低く設定する。第1所定値は、第2所定値以上の値に設定される。具体的には、第1所定値及び第2所定値は、実験等に基づき適切な値に設定される。一般に、SN比と認識結果の正解率とは、相関関係を有する。従って、SN比が高い場合、第1パス処理のみの認識結果でも十分である可能性が高い。一方、SN比が低い場合、第2パス処理を実行しても正しく単語列を認識する可能性が低い。従って、音声認識装置は、SN比に基づき信頼度を設定することで、適切に第2パス処理を実行すべきか否かについて判定することができる。
上記の音声認識装置の他の一態様では、前記第2パス実行可否判定手段は、前記スコアのうち最良スコアと2番目に良いスコアとの差が所定値より大きい場合、前記信頼度を前記第1の閾値よりも高く設定する。上述の所定値は、実験等に基づき設定される。一般に、認識結果が正しい場合、上述のスコア差が大きくなる傾向がある。したがって、この態様では、音声認識装置は、信頼度を上述のスコア差に基づき設定することで、第2パス処理を実行すべきか否かについて適切に判定することができる。
上記の音声認識装置の他の一態様では、前記第2パス実行可否判定手段は、発話スピード、音声の大きさ、及び突発性雑音の有無の少なくとも1つに基づき前記信頼度を決定する。一般に、発話スピード、音声の大きさ、及び突発性雑音の有無によって、認識結果の正解率は大きく左右される。従って、音声認識装置は、上述の各要素を考慮して信頼度を設定することで、第2パス処理を実行すべきか否かについて適切に判定することができる。
上記の音声認識装置の他の一態様では、車両に搭載され、前記第2パス実行可否判定手段は、前記車両の状態を示す情報に基づき前記信頼度を決定する。車両の状態を示す情報とは、例えば、車速パルスに基づく走行速度、エアコンのオン又はオフの情報、窓が空いているか否かの情報等が挙げられる。このように、音声認識装置は、車両の状態を示す情報に基づき認識環境を適切に推定し、信頼度を適切に設定することができる。
上記の音声認識装置の他の一態様では、前記第1パス処理手段と並行して実行され、前記発話信号に基づきサブワード単位の解析を行うことでスコアを算出するサブワード認識手段をさらに備え、前記第2パス実行可否判定手段は、サブワード認識手段により得られた最良スコアと第1パス処理手段により得られた最良スコアとのスコア差に基づき前記信頼度を決定する。この態様では、音声認識装置は、第1パス処理と並行してサブワード認識を行い、そのスコア差を監視することで、第1パス処理の認識結果が信頼できるか否か判断する。このようにすることで、音声認識装置は、適切に信頼度を設定し、第2パス処理を実行すべきか否かについて適切に判定することができる。
上記の音声認識装置の他の観点では、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用する音声認識方法であって、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理工程と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定工程と、前記第2パス実行可否判定工程が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理工程と、を備える。音声認識装置は、この方法を使用することで、適切に第2パス処理を実行すべきか否か判定し、不要に第2パス処理以降の認識処理を実行するのを抑制することができる。
上記の音声認識装置の他の一態様では、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用するコンピュータにより実行される音声認識プログラムであって、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、を備える。音声認識装置は、このプログラムを搭載することで、適切に第2パス処理を実行すべきか否か判定し、不要に第2パス処理以降の認識処理を実行するのを抑制することができる。なお、好適な例では、上記プログラムは、記憶媒体に記録される。
以下、図面を参照して本発明の好適な実施例について説明する。
[基本説明]
まず、本発明に係る音声認識装置の概要について図1及び図2を用いて説明する。
図1は、言語モデルを用いた音声認識装置の概略構成図である。言語モデルを用いた音声認識装置は、ユーザによる発話を単語の組合せとして認識する。発話を単語の組合せとして認識し、テキスト化する処理を「ディクテーション」と呼ぶ。発話を単語の組合せとして認識することにより、予め用意された文章以外の文章、即ち、複数の単語を任意に組み合わせて作られた文章を認識することが可能となる。
図1に示すように、音声認識装置は、ディクテーションを行うディクテーション部10と、キーワード抽出部30と、を備える。また、ディクテーション部10は、第1パス実行処理部11と、第2パス実行可否判定部12と、第2パス実行処理部13と、言語モデルを記憶する言語モデルデータベース24(以下、「データベース」を「DB」と略記することがある。)と、音響モデルを記憶する音響モデルDB25と、を有する。図1に示すように、ディクテーション部10は、マイク等を通じて入力された発話データ(以後、「発話データSa」と呼ぶ。)に対し音声認識処理を複数回行うマルチパス探索を行う。
ここで、「発話データSa」とは、音声を含む入力信号を指す。たとえば、カーナビゲーション装置に実装されている音声認識装置の場合、発話データSaはユーザが発話ボタンを押下してから一定時間の間にマイクから録音された入力信号を指す。
音響モデルDB25は、音節や音素の単位の音の特徴を格納したデータベースである。発話に含まれる各単語の音の特徴は、音響モデルに記録されている音の特徴との比較により決定され、音響スコアとして算出される。また、音響モデルDB25は、精度が高い、即ちモデルの規模が大きい音響モデル(以後、「高精度音響モデルHsm」と呼ぶ。)と、高精度音響モデルHsmより精度が低い、即ちモデルの規模が小さい音響モデル(以後、「低精度音響モデルLsm」と呼ぶ。)と、を備える。音響モデルDB25は、本発明の音響モデル記憶部に相当する。
言語モデルDB24は、隣り合う単語の組合せの出現確率を記憶したデータベースである。本発明では、例えば統計的言語モデルの一つである単語Nグラムモデルが使用される。言語モデルDB24は、精度が高い言語モデル(以後、「高精度言語モデルHlm」と呼ぶ。)と、高精度言語モデルHlmより精度が低い言語モデル(以後、「低精度言語モデルLlm」と呼ぶ。)を備える。言語モデルを用いて言語スコアが計算される。「言語スコア」とは、隣り合う単語の組合せの出現確率(出現頻度)を示す値である。言語モデルDB24は、本発明の言語モデル記憶部に相当する。
第1パス実行処理部11は、低精度音響モデルLsmと低精度言語モデルLlmとに基づき、認識結果として単語列の候補及びこれに対応するスコア(トータルスコア)を出力する。トータルスコアについては後述する。第1パス実行処理部11は、発話データSaの入力と並行して処理を行い、発話データSaの入力の終了と同時に認識結果を出力する。第1パス実行処理部11の詳細な説明は、後述する図2の説明でさらに述べる。
第2パス実行可否判定部12は、第1パス実行処理部11の認識結果と、認識を実行する環境に関する情報(以後、「認識環境情報Ri」と呼ぶ。)と、に基づき、第2パス実行処理部13により引き続き認識処理を行うか否か判定する。この処理については、後述する[実行可否判定処理]にて詳細を説明する。そして、第2パス実行可否判定部12は、第2パス実行処理部13で継続して認識処理を実行すべきと判断した場合、第1パス実行処理部11の認識結果を第2パス実行処理部13へ供給する。一方、第2パス実行可否判定部12は、第2パス実行処理部13で継続して認識処理を実行すべきでないと判断した場合、第1パス実行処理部11の認識結果をキーワード抽出部30へ供給する。
第2パス実行処理部13は、高精度音響モデルHsmと高精度言語モデルHlmとに基づき、第1パス実行処理部11で得られた単語列の候補のトータルスコアを再計算する。第2パス実行処理部13は、上述したように、第2パス実行可否判定部12が引き続き認識処理を実行すべきと判断した場合のみ認識処理を行う。なお、第2パス実行処理部13は、発話データSaの入力終了後に実行される。
キーワード抽出部30は、認識結果として得られたトータルスコアが最大となる単語列から所定のキーワードを抽出する。キーワードは予め決められており、キーワードと非キーワードとを識別する情報が辞書に記憶されている。例えば、辞書に記憶された多数の単語のうち、キーワードにはそれを示すキーワードフラグが付加されている。なお、好適には、本発明の音声認識手法が適用される機器の操作コマンドなどがキーワードとして設定される。
次に、図2を参照して音声認識装置が実行する処理について引き続き説明する。
図2は、音声認識装置が実行する処理のブロック図を示す。図2では、第1パス実行処理部11は、音声区間切り出し部11aと、特徴パラメータ計算部11bと、第1パスマッチング処理部11cとを備える。第2パス実行処理部13は、第2パスマッチング処理部13aを備える。また、認識結果出力処理部31は、図1のキーワード抽出部30に相当する。
音声区間切り出し部11aは、発話データSaの中から音声区間を検出し、音声区間内の音声データを出力する。つまり、「音声データ」とは、発話データSaの中から音声に該当する区間だけが切り出されたものを指す。
特徴パラメータ計算部11bは、音声区間切り出し部11aで切り出された音声データを単位時間毎に分割し、それぞれにおいて特徴パラメータを計算し、第1パスマッチング処理部11cへ供給する。
次に、第1パスマッチング処理部11cは、単位時間毎に得られた特徴パラメータを低精度言語モデルLlm、低精度音響モデルLsmにあてはめることによって認識結果を出力するマッチング処理を行う。
具体的には、第1パスマッチング処理部11cは、図示しない辞書DBなどに登録されている単語の組み合わせのうち、音声データに最も適合するものを、音声データの始端から時系列順に探索する。この探索により複数の単語列の候補(以下、「候補パターン」とも呼ぶ。)が作成される。ここで、音声データの始端から途中までをマッチング処理した結果、スコアの低かった組合せについては、以降マッチング処理しないようにする枝刈り処理も行う。第1パスマッチング処理部11cは、複数の候補パターンについて、音響スコア及び言語スコアを計算してトータルスコアを求める。
第1パスマッチング処理部11cが出力する候補パターンの例について図3を用いて例示する。図3は、第1パスマッチング処理部11cの認識結果を表す単語グラフの例を示す。具体的には、図3は、ナビゲーション装置を操作する際に入力された発話データSaの認識結果を単語グラフで表示したものである。図3では、横軸は時間軸を表し、白丸はノードを表す。また、図3(a)は、候補パターンが少ない場合、即ち、各ノードに終端する矢印の数が少ない場合を示し、図3(b)は、候補パターンが多い場合、即ち、各ノードに終端する矢印の数が多い場合を示す。第1パスマッチング処理部11cは、単位時間幅ごと(フレームごと)に得られた特徴パラメータを低精度言語モデルLlm、低精度音響モデルLsmにあてはめることによって、図3(a)または図3(b)に示すような候補パターンを生成する。そして、第1パスマッチング処理部11cが生成した候補パターンは、第2パス実行可否判定部12に供給される。
第2パス実行可否判定部12は、上述したように、第1パス実行処理部11の認識結果と、認識環境情報Riとに基づき、第2パス実行処理部13により認識処理を行うか否か判定する。そして、第2パス実行可否判定部12は、第2パス実行処理部13による処理が不要と判断した場合、第1パス実行処理部11の認識結果を認識結果出力処理部31へ供給する。一方、第2パス実行可否判定部12は、第2パス実行処理部13による処理が必要と判断した場合、第1パス実行処理部11の認識結果を第2パスマッチング処理部13aに供給する。
第2パスマッチング処理部13aは、第2パス実行可否判定部12が認識処理を継続すべきと判断した場合に、第1パス実行処理部11で得られた候補パターンまたはトータルスコアが上位の候補パターンについて、高精度音響モデルHsmと高精度言語モデルHlmとを用いて、トータルスコアを再計算する。そして、第2パスマッチング処理部13aは、再計算したトータルスコアに基づき最終結果として出力すべき単語列を確定し、その認識結果を認識結果出力処理部31に供給する。
認識結果出力処理部31は、供給された認識結果に基づき、ディスプレイやスピーカなどの出力装置により、所定の画像または音声を出力する。
[実行可否判定処理]
次に、第2パス実行可否判定部12が実行する処理について詳しく説明する。第2パス実行可否判定部12は、第1パス実行処理部11の認識結果と認識環境情報Riとに基づき、第1パス実行処理部11の認識結果が信頼できるか否か判断するための信頼度(以後、「信頼度T」と呼ぶ。)を算出する。そして、第2パス実行可否判定部12は、信頼度Tが所定の閾値(以後、「第1の閾値Tth1」と呼ぶ。)より大きい場合、または、信頼度Tが所定の閾値(以後、「第2の閾値Tth2」と呼ぶ。)より小さい場合、第2パス実行処理部13の処理は不要であると判断する。このようにすることで、音声認識装置は、処理量を削減し、レスポンスを向上させる。
これについて図4を用いてさらに説明する。図4は、信頼度Tに基づき音声認識装置が実行する処理を示した図である。図4において、「第1パス処理」とは、第1パス実行処理部11が実行する処理を示し、「第2パス処理」とは、第2パス実行処理部13が実行する処理を示す。図4に示す第1の閾値Tth1及び第2の閾値Tth2は、実験等により適切な値に設定される。なお、信頼度Tの算出方法については、別途詳しく説明する。
図4に示すように、音声認識装置は、信頼度Tが第2の閾値Tth2より小さい場合、第1パス処理のみを実行する。即ち、この場合、第2パス実行可否判定部12は、信頼度Tが第2の閾値Tth2より小さいことから、第2パス処理を実行しても正しい認識結果を得ることができないと判断する。従って、この場合、第2パス実行可否判定部12は、第2パス処理を実行すべきではないと判断する。このように、第2の閾値Tth2は、第2パス処理を実行することにより正しい認識結果を得る可能性がある信頼度Tの下限値に設定される。以上のように、音声認識装置は、信頼度Tが第2の閾値Tth2より小さい場合には第1パス処理のみを実行することで、無駄な処理を削減し、レスポンスを向上させることができる。
また、音声認識装置は、信頼度Tが第1の閾値Tth1より大きい場合、第1パス処理のみを実行する。即ち、この場合、第2パス実行可否判定部12は、信頼度Tが第1の閾値Th1より大きいことから、第1パス処理の認識結果は正しい可能性が高いと判断する。従って、この場合、第2パス実行可否判定部12は、第2パス処理を実行すべきではないと判断する。このように、第1の閾値Tth1は、第2パス処理を実行することで、第1パス処理よりも精度の高い認識結果を得る可能性がある信頼度Tの上限値に設定される。以上のように、音声認識装置は、信頼度Tが第1の閾値Tth1より大きい場合には第1パス処理のみを実行することで、不要な処理を削減し、レスポンスを向上させることができる。
一方、音声認識装置は、信頼度Tが第2の閾値以上であり、かつ、第1の閾値以下の場合、第1パス処理に加えて、第2パス処理を実行する。即ち、第2パス実行可否判定部12は、第1パス処理の認識結果に基づき第2パス処理を実行することで、より精度の高い認識結果を得ることができると判断する。従って、第2パス実行可否判定部12は、第2パス処理を実行すべきと判断する。このように、音声認識装置は、信頼度Tが第2の閾値以上であり、かつ、第1の閾値以下の場合に第2パス処理を実行することで、より精度の高い認識結果を得ることができる。
(信頼度の算出方法)
次に、信頼度Tの算出方法について具体例を用いて説明する。上述したように、信頼度Tは、第1パス実行処理部11の認識結果と認識環境情報Riとに基づき決定される。ここで、第2パス実行可否判定部12は、後述する具体例でも示すように、第1パス実行処理部11の認識結果として各候補パターンのトータルスコアの差、又は/及びキーワードの候補数などを使用する。また、第2パス実行可否判定部12は、認識環境情報Riとして、SN比などの音響情報や、その他発話データSaの取得環境を推定可能な外部情報(以後、単に「外部情報」と呼ぶ。)を使用する。外部情報は、例えば音声認識装置が車両に搭載されていた場合には、車両から送信されるエアコンのオンまたはオフに関する情報及び走行速度に関する情報が該当する。
このように、第2パス実行可否判定部12は、マイクなどの音声入力装置から音響情報を取得すると共に、音声認識装置が搭載されている機器又はその機器と電気的に接続している機器等から外部情報を取得する。そして、第2パス実行可否判定部12は、所定の式又はマップに基づき、これらの情報から信頼度Tを算出する。上述の式又はマップは、実験等により適切に作成され、音声認識装置のメモリ内に保持される。このようにすることで、音声認識装置は、適切に信頼度Tを設定し、これに基づき第2パス処理を実行すべきか否かについて判定することができる。
以下、信頼度Tを高く設定する場合及び信頼度Tを低く設定する場合について具体例を示す。なお、以下に示す項目に複数該当する場合、第2パス実行可否判定部12は、例えば、各項目間に予め定められた優先順位に従い最も優先順位が高い項目に基づき信頼度Tを算出してもよく、または、所定の重み付け等をすることにより各項目を加味して信頼度Tを算出してもよい。その他、第2パス実行可否判定部12は、上述した所定のマップ又は式に基づき信頼度Tを算出する。
1.信頼度Tを高く設定する例
以下、第2パス実行可否判定部12が信頼度Tを高く設定する例を以下の1−1乃至1−3に挙げる。
1−1.SN比
第2パス実行可否判定部12は、SN比が大きい場合、信頼度Tを高く設定する。例えば、第2パス実行可否判定部12は、SN比が所定値以上である場合には、第1パス処理のみを実行し、第2パス処理は実行する必要がないと判定する。上述の所定値は、実験等に基づき適切な値に設定される。
これについて補足説明する。一般に、音声認識率はSN比によって変動することが知られている。従って、SN比が所定値より大きい場合、第1パス処理による認識率(正解率)は高いことが推定される。以上を考慮し、第2パス実行可否判定部12は、SN比が所定値以上である場合には、第2パス処理を実行する必要がないと判定する。これにより、第2パス実行可否判定部12は、不要な処理量を削減することができる。この場合、音声認識装置は、第1パス処理の認識結果のみに基づきトータルスコアが最大である候補パターンを出力すべき単語列として特定する。
1−2.トータルスコア
第2パス実行可否判定部12は、第1パス処理により得られた候補パターンのうち、トータルスコアが最大となる候補パターンと、2番目に大きくなる候補パターンとのトータルスコアの差分値が大きい程、信頼度Tを高く設定する。例えば、第2パス実行可否判定部12は、上述の差分値が所定値以上である場合、信頼度Tを第1の閾値Tth1より高く設定する。上述の所定値は、実験等に基づき適切な値に設定される。
これについて補足説明する。一般に、トータルスコアが最大となる候補パターンが正しい場合、当該候補パターンのトータルスコアと他の候補パターンのトータルスコアとの差が大きいという傾向がある。以上を考慮し、第2パス実行可否判定部12は、トータルスコアが最大となる候補パターンと2番目に大きくなる候補パターンとのトータルスコアの差分値が所定値以上の場合には、信頼度Tを第1の閾値Tth1より高く設定する。これにより、第2パス実行可否判定部12は、第2パス処理を実行する必要がないと判定し、不要な処理量を削減することができる。この場合、音声認識装置は、第1パス処理の認識結果のみに基づき、トータルスコアが最大である候補パターンを出力すべき単語列として特定する。
1−3.キーワードの候補数
第2パス実行可否判定部12は、第1パス処理により得られたキーワードに相当する単語の候補が少ない程、信頼度Tを高く設定する。例えば、第2パス実行可否判定部12は、上述の候補が所定値(例えば1)以下の場合、信頼度Tを第1の閾値Tth1より高く設定する。上述の所定値は、実験等に基づき適切な値に設定される。
これについて、図3の例を用いて説明する。図3(a)の例では、キーワードに候補として「200メータスケール」が一意に認識されている。即ち、第1パス処理のみによって目的となるキーワードが一意に認識されている。従って、この場合、第2パス実行可否判定部12は、信頼度Tを第1の閾値Tth1より高く設定する。一方、図3(b)の例では、キーワードに相当する候補として「100メータスケール」、「200メータスケール」、「500メータスケール」というように複数の候補が認識されている。即ち、第1パス処理によって多数の候補が認識されている。この場合、第2パス実行可否判定部12は、信頼度Tを第1の閾値Tth1より低く設定する。これにより、音声認識装置は、不要な処理量を削減し、結果出力までの処理速度を向上させることができる。
2.信頼度Tを低く設定する例
以下、第2パス実行可否判定部12が信頼度Tを低い値に設定する例を2−1乃至2−3に示す。
2−1.音響上の要因
第2パス実行可否判定部12は、上述したように、音響情報に基づき信頼度Tを設定する。例えば、第2パス実行可否判定部12は、音響上の要因に起因して認識率が極めて低くなる可能性が高いと判断した場合、信頼度Tを第2の閾値Tth2より低い値に設定する。以下、音響上の要因として主要な例を挙げる。
2−1−1.SN比
第2パス実行可否判定部12は、SN比が低い程、信頼度Tを低い値に設定する。例えば、第2パス実行可否判定部12は、SN比が所定値よりも低い場合、第1パス処理の認識結果は信頼性が極めて低いと判断し、信頼度Tを第2の閾値Tth2より低い値に設定する。所定値は、実験等に基づき適切な値に設定される。即ち、この場合、第2パス実行可否判定部12は、第2パス処理を実行しても認識結果を向上することはできないと判断し、第2パス処理を実行しないと判定する。これにより、音声認識装置は、無駄な処理量を削減することができる。
2−1−2.発話スピード
第2パス実行可否判定部12は、検出された発話スピードと想定している発話スピードとの差が大きい程信頼度Tを低い値に設定する。例えば、第2パス実行可否判定部12は、発話のスピードが所定速度よりも速い場合(「第1所定速度」と呼ぶ。)、又は発話のスピードが所定速度(「第2所定速度」と呼ぶ。)よりも遅い場合、信頼度Tを第2の閾値Tth2より低い値に設定する。第1及び第2所定速度は、実験等に基づき適切な値に設定される。即ち、この場合、第2パス実行可否判定部12は、音響モデルLsm、Hsmで想定されている発話スピードと差があり、正しい認識結果が得られる可能性が極めて低いと判断する。従って、この場合、音声認識装置は、信頼度Tを第2の閾値Tth2より低い値に設定することで、無駄な処理量を削減することができる。
なお、第2パス実行可否判定部12は、例えば発話データSaの入力時間幅を認識した文字数で除することで、発話スピードを算出する。
2−1−3.音声の大きさ
第2パス実行可否判定部12は、入力された音声の大きさ(即ち入力された音声データの信号レベル)と想定している音声の大きさとの差が大きい程、信頼度Tを低い値に設定する。例えば、第2パス実行可否判定部12は、音声の大きさが所定値(「第1所定値」と呼ぶ。)より大きい場合、または、所定値(「第2所定値」と呼ぶ。)より小さい場合、信頼度Tを第2の閾値Tth2より低い値に設定する。第1及び第2所定値は、実験等に基づき適切な値に設定される。即ち、この場合、第2パス実行可否判定部12は、各モデルで想定されている音声の大きさと差があり、第2パス処理を実行しても正しい認識結果が得られる可能性が極めて低いと判断する。これにより、音声認識装置は、信頼度Tを適切に設定し、無駄な処理量を削減することができる。
2−1−4.突発性雑音の有無
第2パス実行可否判定部12は、発話データSaに非定常性の雑音、即ち、突発的な雑音が含まれる場合、信頼度Tを低い値に設定する。例えば、第2パス実行可否判定部12は、発話データSaに非定常性の雑音が含まれる場合、第2の閾値Tth2より低い値に設定する。他の例として、第2パス実行可否判定部12は、発話データSa中に所定個数以上の非定常性雑音が含まれていた場合、信頼度Tを第2の閾値Tth2より低い値に設定する。上述の所定個数は、実験等に基づき適切な値に設定される。これによっても、音声認識装置は、信頼度Tを適切に設定し、無駄な処理量を削減することができる。
2−2.キーワードの候補数
第2パス実行可否判定部12は、第1パス処理により得られたキーワードに相当する単語の候補が多い程、信頼度Tを低い値に設定する。例えば、第2パス実行可否判定部12は、上述の候補が所定値以上の場合、信頼度Tを第2の閾値Tth2より低く設定する。上述の所定値は、実験等に基づき適切な値に設定される。一般に、辞書DB等に登録されていない未知語が入力された場合、単語の候補数が多くなる傾向がある。従って、第2パス実行可否判定部12は、キーワードに相当する単語の候補が所定値以上の場合、信頼度Tを第2の閾値Tth2より低く設定することで、無駄な処理量を削減することができる。
これについて、図3(b)の例を用いて具体的に説明する。図3(b)の例では、キーワードの候補は、「500メータスケール」、「100メータスケール」、「200メータスケール」の3つが存在している。従って、この場合、第2パス実行可否判定部12は、上述の所定値を3と設定していた場合には、信頼度Tを第1の閾値Tth1より低い値に設定する。
2−3.外部要因
第2パス実行可否判定部12は、取得した外部情報に基づき正しい認識結果が得られる可能性が低いことが推定される場合、信頼度Tを低い値に設定する。これによっても、第2パス実行可否判定部12は、適切に信頼度Tを設定することができる。
以下、音声認識装置が車両に搭載されている場合を例にして説明する。第2パス実行可否判定部12は、車両からエアコンの作動の有無、車両の走行速度、車両に備わる窓の開閉に関する情報を取得する。そして、第2パス実行処理部13は、これらの情報に基づき信頼度Tを決定する。例えば、第2パス実行処理部13は、エアコンが作動している場合、又は/及び、走行速度が大きく窓が開いている場合、信頼度Tを第2の閾値Tth2より低い値に設定する。
このように、第2パス実行処理部13は、外部情報に基づき適切に信頼度Tを設定することができる。
以上説明したように、本実施例による音声認識装置は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、低精度音響モデルと低精度言語モデルに基づき、入力された発話信号から単語列の候補及びトータルスコアを決定する第1パス実行処理部と、第1パス実行処理部の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定部と、第2パス実行可否判定部が第2パス処理を実行すべきと判定した場合、高精度音響モデル及び高精度言語モデルに基づき、単語列の候補及びスコアを再決定する第2パス実行処理部と、を備える。このように、音声認識装置は、認識結果及び/又は認識環境の情報に基づき、適切に第2パス処理を実行すべきか否か判定することで、不要に第2パス処理を実行するのを抑制することができる。従って、音声認識装置は、処理量を削減し、結果出力までの処理速度を向上させることができる。
[処理フロー]
次に、実施例における処理の手順について説明する。図5は、本実施例において音声認識装置が実行する処理の手順を表すフローチャートの一例である。音声認識装置は、図5に示すフローチャートの処理を発話データSaが入力された際に繰り返し実行する。
まず、音声認識装置は、第1パス処理を実行する(ステップS101)。具体的には、音声区間切り出し部11aは、発話データSaから音声データを切り出す。そして、特徴パラメータ計算部11bは、音声区間切り出し部11aで切り出された音声データを単位時間毎に分割し、それぞれにおいて特徴パラメータを計算する。そして、第1パスマッチング処理部11cは、単位時間毎に得られた特徴パラメータを低精度言語モデルLlm、低精度音響モデルLsmにあてはめることによって候補パターン及びトータルスコアを出力する。
次に、音声認識装置は、第2パス処理を実行すべきか否か判定する(ステップS102)。具体的には、第2パス実行可否判定部12は、第1パス処理による認識結果及び認識環境情報Riに基づき、信頼度Tを算出する。そして、第2パス実行可否判定部12は、信頼度Tに基づき、第2パス処理を実行すべきか否か判定する。
そして、第2パス処理を実行すべきと判定した場合(ステップS102;Yes)、即ち、信頼度Tが第1の閾値Tth1以下かつ第2の閾値Tth2以上の場合、音声認識装置は、第2パス処理を実行する(ステップS103)。具体的には、第2パスマッチング処理部13aは、第1パス実行処理部11で得られた候補パターンまたはトータルスコアが上位の候補パターンについて、高精度音響モデルHsmと高精度言語モデルHlmとを用いて、トータルスコアを再計算する。
一方、第2パス処理を実行すべきでないと判定した場合(ステップS102;No)、即ち、信頼度Tが第2の閾値Tth2より小さい場合または信頼度Tが第1の閾値Tth1より大きい場合、音声認識装置は、ステップS104へ処理を進める。これにより、音声認識装置は、不要な処理を削減し、レスポンスを向上させることができる。
そして、音声認識装置は、認識結果を出力する(ステップS104)。即ち、音声認識装置は、認識結果として得られた単語列を合成音声により出力又はディスプレイ上に出力する。また、音声認識装置は、必要に応じて認識結果として得られた単語列からキーワードを抽出する。
[変形例1]
上述の実施例の説明では、第2パス実行可否判定部12は、第1パス処理の認識結果及び認識環境情報Riに基づき、信頼度Tを設定した。しかし、本発明が適用可能な方法はこれに限定されない。これに代えて、またはこれに加えて、第2パス実行可否判定部12は、第1パス処理と並行して音節、音素単位のサブワード認識を行い、サブワード認識により得られたスコアと第1パス処理により得られたスコアとのスコア差(以後、単に「スコア差」と呼ぶ。)に基づき信頼度Tを設定してもよい。これにより、第2パス実行可否判定部12は、第2パス処理を実行すべきか否かについてより適切に判断をすることができる。
これについて、図6を用いて具体的に説明する。図6は、変形例1に係る音声認識装置のブロック図の一例である。図6に示すように、音声認識装置は、サブワード認識処理部41と、音響モデルDB42と、を備える。
サブワード認識処理部41は、発話データSaに含まれる音声データを、音響モデルDB42に格納される音響モデルに基づきサブワード単位で解析を行い、音声データ全体を評価する。そして、サブワード認識処理部41は、所定のスコアを算出する。サブワード認識処理部41は、認識結果を第2パス実行可否判定部12へ供給する。
音響モデルDB42は、サブワード認識を実行するための音響モデルを格納する。この種の音響モデルとして、例えばフィラーモデルなどの音響モデルが挙げられる。
第2パス実行可否判定部12は、サブワード認識処理部41により得られた最良のスコアと第1パス処理により得られた最良のトータルスコアとのスコア差を算出する。そして、第2パス実行可否判定部12は、スコア差に基づき信頼度Tを設定する。
例えば、第2パス実行可否判定部12は、スコア差が所定の閾値よりも大きい場合、信頼度Tを第2の閾値Tth2より低い値に設定する。上述の閾値は、実験等に基づき適切な値に設定される。即ち、この場合、第2パス実行可否判定部12は、第1パス処理により得られた認識結果は信頼性が低く、第2パス処理を実行しても正しい結果を得られる可能性は低いと判断し、第2パス処理は実行しない。一方、第2パス実行可否判定部12は、スコア差が所定の閾値より小さい場合、信頼度Tを第1の閾値Tth1より高い値に設定する。即ち、この場合、第2パス実行可否判定部12は、第1パス処理により得られた認識結果は信頼性が高いと判断し、第2パス処理は実行しない。
以上のように、第2パス実行可否判定部12は、第1パス処理と並行してサブワード認識を行い、サブワード認識のスコアと第1パス処理のトータルスコアとのスコア差とに基づき信頼度Tを設定することで、不要な処理を削減することができる。
なお、図6の説明では、サブワード認識処理部41は、ディクテーション部10が使用する音響モデルとは別の音響モデルを使用していたが、これに代えて、ディクテーション部10が使用する音響モデルと同一の音響モデルを使用してもよい。これにより、音声認識装置は、使用するメモリ量を削減することができる。
[変形例2]
上述の実施例の説明では、音声認識装置は、第1パス実行処理部11と第2パス実行処理部13とによる2パス探索方式を実行していた。即ち、音声認識装置は、認識処理を2回実行していた。しかし、本発明が適用可能な方法はこれに限定されない。これに代えて、音声認識装置は、認識処理を3回以上実行してもよい。
この場合であっても、音声認識装置は、上述の実施例の構成に加えて、第2パス実行処理部13以降の各認識処理部間に、次の認識処理を実行すべきか否かを入力された認識結果及び認識環境情報Riに基づき判定する判定部を設ける。このとき、各認識処理部は、例えば後続の認識処理部ほど精度が高い言語モデル及び音響モデルを用いる。また、言語モデルDB24と音響モデルDB25は、例えば認識処理の個数に応じて精度の異なる言語モデル又は音響モデルを備える。そして、音声認識装置は、当該判定部が次の認識処理を実行すべきと判定した場合に限り後続の認識処理を実行する。このように、音声認識装置は、認識処理を3回以上実行する方式であっても、本発明を適用することで、不要な処理を削減し、レスポンスを向上させることができる。
[変形例3]
上述の実施例の1−3及び2−2での説明では、第2パス実行可否判定部12は、信頼度Tを決定する方法の1つとして、キーワードの候補の数に基づき信頼度Tを決定していた。これに代えて、第2パス実行可否判定部12は、単語グラフの各ノードに終端する単語数に基づき信頼度Tを決定してもよい。
これについて、具体的に説明する。第2パス実行可否判定部12は、図3に示すような単語グラフから各ノードに終端する単語数、即ち、各ノードへ入力される矢印の数を算出する。そして、第2パス実行可否判定部12は、各ノードに終端する単語数の平均値又はこれに相当する計算値が所定の閾値より小さい場合、信頼度Tを第1の閾値Tth1より高い値に設定する。一方、第2パス実行可否判定部12は、各ノードに終端する単語数の平均値等が、上述の閾値より大きい値に設定される所定の閾値より大きい場合、信頼度Tを第2の閾値Tth2より低い値に設定する。これらの閾値は、実験等に基づき適切な値に設定される。これによっても、第2パス実行可否判定部12は、信頼度Tを適切に設定することができ、不要な処理を削減することができる。
[変形例4]
上述の実施例の説明では、第2パス実行可否判定部12は、第1パス処理の認識結果及び認識環境情報Riに基づき、信頼度Tを設定した。これに代えて、第2パス実行可否判定部12は、第1パス処理の認識結果または認識環境情報Riのいずれか一方に基づき、信頼度Tを設定してもよい。また、上述したように、第2パス実行可否判定部12は、認識環境情報Riを用いて信頼度Tを設定する場合、先に例示した複数の音響情報又は外部情報のうちいずれか1つ又は複数の情報に基づき信頼度Tを設定してもよい。
[変形例5]
上述の実施例の説明では、第2パス実行処理部13は、第1パス実行処理部11が使用する低精度音響モデルLsm及び低精度言語モデルLlmより精度が高い高精度音響モデルHsm及び高精度言語モデルHlmを使用した。しかし、本発明が適用可能な方法はこれに限定されない。これに代えて、第2パス実行処理部13は、第1パス実行処理部11が使用する音響モデル及び言語モデルと同一の音響モデル及び言語モデルを使用してもよい。この場合、言語モデルDB24と音響モデルDB25は、少なくとも1つの言語モデル又は音響モデルを備える。
[適用分野]
本発明は、音声認識処理を行う各種の機器に適用することができる。例えば、カーナビゲーション装置、携帯電話、パーソナルコンピュータ、AV機器、家電製品など、音声入力機能を備える各種の機器に適用することができる。
10 ディクテーション部
11 第1パス実行処理部
12 第2パス実行可否判定部
13 第2パス実行処理部
24 言語モデルDB
25、42 音響モデルDB
30 キーワード抽出部
31 認識結果出力処理部
41 サブワード認識処理部
請求項12に記載の発明は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用する音声認識方法であって、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理工程と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定工程と、前記第2パス実行可否判定工程が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理工程と、を備えることを特徴とする。
請求項13に記載の発明は、1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用するコンピュータにより実行される音声認識プログラムであって、前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、を備えることを特徴とする。

Claims (13)

  1. 1又は複数の音響モデルを記憶する音響モデル記憶部と、
    1又は複数の言語モデルを記憶する言語モデル記憶部と、
    前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、
    前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、
    前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、
    を備えることを特徴とする音声認識装置。
  2. 前記第2パス処理手段は、前記第2パス実行可否判定手段が前記第2パス処理を実行すべきと判定した場合、前記第1パス処理手段で使用された音響モデル及び言語モデル以上の精度を具備する音響モデル及び言語モデルに基づき、前記候補及び前記スコアを再決定することを特徴とする請求項1に記載の音声認識装置。
  3. 前記第2パス実行可否判定手段は、前記認識結果及び/又は前記情報に基づき前記認識結果の信頼度を算出し、当該信頼度が第1の閾値よりも高い場合又は第2の閾値よりも低い場合、前記第2パス処理を継続すべきではないと判定する請求項1又は2に記載の音声認識装置。
  4. 前記第2パス実行可否判定手段は、前記第1パス処理により決定された前記単語列を構成する各単語の候補数に基づき前記信頼度を決定することを特徴とする請求項3に記載の音声認識装置。
  5. 前記第2パス実行可否判定手段は、前記第1パス処理により決定されたキーワードの候補数が第1所定個数以下の場合に前記信頼度を第1の閾値より高い値に設定し、当該候補数が第2所定個数以上の場合に前記信頼度を第2の閾値より低い値に設定することを特徴とする請求項4に記載の音声認識装置。
  6. 前記第2パス実行可否判定手段は、SN比が第1所定値より大きい場合に前記信頼度を第1の閾値より高く設定し、SN比が第2所定値より小さい場合に前記信頼度を第2の閾値より低く設定する請求項3乃至5のいずれか一項に記載の音声認識装置。
  7. 前記第2パス実行可否判定手段は、前記スコアのうち最良スコアと2番目に良いスコアとの差が所定値より大きい場合、前記信頼度を前記第1の閾値よりも高く設定することを特徴とする請求項3乃至6のいずれか一項に記載の音声認識装置。
  8. 前記第2パス実行可否判定手段は、発話スピード、音声の大きさ、及び突発性雑音の有無の少なくとも1つに基づき前記信頼度を決定することを特徴とする請求項3乃至7のいずれか一項に記載の音声認識装置。
  9. 車両に搭載され、
    前記第2パス実行可否判定手段は、前記車両の状態を示す情報に基づき前記信頼度を決定する請求項3乃至8のいずれか一項に記載の音声認識装置。
  10. 前記第1パス処理手段と並行して実行され、前記発話信号に基づきサブワード単位の解析を行うことでスコアを算出するサブワード認識手段をさらに備え、
    前記第2パス実行可否判定手段は、サブワード認識手段により得られた最良スコアと第1パス処理手段により得られた最良スコアとのスコア差に基づき前記信頼度を決定する請求項3乃至9のいずれか一項に記載の音声認識装置。
  11. 1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用する音声認識方法であって、
    前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理工程と、
    前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定工程と、
    前記第2パス実行可否判定工程が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理工程と、
    を備えることを特徴とする音声認識方法。
  12. 1又は複数の音響モデルを記憶する音響モデル記憶部と、1又は複数の言語モデルを記憶する言語モデル記憶部と、を利用するコンピュータにより実行される音声認識プログラムであって、
    前記音響モデルと前記言語モデルに基づき、入力された発話信号から単語列の候補及びスコアを決定する第1パス処理手段と、
    前記第1パス処理手段の認識結果及び/又は認識環境の情報に基づき、第2パス処理を実行すべきか否か判定する第2パス実行可否判定手段と、
    前記第2パス実行可否判定手段が第2パス処理を実行すべきと判定した場合、前記音響モデル及び前記言語モデルに基づき、前記候補及び前記スコアを再決定する第2パス処理手段と、
    を備えることを特徴とする音声認識プログラム。
  13. 請求項12に記載のプログラムを記憶したことを特徴とする記憶媒体。
JP2011512291A 2009-05-08 2009-05-08 音声認識装置、音声認識方法、及び音声認識プログラム Pending JPWO2010128560A1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/058707 WO2010128560A1 (ja) 2009-05-08 2009-05-08 音声認識装置、音声認識方法、及び音声認識プログラム

Publications (1)

Publication Number Publication Date
JPWO2010128560A1 true JPWO2010128560A1 (ja) 2012-11-01

Family

ID=43050073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011512291A Pending JPWO2010128560A1 (ja) 2009-05-08 2009-05-08 音声認識装置、音声認識方法、及び音声認識プログラム

Country Status (2)

Country Link
JP (1) JPWO2010128560A1 (ja)
WO (1) WO2010128560A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2013005248A1 (ja) * 2011-07-05 2015-02-23 三菱電機株式会社 音声認識装置およびナビゲーション装置
JP5472261B2 (ja) * 2011-11-04 2014-04-16 カシオ計算機株式会社 自動調判定装置、自動調判定方法及びそのプログラム
JP6131537B2 (ja) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
JP6188831B2 (ja) * 2014-02-06 2017-08-30 三菱電機株式会社 音声検索装置および音声検索方法
KR102036606B1 (ko) * 2016-08-30 2019-10-28 자동차부품연구원 음성 인식률을 고려한 운전자 및 주행상황 맞춤형 hud 정보 제공 시스템 및 방법
JP6787269B2 (ja) * 2017-07-21 2020-11-18 トヨタ自動車株式会社 音声認識システム及び音声認識方法
CN117351944B (zh) * 2023-12-06 2024-04-12 科大讯飞股份有限公司 语音识别方法、装置、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254480A (ja) * 1997-03-13 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2005091611A (ja) * 2003-09-16 2005-04-07 Mitsubishi Electric Corp 情報端末、音声認識サーバ、および音声認識システム
JP3813491B2 (ja) * 2001-10-30 2006-08-23 日本放送協会 連続音声認識装置およびそのプログラム
JP2007108407A (ja) * 2005-10-13 2007-04-26 Nec Corp 音声認識システムと音声認識方法およびプログラム
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03266898A (ja) * 1990-03-16 1991-11-27 Fujitsu Ltd 大語彙音声認識処理方式
JPH07160822A (ja) * 1993-12-07 1995-06-23 Ricoh Co Ltd パターン認識方法
JP3834169B2 (ja) * 1999-09-22 2006-10-18 日本放送協会 連続音声認識装置および記録媒体
EP1162602B1 (en) * 2000-06-07 2004-12-15 Sony International (Europe) GmbH Two pass speech recognition with active vocabulary restriction
JP2006030908A (ja) * 2004-07-21 2006-02-02 Honda Motor Co Ltd 車両用音声認識装置及び移動体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10254480A (ja) * 1997-03-13 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP3813491B2 (ja) * 2001-10-30 2006-08-23 日本放送協会 連続音声認識装置およびそのプログラム
JP2005091611A (ja) * 2003-09-16 2005-04-07 Mitsubishi Electric Corp 情報端末、音声認識サーバ、および音声認識システム
JP2007108407A (ja) * 2005-10-13 2007-04-26 Nec Corp 音声認識システムと音声認識方法およびプログラム
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142627A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置
JP2014142626A (ja) * 2013-01-24 2014-08-07 ▲華▼▲為▼終端有限公司 音声識別方法および装置

Also Published As

Publication number Publication date
WO2010128560A1 (ja) 2010-11-11

Similar Documents

Publication Publication Date Title
US20230409102A1 (en) Low-power keyword spotting system
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
US9600231B1 (en) Model shrinking for embedded keyword spotting
US9070367B1 (en) Local speech recognition of frequent utterances
US8612223B2 (en) Voice processing device and method, and program
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
JP5218052B2 (ja) 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム
US8612225B2 (en) Voice recognition device, voice recognition method, and voice recognition program
US20100198598A1 (en) Speaker Recognition in a Speech Recognition System
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
JP6336219B1 (ja) 音声認識装置および音声認識方法
US9542939B1 (en) Duration ratio modeling for improved speech recognition
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
CN109065026B (zh) 一种录音控制方法及装置
JP6481939B2 (ja) 音声認識装置および音声認識プログラム
JP2014206642A (ja) 音声認識装置および音声認識プログラム
KR20200102309A (ko) 단어 유사도를 이용한 음성 인식 시스템 및 그 방법
JP2011118290A (ja) 音声認識装置
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP6497651B2 (ja) 音声認識装置および音声認識プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130521