WO2017145373A1

WO2017145373A1 - 音声認識装置

Info

Publication number: WO2017145373A1
Application number: PCT/JP2016/055870
Authority: WO
Inventors: 亮介虎間; 匠武井
Original assignee: 三菱電機株式会社
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2017-08-31
Also published as: JPWO2017145373A1; US20190051306A1; CN108701456A; US10446155B2; DE112016006496T5

Abstract

音声認識装置（１０）は、ユーザの発話音声を認識する音声認識部（１１）と、音声認識部（１１）の認識結果に対応する機能を実行する機能実行部（１２）と、機能実行部（１２）が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部（１３）と、実行度合い算出部（１３）が算出した度合いが予め定められた第１の基準以上である場合、認識結果に対応する機能を、機能実行部（１２）に実行させる制御部（１５）とを備える。

Description

音声認識装置

　この発明は、ユーザの発話内容を認識する音声認識装置に関するものである。

　特許文献１には、常時音声を認識し、認識結果に対応する機能を実行するためのショートカットボタンを生成して表示する作動制御装置が記載されている。

特開２００８－１４８１８号公報

　上記特許文献１に係る作動制御装置は、ショートカットボタンに対するユーザの操作を受け付けた場合に、認識結果に対応する機能を実行する構成である。そのため、ユーザの意図に反して勝手に機能が実行されることを防止することができる。
　しかしながら、ユーザが機能実行の意図をもって発話した場合でも、その発話によってすぐに機能を実行させることはできず、ショートカットボタンの操作が必要になるという課題があった。そのため、ユーザに煩わしさを感じさせる。

　この発明は、上記のような課題を解決するためになされたもので、ユーザの操作意図が明確である場合はユーザの操作を簡易にし、ユーザの操作意図が明確でない場合は誤動作を防止する音声認識装置を提供することを目的とする。

　この発明に係る音声認識装置は、ユーザの発話音声を認識する音声認識部と、音声認識部の認識結果に対応する機能を実行する機能実行部と、機能実行部が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部と、実行度合い算出部が算出した度合いが予め定められた第１の基準以上である場合、認識結果に対応する機能を、機能実行部に実行させる制御部とを備えるものである。

　この発明によれば、認識結果に対応する機能を実行できる度合いが第１の基準以上である場合、ユーザの操作意図が明確であると判断して当該機能を実行するようにしたので、ユーザは１度の発話によって機能を実行させることができる。一方、認識結果に対応する機能を実行できる度合いが第１の基準より小さい場合、ユーザの操作意図が明確でないと判断して、誤動作の防止への利用が可能となる。

この発明の実施の形態１に係る音声認識装置の構成例を示すブロック図である。実施の形態１における実行度合いと動作との対応関係を示す図である。実施の形態１に係る音声認識装置の動作を説明するフローチャートである。この発明の実施の形態２に係る音声認識装置の構成例を示すブロック図である。実施の形態２における実行度合いと動作との対応関係を示す図である。実施の形態２に係る音声認識装置の動作を説明するフローチャートである。実施の形態２に係る音声認識装置の動作の他の例を説明するフローチャートである。実施の形態２に係る音声認識装置の変形例を示すブロック図である。この発明の各実施の形態に係る音声認識装置のハードウェア構成図である。

　以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１に係る音声認識装置１０の構成例を示すブロック図である。図１に示す音声認識装置１０は、ユーザの発話音声を認識する音声認識部１１と、音声認識部１１の認識結果に対応する機能を実行する機能実行部１２と、機能実行部１２が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部１３と、当該度合いの算出に用いる実行度合い定義を記憶している実行度合い定義記憶部１４と、実行度合い算出部１３が算出した度合いが予め定められた第１の基準以上である場合、認識結果に対応する機能を機能実行部１２に実行させる制御部１５と、ユーザに対して問合せを行う問合せ制御部１６とを備えている。

　また、音声認識装置１０には、マイク１、スピーカ２、ディスプレイ３、およびタッチパネル４が接続されている。なお、ここでは、ユーザの操作を受け付ける入力装置として、マイク１を用いた音声入力とディスプレイ３上に設置されたタッチパネル４とを例示するが、これに限定されるものではなく、ハードウェアキー等であってもよい。

　以下では、音声認識装置１０が車両に搭載されている例を用いて、この発明の各実施の形態を説明する。機能実行部１２は、カーナビゲーション、カーオーディオまたはカーエアコンディショナ等、車載機器の機能を実行するものとする。

　マイク１は、ユーザにより発話された音声を取り込み、音声データを音声認識部１１へ出力する。
　音声認識部１１は、マイク１から音声データを受け取り、ユーザが発話した内容に該当する音声区間を検出する。以下では、ユーザが発話した内容に該当する音声区間を「発話区間」と呼ぶ。そして、音声認識部１１は、発話区間の音声データの特徴量を抽出し、その特徴量に基づいて、不図示の音声認識辞書等を用いた認識処理を行い、認識結果を制御部１５へ出力する。ここで、音声認識の手法としては、文法に基づく単語認識、キーワードスポッティング、大語彙連続音声認識、またはその他の周知の手法のいずれを用いてもよい。

　また、音声認識部１１は、認識結果を用いて意図推定処理を行ってもよい。その場合、例えば、音声認識部１１は、大語彙連続音声認識による認識結果と意図推定用のモデルとを用いてユーザの意図を推定し、推定した意図を認識結果として出力する。ユーザが「市役所へ行きたい」と発話した場合、意図推定結果は「市役所を目的地に設定する」となる。意図推定の手法は、周知の手法を用いればよいため説明は省略する。

　カーナビゲーション装置などに搭載されている音声認識装置においては、ユーザが発話の開始をカーナビゲーション装置に対して明示するのが一般的である。そのために、音声認識開始を指示するボタンが、タッチパネルを備えたディスプレイ上に表示されたり、ハンドルに設置されたりしている。以下では、音声認識開始を指示するボタン等のことを「音声認識開始指示部」と呼ぶ。そして、音声認識装置は、ユーザにより音声認識開始指示部が操作された後に発話された音声を認識する。
　この発明の各実施の形態における音声認識部１１は、上述したようなユーザによる音声認識開始指示があった後、マイク１からの音声データから発話区間を検出して認識処理を行ってもよい。あるいは、音声認識部１１は、予め定められた音声取得期間において、音声認識開始指示がなくても、マイク１からの音声データから発話区間を検出して認識処理を行ってもよい。予め定められた音声取得期間には、例えば、音声認識装置１０が起動もしくは再開してから終了もしくは停止するまでの間、または音声認識部１１が起動している間等の期間が含まれるものとする。

　機能実行部１２は、制御部１５から指示された機能を実行する。機能実行部１２が実行可能な機能は、例えば、上述したカーナビゲーション、カーオーディオ、およびカーエアコンディショナに関する機能とする。

　実行度合い算出部１３は、音声認識部１１の認識結果を、制御部１５から受け取る。そして、実行度合い算出部１３は、実行度合い定義記憶部１４を参照して、認識結果に対応する機能を実行できる度合いを算出し、実行度合いの算出結果を制御部１５へ出力する。以下では、認識結果に対応する機能を実行できる度合いを「実行度合い」と呼ぶ。
　実行度合いは、音声認識部１１の認識結果と機能実行部１２が実行可能な機能との対応付けが可能かどうか、および機能実行部１２の機能を実行するための情報が十分であるかどうかを段階で表したものである。実行するための情報とは、後述する目的語であり、例えば、カーオーディオの楽曲検索機能においては、「曲名」「アーティスト名」「アルバム名」のような楽曲を特定するための情報である。

　実行度合い定義記憶部１４は、実行度合い算出部１３が実行度合いの算出に用いる実行度合い定義を記憶している。ここで、図２に、機能の実行度合いと音声認識装置１０が行う動作との対応関係の例を示す。

　図２に示す「実行度合い定義」の例では、機能の動作を表す言葉である動詞および機能の目的を表す言葉である目的語の有無に応じた実行度合いの値が、実行度合い定義記憶部１４に予め定義されている。実行度合いの値が大きいほど、機能実行部１２が実行できる度合いが高いものとする。図２に示す「動作」は後述する。
　実行度合い算出部１３は、図２に示す実行度合い定義を参照し、認識結果における動詞と目的語の有無により、実行度合いを算出する。例えば、認識結果「市役所へ行きたい」のように、動詞「行きたい」と目的語「市役所」が存在する場合、実行度合い算出部１３は実行度合い「２」を算出する。

　なお、実行度合い算出部１３は、単純に動詞と目的語のみを抽出してもよいし、動詞と目的語の係り受けの意味を考慮してもよい。例えば、「市役所を食べたい」という認識結果のように、動詞「食べたい」と目的語「市役所」の意味が通じない場合、実行度合い算出部１３は動詞のみを抽出し、実行度合い「１」を算出する。
　上記は一例であり、その他の算出方法として、例えば、文書の意味推定技術の尤度を用いて実行度合いを算出してもよい。

　また、実行度合い定義記憶部１４は、図２に示した実行度合い定義の代わりに、キーワードと実行度合いの値との対応関係の定義を記憶していてもよい。具体的には、「行きたい」等の動詞のキーワードごとに実行度合い「１」が対応付けられており、「市役所」等の目的語のキーワードごとに実行度合い「１」が対応付けられており、「市役所へ行きたい」等の動詞と目的語とを含むキーワードごとに実行度合い「２」が対応付けられている。

　制御部１５は、音声認識部１１から認識結果を受け取り、実行度合い算出部１３へ出力して実行度合いを算出させる。
　制御部１５は、実行度合い算出部１３から実行度合いの算出結果を受け取り、当該算出結果に応じて次の動作を決定し、機能実行部１２または問合せ制御部１６に動作を指示する。実行度合いに応じた動作を決定するために、第１の基準と、第１の基準より小さい値の第２の基準とが、制御部１５に対して予め定められているものとする。
　第１の基準とは、機能実行部１２が機能を実行するのに十分な情報がある状態か否かを判定するためのものであり、例えば図２の例における実行度合い「２」である。実施の形態１に係る音声認識装置１０においては、実行度合いが第１の基準以上である場合、ユーザの車載機器を操作する意図が明確であると判断し、第１の基準より小さい場合、ユーザの車載機器を操作する意図が明確でないと判断する。
　第２の基準とは、音声認識部１１の認識結果と機能実行部１２が実行可能な機能との対応付けができず、機能を実行するための情報が存在しない状態か否かを判定するためのものであり、例えば図２の例における実行度合い「０」である。

　制御部１５は、実行度合いが第１の基準「２」以上である場合、認識結果に対応する機能を実行させる指示を機能実行部１２へ出力する。制御部１５には、動詞と機能との対応関係が予め定義されているものとする。例えば、制御部１５は、認識結果「市役所へ行きたい」に対応する機能として、市役所を目的地に設定する指示を機能実行部１２へ出力する。

　制御部１５は、実行度合いが第１の基準「２」より小さい場合、認識結果に対応する機能をすぐには実行させない。
　例えば、制御部１５は、実行度合いが第２の基準「０」より大きく、かつ、第１の基準「２」より小さい場合、認識結果に対応する機能の候補をユーザに提示してどの機能を実行するか問合せを行うよう、問合せ制御部１６に指示する。認識結果に対応する機能の候補とは、例えば、認識結果中に存在する動詞に対応付けられた機能、または目的語をパラメータとして使用する機能である。例えば認識結果が「アップして」という動詞のみであった場合、制御部１５は、この動詞に対応するカーナビゲーションの地図拡大機能、カーオーディオの音量変更機能、およびカーエアコンディショナの温度変更機能等を候補とする。そして、制御部１５は、問合せ制御部１６等から問合せ結果を受け取り、ユーザが選択した機能を実行させる指示を機能実行部１２へ出力する。
　また、例えば、制御部１５は、実行度合いが第２の基準「０」以下である場合、認識結果に対応する機能を実行せず、機能の候補も提示しない。

　問合せ制御部１６は、機能の候補を提示して問合せを行う指示を、制御部１５から受け付ける。問合せ制御部１６は、機能の候補を、音声としてスピーカ２から出力してもよいし、ディスプレイ３に表示してもよいし、音声としてスピーカ２から出力すると共にディスプレイ３に表示してもよい。そして、問合せ制御部１６は、タッチパネル４等の入力装置をユーザが操作することで入力された情報を受け付け、候補の中からユーザが選択した機能を、問合せ結果として制御部１５へ出力する。なお、タッチパネル４等の入力装置を利用してユーザの操作を受け付けてもよいし、マイク１と音声認識部１１の音声入力を利用してユーザの操作を受け付けてもよい。

　次に、図３のフローチャートを用いて、実施の形態１に係る音声認識装置１０の動作を説明する。音声認識装置１０は、上述した予め定められた音声取得期間において、図３のフローチャートに示された処理を実行する。
　ステップＳＴ１において、音声認識部１１は、マイク１から音声データを受け取り、発話区間を検出して認識処理を行い、認識結果を制御部１５へ出力する。制御部１５は、音声認識部１１から認識結果を受け取り、実行度合い算出部１３へ出力する。

　ステップＳＴ２において、実行度合い算出部１３は、制御部１５から認識結果を受け取り、実行度合い定義記憶部１４を参照して当該認識結果に対応した機能の実行度合いを算出する。実行度合い算出部１３は、実行度合いの算出結果を制御部１５へ出力する。

　ステップＳＴ３において、制御部１５は、実行度合い算出部１３から実行度合いの算出結果を受け取る。制御部１５は、実行度合いが第１の基準「２」以上である場合（ステップＳＴ３“ＹＥＳ”）、ステップＳＴ７へ進み、認識結果に対応する機能を実行させる指示を機能実行部１２へ出力する。機能実行部１２は、制御部１５からの指示に従い、認識結果に対応する機能を実行する。
　一方、制御部１５は、実行度合いが第１の基準「２」より小さい場合（ステップＳＴ３“ＮＯ”）、ステップＳＴ４へ進む。

　ステップＳＴ４において、制御部１５は、実行度合いが第２の基準「０」以下である場合（ステップＳＴ４“ＹＥＳ”）、処理を終了する。
　一方、制御部１５は、実行度合いが第２の基準「０」より大きい場合（ステップＳＴ４“ＮＯ”）、ステップＳＴ５へ進み、認識結果に対応する機能の候補を提示して問合せを行うよう、問合せ制御部１６へ指示する。問合せ制御部１６は、制御部１５からの指示に従い、スピーカ２またはディスプレイ３を用いて機能の候補を提示する。

　ステップＳＴ６において、ユーザがタッチパネル４を操作することによって、提示された候補の中から所望の機能を選択した場合、タッチパネル４は、選択された機能を問合せ結果として問合せ制御部１６へ出力する。問合せ制御部１６は、問合せ結果をタッチパネル４から受け取り、制御部１５へ出力する。
　あるいは、ユーザが発話によって、提示された候補の中から所望の機能を選択した場合、音声認識部１１は、マイク１を介してこの発話の音声データを受け取り、発話区間を検出して認識処理を行い、認識結果を問合せ結果として制御部１５へ出力する。

　制御部１５は、問合せ制御部１６または音声認識部１１から問合せ結果を受け取った場合（ステップＳＴ６“ＹＥＳ”）、ステップＳＴ７へ進み、ユーザが選択した機能を実行させる指示を機能実行部１２へ出力する。機能実行部１２は、制御部１５からの指示に従い、ユーザが選択した機能を実行する。
　一方、制御部１５は、問合せ制御部１６に候補の提示を指示してから所定時間が経過するまでの間に、問合せ制御部１６または音声認識部１１から問合せ結果が通知されなかった場合（ステップＳＴ６“ＮＯ”）、処理を終了する。その際、問合せ制御部１６は、ディスプレイ３における機能の候補の表示を終了する。

　以上のとおり、実施の形態１に係る音声認識装置１０は、ユーザの発話音声を認識する音声認識部１１と、音声認識部１１の認識結果に対応する機能を実行する機能実行部１２と、機能実行部１２が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部１３と、実行度合い算出部１３が算出した度合いが予め定められた第１の基準以上である場合、認識結果に対応する機能を機能実行部１２に実行させる制御部１５とを備える構成である。認識結果に対応する機能の実行度合いが第１の基準以上である場合、ユーザの操作意図が明確であると判断して当該機能を実行することにより、ユーザは発話のみによって機能を実行させることができる。一方、認識結果に対応する機能の実行度合いが第１の基準より小さい場合、ユーザの操作意図が明確でないと判断して、ユーザの意図とは異なる誤動作の防止への利用が可能となる。

　また、実施の形態１に係る音声認識装置１０は、認識結果に基づく機能実行部１２が実行可能な機能の候補を提示する問合せ制御部１６を備える構成である。また、制御部１５は、問合せ制御部１６が提示した機能の候補の中からユーザにより選択された機能を、機能実行部１２に実行させる構成である。これにより、ユーザは必要最低限の追加操作により機能を実行させることができる。

　また、実施の形態１において、音声認識部１１は、予め定められた音声取得期間において取得した発話音声を認識する構成である。上述したように、実施の形態１によれば誤動作を防止することができるため、音声取得期間における常時音声認識を行うことができ、従ってユーザは音声認識開始を指示することなく機能を実行させることができる。

実施の形態２．
　上記実施の形態１では、認識結果に対応した機能の実行度合いが第１の基準より小さく、かつ、第２の基準より大きい場合、機能の候補を提示してどの機能を実行するかユーザに問合せたが、本実施の形態２では、ユーザの操作意図の有無に応じて問合せ内容を変更する。

　図４は、この発明の実施の形態２に係る音声認識装置１０の構成例を示すブロック図である。実施の形態２に係る音声認識装置１０は、図１に示した実施の形態１の音声認識装置１０に対して判断部１７が追加された構成である。図４において、図１と同一または相当する部分は、同一の符号を付し説明を省略する。

　実施の形態２において、実行度合い算出部１３ａは、実行度合い定義記憶部１４ａを参照して、音声認識部１１の認識結果に対応する機能の実行度合いを算出する。ここで、図５に、機能の実行度合いと音声認識装置１０が行う動作との対応関係の例を示す。
　図５に示す「実行度合い定義」の例では、機能の動作を表す言葉である動詞の実行度合いの値に比べ、機能の目的を表す言葉である目的語の実行度合いの値のほうが低い。また、実行度合い「３」を第１の基準とし、実行度合い「０」を第２の基準とする。

　判断部１７は、制御部１５ａから認識結果を受け取り、実行度合い定義記憶部１４ａを参照して認識結果における動詞と目的語の有無を判断することにより、ユーザが車載機器を操作する意図があるか否かを判断する。そして、判断部１７は、判断結果を制御部１５ａへ出力する。

　実施の形態１に係る音声認識装置１０においては、実行度合いが第１の基準以上である場合、ユーザの車載機器を操作する意図が明確であると判断し、第１の基準より小さい場合、ユーザの車載機器を操作する意図が明確でないと判断した。
　これに対し、本実施の形態２では、判断部１７は、認識結果に動詞が存在し、かつ、この認識結果と機能実行部１２が実行可能な機能との対応付けが可能な場合、ユーザが車載機器を操作する意図があると判断する。一方、判断部１７は、認識結果に動詞が存在しない、または機能との対応付けが不可能であり、目的語だけが存在する場合、ユーザが車載機器を操作する意図がないと判断する。

　ここで、図６のフローチャートを用いて、実施の形態２に係る音声認識装置１０の動作を説明する。音声認識装置１０は、上述した予め定められた音声取得期間において、図６のフローチャートに示された処理を実行する。
　図６のステップＳＴ１～ＳＴ７は、実施の形態１における図３のステップＳＴ１～ＳＴ７と同じ処理であるため、説明を省略する。

　制御部１５ａは、認識結果に対応する機能の実行度合いが第１の基準「３」より小さく（ステップＳＴ３“ＮＯ”）、かつ、第２の基準「０」より大きい場合（ステップＳＴ４“ＮＯ”）、ステップＳＴ１１へ進み、この認識結果を判断部１７へ出力する。判断部１７は、制御部１５ａから認識結果を受け取り、ユーザの操作意図の有無を判断し、判断結果を制御部１５ａへ出力する。制御部１５ａは、判断部１７から判断結果を受け取る。

　制御部１５ａは、ユーザの操作意図がない場合（ステップＳＴ１１“ＮＯ”）、ステップＳＴ５へ進む。一方、制御部１５ａは、ユーザの操作意図がある場合（ステップＳＴ１１“ＹＥＳ”）、ステップＳＴ１２へ進み、この機能の実行に必要な情報を追加する問合せを行うよう、問合せ制御部１６ａに指示する。問合せ制御部１６ａは、制御部１５ａからの指示に従い、スピーカ２またはディスプレイ３を用いて、ユーザに対して追加情報の問合せを行う。

　ステップＳＴ１３において、制御部１５ａは、問合せ制御部１６ａまたは音声認識部１１から問合せ結果である追加情報を受け取った場合（ステップＳＴ１３“ＹＥＳ”）、ステップＳＴ２へ進み、この追加情報を実行度合い算出部１３ａへ出力する。実行度合い算出部１３ａは、最初の認識結果と追加情報とを合わせて、実行度合いを再度算出する。
　一方、制御部１５ａは、問合せ制御部１６ａに追加情報の問合せを指示してから所定時間が経過するまでの間に、問合せ制御部１６ａまたは音声認識部１１から問合せ結果である追加情報が通知されなかった場合（ステップＳＴ１３“ＮＯ”）、処理を終了する。その際、問合せ制御部１６ａは、ディスプレイ３における追加情報の問合せの表示を終了する。

　例えば、認識結果が「曲が聴きたい」であった場合、動詞「聴きたい」に対してオーディオ再生機能が対応付け可能であるが、「曲」では具体的なパラメータが分からないため、実行度合いは「２」となる。その場合、制御部１５ａは、「聴きたい曲名をお話しください」等の問合せを行うよう、問合せ制御部１６ａに指示する。この問合せに従ってユーザが曲名を発話すると、制御部１５ａは、タッチパネル４等の入力装置を利用して、またはマイク１と音声認識部１１の音声入力を利用して、曲名の追加情報を取得する。そして、実行度合い算出部１３ａは、「曲が聴きたい」という認識結果と曲名の追加情報とを用いて、オーディオ再生機能の実行度合いを再度算出する。この例の場合、再度算出した実行度合いが「３」になるので、制御部１５ａは、曲を再生する指示を機能実行部１２へ出力する。

　なお、制御部１５ａは、認識結果における目的語が明確でなくても機能が実行できる場合、問合せを行う前に機能を実行させてもよい。
　ここで、図７のフローチャートを用いて、実施の形態２に係る音声認識装置１０の動作の他の例を説明する。
　ステップＳＴ２１において、制御部１５ａは、ユーザの操作意図がない場合（ステップＳＴ２１“ＮＯ”）、ステップＳＴ５へ進む。一方、制御部１５ａは、ユーザの操作意図がある場合（ステップＳＴ２１“ＹＥＳ”）、ステップＳＴ２２へ進み、認識結果に対応する機能の候補の中から実行優先度が一番高い機能を実行するよう、機能実行部１２へ指示する。機能実行部１２は、制御部１５ａからの指示に従い、実行優先度が一番高い機能を実行する。

　例えば、認識結果が「アップして」という動詞のみであった場合、制御部１５ａは、この動詞に対応するカーナビゲーションの地図拡大機能、カーオーディオの音量変更機能、およびカーエアコンディショナの温度変更機能等を候補とし、この中で実行優先度が一番高い機能を実行させる。
　実行優先度は、その機能を実行した場合にユーザへの影響が少ない機能の優先度が高くなるように予め定義しておいてもよいし、制御部１５ａがユーザの利用頻度に基づいて決定してもよい。

　ステップＳＴ２３において、制御部１５ａは、実行した機能の提示およびこの機能の訂正有無の問合せを行うよう、問合せ制御部１６ａへ指示する。問合せ制御部１６ａは、制御部１５ａからの指示に従い、スピーカ２またはディスプレイ３を用いて実行した機能の提示およびこの機能の訂正有無の問合せを行う。その際、問合せ制御部１６ａは、実行優先度が低く実行されなかった機能の候補を提示して、ユーザが選択できるようにしてもよい。

　ステップＳＴ２４において、制御部１５ａは、問合せ制御部１６ａまたは音声認識部１１から問合せ結果として、実行した機能とは別の機能の実行を指示する認識結果等を受け取った場合（ステップＳＴ２４“ＹＥＳ”）、ステップＳＴ２へ進み、新たな認識結果に対応する機能の実行度合いを算出するよう、実行度合い算出部１３ａへ指示する。その際、制御部１５ａは、先に実行した機能について、その実行を取り消す指示を機能実行部１２に対して出力する。
　あるいは、制御部１５ａは、実行した機能とは別の機能の実行を指示する認識結果等を受け取った場合（ステップＳＴ２４“ＹＥＳ”）、その認識結果等に対応する機能を実行するよう機能実行部１２へ指示してもよい。
　一方、制御部１５ａは、問合せ制御部１６ａに実行した機能の訂正有無の問合せを指示してから所定時間が経過するまでの間に、問合せ制御部１６ａまたは音声認識部１１から問合せ結果が通知されなかった場合（ステップＳＴ２４“ＮＯ”）、処理を終了する。その際、問合せ制御部１６ａは、ディスプレイ３における問合せの表示を終了する。

　以上のとおり、実施の形態２に係る音声認識装置１０は、音声認識部１１の認識結果を用いてユーザの操作意図の有無を判断する判断部１７と、ユーザに対して問合せを行う問合せ制御部１６ａとを備える構成である。そして、問合せ制御部１６ａは、実行度合い算出部１３ａが算出した実行度合いが、第２の基準より大きく、かつ、第１の基準より小さい場合、判断部１７の判断結果に応じて問合せ内容を変更する。
　具体的には、問合せ制御部１６ａは、判断部１７により操作意図があると判断された場合、機能実行部１２が機能を実行するために必要な追加情報の問合せを行う。一方、問合せ制御部１６ａは、判断部１７により操作意図がないと判断された場合、認識結果に基づく機能実行部１２が実行可能な機能の候補を提示し、制御部１５ａは、提示した機能の候補の中からユーザにより選択された機能を機能実行部１２に実行させる。これにより、ユーザは必要最低限の追加操作により機能を実行させることができる。

　なお、実行度合い算出部１３ａは、提示した機能の候補の中からユーザにより選択された機能を実行するために必要な情報の問合せを行ってもよい。
　例えば、図６および図７のフローチャートに示されたステップＳＴ７において、実行度合い算出部１３ａは、提示した機能の候補の中からユーザにより選択された機能を実行する際、この機能の実行に必要な情報が不足していると判断した場合にユーザに対して追加情報の問合せを行う。

　また、実施の形態２の図７に示したように、実行度合い算出部１３ａが算出した実行度合いが第２の基準より大きく、かつ、第１の基準より小さい場合であって、判断部１７により操作意図があると判断された場合、制御部１５ａは、機能実行部１２に機能を実行させ、問合せ制御部１６ａは、機能実行部１２が実行した機能を訂正するか否か問合せを行う構成にしてもよい。これにより、追加情報が無くとも機能を実行可能な場合、ユーザは追加操作なしに機能を実行させることができる。

　また、実施の形態２によれば、制御部１５ａは、実行度合い算出部１３ａが算出した実行度合いが第２の基準以下である場合、認識結果に対応する機能を実行させない構成である。実行度合いが著しく低い機能を実行しないことにより、ユーザの意図とは異なる誤動作を防止することができる。

　次に、図８に、実施の形態２に係る音声認識装置１０の変形例を示す。
　図８に示す音声認識装置１０は、図４に示した実施の形態２の音声認識装置１０に対してユーザ特定部１８が追加された構成である。図８において、図１および図４と同一または相当する部分は、同一の符号を付し説明を省略する。

　ユーザ特定部１８は、発話ユーザを特定し、音声認識部１１ａに通知する。音声認識部１１ａは、図６のフローチャートに示されたステップＳＴ１２または図７のフローチャートに示されたステップＳＴ２３において問合せ制御部１６ａが問合せを行う際に、ユーザ特定部１８が特定したユーザの発話を認識処理して問合せ結果として出力する。これにより、問合せ制御部１６ａは、ユーザ特定部１８が特定したユーザとの対話を実行することができる。以下に、特定ユーザとの対話の例を説明する。

　例えば、ユーザ特定部１８は、マイク１から音声データを取得し、声紋認証を実施して発話ユーザを特定し、音声認識部１１ａは、特定された発話ユーザの音声データを選択的に取得して認識処理を行う。あるいは、ユーザ特定部１８は、２本以上のマイク１から各音声データを取得して音源定位により発話ユーザの方向を特定し、または不図示のカメラが撮像した顔画像を取得して発話ユーザの方向を特定し、音声認識部１１ａは、ビームフォーミングにより発話ユーザの方向からの音声データを選択的に取得して認識処理を行う。これにより、車内の乗員のうちの特定されたユーザ以外の発話による音声認識装置１０の誤動作を防止することができる。

　また、例えば、音声認識部１１ａは、ユーザ特定部１８が特定した発話ユーザに応じた適応を行ってもよい。音声認識部１１ａは、ユーザごとの音声認識辞書、音響モデルまたは言語モデル等を備えており、ユーザ特定部１８が特定した発話ユーザに応じて音声認識辞書等を切り替える。また、音声認識部１１ａは、ユーザごとの音声認識辞書等を作成するために、ユーザ特定部１８が特定した発話ユーザごとに学習を行ってもよい。これにより、問合せの際の認識精度を高めることができ、誤認識による音声認識装置１０の誤動作を防止することができる。

　また、例えば、制御部１５ａは、ユーザ特定部１８が特定した発話ユーザに応じて、図７のフローチャートに示されたステップＳＴ２２における実行優先度を切り替えてもよい。

　なお、図１に示した実施の形態１の音声認識装置１０に対して、ユーザ特定部１８を追加してもよい。この場合、図３のフローチャートに示されたステップＳＴ５において問合せ制御部１６が機能の候補を提示して問合せを行う際、音声認識部１１は、ユーザ特定部１８が特定したユーザの発話を認識処理して問合せ結果として出力すればよい。

　最後に、図９を参照して、この発明の各実施の形態に係る音声認識装置１０のハードウェア構成例を説明する。
　図１、図４および図８に示したマイク１およびタッチパネル４は、図９に示した入力装置１０３である。スピーカ２およびディスプレイ３は、出力装置１０４である。音声認識装置１０における音声認識部１１，１１ａ、機能実行部１２、実行度合い算出部１３，１３ａ、制御部１５，１５ａ、問合せ制御部１６，１６ａ、判断部１７およびユーザ特定部１８は、メモリ１０２に格納されているプログラムを実行するプロセッサ１０１である。実行度合い定義記憶部１４，１４ａは、メモリ１０２である。

　音声認識部１１，１１ａ、機能実行部１２、実行度合い算出部１３，１３ａ、制御部１５，１５ａ、問合せ制御部１６，１６ａ、判断部１７およびユーザ特定部１８の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ１０２に格納される。プロセッサ１０１は、メモリ１０２に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。即ち、音声認識装置１０は、プロセッサ１０１により実行されるときに図３、図６または図７に示した各ステップが結果的に実行されることになるプログラムを格納するためのメモリ１０２を備える。また、このプログラムは、音声認識装置１０の各部の手順または方法をコンピュータに実行させるものであるともいえる。

　プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、またはＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等ともいう。メモリ１０２は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）、ＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　ＥＰＲＯＭ）等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、ＣＤ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ）、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等の光ディスクであってもよい。

　なお、上記実施の形態１，２では、実行度合い算出部１３，１３ａが音声認識部１１，１１ａの認識結果から実行度合いを算出し、制御部１５，１５ａが実行度合いに応じてその後の動作を決定する構成であったが、この構成に加え、特定のコマンドが発話された場合にはそのコマンドに対応した動作を実行するようにしてもよい。
　例えば、「オーディオ」というコマンドに対して「最初の楽曲を再生する機能を実行」という動作が予め制御部１５，１５ａに定められている場合、ユーザが「オーディオ」と発話すれば制御部１５，１５ａにより最初の楽曲再生が開始するものであってもよい。
　さらには、コマンドに対する動作としては、「機能実行」だけでなく、「追加情報問合せ」または「機能候補提示」などが定められていてもよい。つまり「オーディオ」といえば「一律に最初の楽曲を再生する」のではなく「誰の楽曲を再生しますか」「どの楽曲を再生しますか」などを問い合わせたうえで目的とする楽曲を再生するような動作があっても良い。

　なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
　また、実施の形態１，２では、音声認識装置１０を車両に搭載した用途を説明したが、車両以外の用途に用いてもよい。

　この発明に係る音声認識装置は、認識結果に対応する機能を実行できる度合いが第１の基準以上である場合は当該機能を実行し、それ以外の場合は当該機能をすぐには実行しないことにより誤動作を防止するようにしたので、常時音声を認識する音声認識装置などに用いるのに適している。

　１　マイク、２　スピーカ、３　ディスプレイ、４　タッチパネル、１０　音声認識装置、１１，１１ａ　音声認識部、１２　機能実行部、１３，１３ａ　実行度合い算出部、１４，１４ａ　実行度合い定義記憶部、１５，１５ａ　制御部、１６，１６ａ　問合せ制御部、１７　判断部、１８　ユーザ特定部、１０１　プロセッサ、１０２　メモリ、１０３　入力装置、１０４　出力装置。

Claims

　ユーザの発話音声を認識する音声認識部と、
　前記音声認識部の認識結果に対応する機能を実行する機能実行部と、
　前記機能実行部が前記認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部と、
　前記実行度合い算出部が算出した度合いが予め定められた第１の基準以上である場合、前記認識結果に対応する機能を、前記機能実行部に実行させる制御部とを備える音声認識装置。
　前記音声認識部の認識結果を用いてユーザの操作意図の有無を判断する判断部と、
　ユーザに対して問合せを行う問合せ制御部とを備え、
　前記問合せ制御部は、前記実行度合い算出部が算出した度合いが、前記第１の基準より小さい予め定められた第２の基準より大きく、かつ、前記第１の基準より小さい場合、前記判断部の判断結果に応じて問合せ内容を変更することを特徴とする請求項１記載の音声認識装置。
　前記問合せ制御部は、前記判断部により操作意図があると判断された場合、前記機能実行部が前記機能を実行するために必要な情報の問合せを行うことを特徴とする請求項２記載の音声認識装置。
　前記制御部は、前記問合せ制御部の問合せにより取得した情報を用いて、前記機能実行部に前記機能を実行させることを特徴とする請求項３記載の音声認識装置。
　前記制御部は、前記実行度合い算出部が算出した度合いが前記第２の基準より大きく、かつ、前記第１の基準より小さい場合であって、前記判断部により操作意図があると判断された場合、前記機能実行部に前記機能を実行させ、
　前記問合せ制御部は、前記機能実行部が実行した前記機能を訂正するか否か問合せを行うことを特徴とする請求項２記載の音声認識装置。
　発話したユーザを特定するユーザ特定部を備え、
　前記問合せ制御部は、前記ユーザ特定部が特定したユーザとの対話を実行することを特徴とする請求項３記載の音声認識装置。
　前記問合せ制御部は、前記ユーザ特定部が特定したユーザとの音声対話を実行することを特徴とする請求項６記載の音声認識装置。
　前記音声認識部は、前記ユーザ特定部が特定したユーザに適応した認識を行うことを特徴とする請求項６記載の音声認識装置。
　前記問合せ制御部は、前記判断部により操作意図がないと判断された場合、前記認識結果に基づく前記機能実行部が実行可能な機能の候補を提示することを特徴とする請求項２記載の音声認識装置。
　前記問合せ制御部は、提示した機能の候補の中からユーザにより選択された機能を実行するために必要な情報の問合せを行うことを特徴とする請求項９記載の音声認識装置。
　前記制御部は、前記問合せ制御部が提示した機能の候補の中からユーザにより選択された機能を、前記機能実行部に実行させることを特徴とする請求項９記載の音声認識装置。
　前記音声認識部は、予め定められた音声取得期間において取得した発話音声を認識することを特徴とする請求項１記載の音声認識装置。
　前記制御部は、前記実行度合い算出部が算出した度合いが前記第２の基準以下である場合、前記認識結果に対応する機能を実行させないことを特徴とする請求項２記載の音声認識装置。