WO2013175523A1

WO2013175523A1 - 音声認識装置

Info

Publication number: WO2013175523A1
Application number: PCT/JP2012/003340
Authority: WO
Inventors: 井上　譲; 尚嘉竹裏; 友紀古本; 悠希住吉; 武弘重田
Original assignee: 三菱電機株式会社
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2013-11-28

Abstract

　ユーザが発話した音声を常時取得して認識する音声認識装置において、ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部を参照して、音声認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、ユーザの操作履歴を記憶するユーザ操作履歴記憶部を参照して、ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備えるようにしたので、ユーザが咄嗟に発した訂正表現を用いてユーザ操作を訂正することができる。

Description

音声認識装置

　この発明は、常時音声を認識し、その認識結果を用いてユーザの操作を訂正する音声認識装置に関するものである。

　複雑な操作手段を有する装置や、車載機器などの手動操作が困難な環境に設置された装置に対しては、音声による簡便な操作が求められるが、音声操作には誤認識が不可避のため、誤認識した際の訂正手段を設けることが必須である。

　そのため、例えば特許文献１には、前の音声操作による認識結果を保持し、音声認識によってユーザの訂正の意図が検出された場合には、保持していた認識結果を出力する結果保持手段を備えた音声認識装置が開示されている。

特開２０００－２９３１９５号公報

　しかしながら、例えば特許文献１のような従来の音声認識装置では、訂正可能な操作は音声操作に限られており、音声操作以外の操作を訂正することはできない、という課題があった。また、訂正前の認識結果と訂正後の出力とをユーザが指定しなければ訂正することができない、という課題もあった。

　この発明は、上記のような課題を解決するためになされたものであり、音声操作を含むあらゆるユーザ操作を音声で簡便に訂正することが可能な音声認識装置を提供することを目的とする。

　上記目的を達成するため、この発明は、ユーザが発話した音声を認識する音声認識装置において、ユーザにより入力された音声を検知して取得する音声取得部と、前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、ユーザの操作履歴を記憶するユーザ操作履歴記憶部と、前記ユーザ操作履歴記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備えることを特徴とする。

　この発明の音声認識装置によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現を用いてユーザ操作を訂正することができる。

実施の形態１による音声認識装置の一例を示すブロック図である。ユーザ操作訂正表現記憶部３の一例を示す図である。実施の形態１による音声認識装置の動作を示すフローチャートである。実施の形態２による音声認識装置の一例を示すブロック図である。変換情報記憶部８の一例を示す図である。実施の形態２による音声認識装置の動作を示すフローチャートである。実施の形態３による音声認識装置の一例を示すブロック図である。操作情報記憶部１０の一例を示す図である。実施の形態３による音声認識装置の動作を示すフローチャートである。実施の形態４による音声認識装置の一例を示すブロック図である。実施の形態４による音声認識装置の動作を示すフローチャートである。実施の形態５による音声認識装置の一例を示すブロック図である。実施の形態５による音声認識装置の動作を示すフローチャートである。実施の形態６による音声認識装置の一例を示すブロック図である。例外訂正表現記憶部１３の一例を示す図である。実施の形態６による音声認識装置の動作を示すフローチャートである。実施の形態７による音声認識装置の一例を示すブロック図である。実施の形態７による音声認識装置の動作を示すフローチャートである。実施の形態８による音声認識装置の一例を示すブロック図である。実施の形態８による音声認識装置の動作を示すフローチャートである。実施の形態９による音声認識装置の一例を示すブロック図である。実施の形態９による音声認識装置の動作を示すフローチャートである。

　以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
　この発明は、ユーザが発話した音声を認識する音声認識装置において、その音声認識装置が起動されている場合は常時、ユーザの発話内容を認識し、当該発話内容に含まれる訂正表現を用いて、ユーザ操作の訂正を行うものである。なお、以下の実施の形態では、この発明の音声認識装置が、車両などの移動体用の情報装置または車載情報装置に搭載されている場合を例に挙げて説明する。

実施の形態１．
　図１は、この発明の実施の形態１による音声認識装置の一例を示すブロック図である。この音声認識装置は、音声取得部１と、音声認識部２と、ユーザ操作訂正表現記憶部３と、ユーザ操作訂正表現抽出部４と、ユーザ操作履歴記憶部５と、ユーザ操作抽出部６と、ユーザ操作実行制御部７とを備えている。また、図示は省略したが、この音声認識装置は、キーやタッチパネル等による入力信号を取得するキー入力部と、表示または音声によりユーザに情報や指示を提示する出力部も備えている。

　音声取得部１は、マイク等により集音された音声（搭乗者等のユーザにより入力された音声）をＡ／Ｄ変換して、例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）形式で取得する。

　音声認識部２は、認識辞書（図示せず）を有し、音声取得部１により取得された音声データから、搭乗者（ユーザ）の発話内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）法のような一般的な方法を用いて行えばよい。また、音声認識部２は、ネットワーク上の音声認識サーバを使用してもよい。

　ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、搭乗者が発話等の開始をシステムに対して明示（指示）するのが一般的である。そのために、音声認識開始を指示するボタン等（以下、「音声認識開始指示部」と呼ぶ）が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、搭乗者により音声認識開始指示部が押下された後に、発話された音声を認識する。すなわち、音声認識開始指示部が音声認識開始信号を出力し、音声認識部が当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、搭乗者の発話内容に該当する音声区間を検出し、上述した認識処理を行う。

　しかし、この実施の形態１における音声認識部２は、上述したような搭乗者による音声認識開始指示がなくても、常に、搭乗者の発話内容を認識する。すなわち、音声認識部２は、音声認識開始信号を受けなくても、音声取得部１により取得された音声データから、搭乗者の発話内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。なお、以下の実施の形態においても同様である。

　ユーザ操作訂正表現記憶部３は、通常、ユーザが操作を訂正する際に使用すると想定される表現を記憶している。
　図２は、ユーザ操作訂正表現記憶部３の一例を示す図である。この図３に示すように、ユーザ操作訂正表現記憶部３は、例えば、「違う」「違った」「間違えた」「～ではなくて」「やめて」「キャンセル」「１つ前」「２つ前」などの訂正表現を記憶している。
　なお、ユーザ操作とは、ユーザが行ったすべての操作、すなわち、例えばキー入力部を介したキー操作、タッチパネル操作等も含めた、音声による操作に限定されないあらゆる操作を指す。以下の実施の形態においても、同様である。

　ユーザ操作訂正表現抽出部４は、ユーザ操作訂正表現記憶部３を参照して、音声認識部２により出力された音声認識結果の文字列からユーザ操作の訂正表現を抽出する。すなわち、音声認識結果の文字列を形態素解析した結果、ユーザ操作訂正表現記憶部３に記憶されている表現と合致する表現を、訂正表現として抽出する。

　ユーザ操作履歴記憶部５は、ユーザの過去の操作履歴を記憶している。ここで、ユーザの過去の操作履歴とは、過去にユーザが行ったすべてのユーザ操作、すなわち、例えばキー入力部を介したキー操作、タッチパネル操作等も含めた、音声による操作に限定されないあらゆるユーザ操作を指す。以下の実施の形態においても、同様である。

　ユーザ操作抽出部６は、ユーザ操作履歴記憶部５を参照して、ユーザ操作訂正表現抽出部４により抽出された訂正表現に基づいて、ユーザ操作を抽出する。すなわち、ユーザ操作履歴記憶部５から、訂正表現に該当するユーザ操作を抽出する。
　ユーザ操作実行制御部７は、ユーザ操作抽出部６により抽出されたユーザ操作を実行する。

　次に、図３に示すフローチャートを用いて、実施の形態１の音声認識装置の動作を説明する。
　まず、音声取得部１は、マイク等により集音された車内の音声（入力された音声）をＡ／Ｄ変換して、例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）形式で取得する（ステップＳＴ１１）。次に、音声認識部２は、音声取得部１で取得された音声データを認識し、認識結果を文字列で出力する（ステップＳＴ１２）。ここで、音声認識部２は前述したとおり、音声認識開始信号を受けなくても認識処理を行う。以下の実施の形態においても、同様である。

　そして、ユーザ操作訂正表現抽出部４は、音声認識部２による認識結果の文字列と、図２に示すようなユーザ操作訂正表現記憶部３とを比較して、合致する文字列があるかないか、すなわち、認識結果の文字列に訂正表現が含まれているか否かを判断する（ステップＳＴ１３）。その結果、音声認識部２による認識結果の文字列に訂正表現が含まれていた場合（ステップＳＴ１３のＹＥＳの場合）、当該訂正表現を抽出する（ステップＳＴ１４）。一方、訂正表現が含まれていなかった場合（ステップＳＴ１３のＮＯの場合）には、処理を終了する。

　ユーザ操作抽出部６は、ユーザ操作履歴記憶部５の中に、ユーザ操作訂正表現抽出部４により抽出された訂正表現に該当するユーザ操作が存在するか否かを判断する（ステップＳＴ１５）。該当するユーザ操作が存在する場合（ステップＳＴ１５のＹＥＳの場合）には、ユーザ操作履歴記憶部５からそのユーザ操作を抽出する（ステップＳＴ１６）。そして、ユーザ操作実行制御部７が、当該ユーザ操作を実行する（ステップＳＴ１７）。
　一方、該当するユーザ操作が存在しなかった場合（ステップＳＴ１５のＮＯの場合）には、処理を終了する。

　具体的には、例えば、ステップＳＴ２における音声認識結果が「１つ前のだった。」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、合致する文字列「１つ前」を訂正表現として抽出する（ステップＳＴ１３のＹＥＳ、ステップＳＴ１４）。その後、ユーザ操作履歴記憶部５に記憶されている１つ前のユーザ操作を抽出し（ステップＳＴ１５のＹＥＳ、ステップＳＴ１６）、そのユーザ操作を実行する（ステップＳＴ１７）。

　以上のように、この実施の形態１によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現を用いてユーザ操作を訂正し、過去にユーザが行った操作を実行することができる。また、ユーザが意識しなくても音声認識装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要としない。

実施の形態２．
　図４は、この発明の実施の形態２による音声認識装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態２では、実施の形態１と比べると、ユーザ操作履歴記憶部５に代えて、変換情報記憶部８を備えており、ユーザの訂正表現を直接操作に変換して訂正操作を実行するものである。

　変換情報記憶部８には、訂正表現に対応するユーザ操作が、訂正表現に対応付けられて記憶されている。
　図５は、変換情報記憶部８の一例を示す図である。この図５に示す変換情報記憶部８は、例えば、図３に示すユーザ操作訂正表現記憶部３に記憶されている訂正表現のうち、「違う」「違った」「間違えた」「～ではなくて」「やめて」「キャンセル」という訂正表現は、ユーザ操作コマンドに変換すると「キャンセル」操作である、ということを意味するユーザ操作変換情報に対応付けられている、ということを示している。

　次に、図６に示すフローチャートを用いて、実施の形態２の音声認識装置の動作を説明する。
　ステップＳＴ２１～ＳＴ２５までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１１～ＳＴ１５と同じであるため、説明を省略する。そして、この実施の形態２では、ステップＳＴ２５での判断において、該当するユーザ操作が存在する場合（ステップＳＴ２５のＹＥＳの場合）には、変換情報記憶部８からその訂正表現に該当するユーザ操作を抽出する（ステップＳＴ２６）。そして、ユーザ操作実行制御部７が、当該ユーザ操作を実行する（ステップＳＴ２７）。

　具体的には、例えば、ステップＳＴ２２における音声認識結果が「あ、違った。」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、合致する文字列「違った」を訂正表現として抽出する（ステップＳＴ２３のＹＥＳ、ステップＳＴ２４）。その後、変換情報記憶部８を参照し、訂正表現「違った」に対応するユーザ操作変換情報として、「キャンセル」操作を抽出し（ステップＳＴ２５のＹＥＳ、ステップＳＴ２６）、そのユーザ操作を実行する（ステップＳＴ２７）。

　以上のように、この実施の形態２によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現を用いて現在実行中のユーザ操作または既に実行済みのユーザ操作を訂正することができる。また、ユーザが意識しなくても音声認識装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要としない。

実施の形態３．
　図７は、この発明の実施の形態３による音声認識装置の一例を示すブロック図である。なお、実施の形態１，２で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態３では、実施の形態１と比べると、ユーザ操作履歴記憶部５に代えて、入力操作部９および操作情報記憶部１０を備えており、ユーザの訂正表現と現在ユーザが操作可能な操作情報とに基づいて訂正操作を実行するものである。

　入力操作部９は、図示していないキー入力部（キーボードやタッチパネル等）を介して実際にユーザが操作した情報をユーザ操作抽出部６へ出力する。
　操作情報記憶部１０は、現在ユーザに提示している表示情報などの、ユーザが操作可能な操作情報を記憶している。
　図８は、操作情報記憶部１０の一例を示す図である。この図８に示すように、操作情報記憶部１０は、例えば、左右２つのボタン、上下２つのボタン、上中下３つのボタンなどのように、現在ユーザに提示されている入力操作可能な操作情報を記憶している。

　次に、図９に示すフローチャートを用いて、実施の形態３の音声認識装置の動作を説明する。
　ステップＳＴ３１～ＳＴ３５までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１１～ＳＴ１５と同じであるため、説明を省略する。そして、この実施の形態３では、ステップＳＴ３５での判断において、該当するユーザ操作が存在する場合（ステップＳＴ３５のＹＥＳの場合）には、当該訂正表現と、入力操作部９による実際の入力操作と、操作情報記憶部１０に記憶されている現在の操作可能な操作情報とに基づいて、訂正表現に該当するユーザ操作を抽出する（ステップＳＴ３６）。そして、ユーザ操作実行制御部７が、当該ユーザ操作を実行する（ステップＳＴ３７）。

　具体的には、例えば、左右２つのボタンがユーザに提示されている状態で、ユーザの入力操作としては左のボタンを押下したとする。この時、ステップＳＴ３２における音声認識結果が「あ、違った。」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、合致する文字列「違った」を訂正表現として抽出する（ステップＳＴ３３のＹＥＳ、ステップＳＴ３４）。その後、訂正表現「違った」と、入力操作部９による実際の入力操作「左」と、操作情報記憶部１０に記憶されている現在の操作可能な操作情報「左右２つのボタン」とに基づいて、訂正表現「違った」に該当する正しいユーザ操作「右」を抽出し（ステップＳＴ３６）、そのユーザ操作を実行する（ステップＳＴ３７）。

　このように、音声以外のキー入力やタッチパネル等によるユーザ操作についても、ユーザの発話内容を常に認識することにより、ユーザが咄嗟に発した訂正表現を用いて訂正することができる。

　以上のように、この実施の形態３によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現と、実際のユーザの入力操作と、ユーザに現在提示している操作情報とに基づいて、ユーザ操作を訂正することができる。また、ユーザが意識しなくても音声認識装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要としない。

実施の形態４．
　図１０は、この発明の実施の形態４による音声認識装置の一例を示すブロック図である。なお、実施の形態１～３で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態４では、実施の形態１と比べると、ユーザ操作の実行要否問い合わせ部１１をさらに備えており、抽出したユーザ操作の実行要否をユーザに問い合わせてから実行するものである。

　ユーザ操作の実行要否問い合わせ部１１は、ユーザ操作抽出部６が抽出したユーザ操作の実行要否を、音声または表示によりユーザに対して問い合わせて判断する。
　そして、ユーザ操作実行制御部７は、ユーザ操作抽出部６が抽出したユーザ操作を、ユーザ操作の実行要否問い合わせ部１１により判断された結果に基づいて実行する。

　次に、図１１に示すフローチャートを用いて、実施の形態４の音声認識装置の動作を説明する。
　ステップＳＴ４１～ＳＴ４６までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１１～ＳＴ１６と同じであるため、説明を省略する。そして、この実施の形態４では、ステップＳＴ４６で訂正表現に該当するユーザ操作を抽出した後で、ユーザに当該操作の実行要否を問い合わせる（ステップＳＴ４７）。その結果、ユーザ操作を実行する指示の応答があった場合（ステップＳＴ４８のＹＥＳの場合）には、ユーザ操作実行制御部７が、当該ユーザ操作を実行する（ステップＳＴ４９）。一方、ユーザ操作を実行しないという応答があった場合（ステップＳＴ４８のＮＯの場合）には、処理を終了する。

　具体的には、例えば、ステップＳＴ２２における音声認識結果が「１つ前のだった。」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、合致する文字列「１つ前」を訂正表現として抽出する（ステップＳＴ４３のＹＥＳ、ステップＳＴ４４）。その後、ユーザ操作履歴記憶部５に記憶されている１つ前のユーザ操作○○を抽出し（ステップＳＴ４５のＹＥＳ、ステップＳＴ４６）、ユーザ操作の実行要否問い合わせ部１１が、「１つ前の操作○○を実行しますか？」と音声により、または、表示画面にダイアログを提示するなどにより問い合わせを行う（ステップＳＴ４７）。そして、ユーザが「はい」または「実行する」という音声や、キー操作やタッチパネル等によるキー入力操作により、１つ前の操作○○を実行する指示の応答を行うと（ステップＳＴ４８のＹＥＳの場合）、ユーザ操作実行制御部７がそのユーザ操作○○を実行する（ステップＳＴ４９）。

　以上のように、この実施の形態４によれば、実施の形態１と同様の効果に加え、ユーザの意図しない訂正操作が実行されることを防ぐことができる。

実施の形態５．
　図１２は、この発明の実施の形態５による音声認識装置の一例を示すブロック図である。なお、実施の形態１～４で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態５では、実施の形態１と比べると、ユーザ操作の候補問い合わせ部１２をさらに備えており、抽出したユーザ操作が複数あった場合に、それら複数のユーザ操作の候補の中のいずれを実行するかをユーザに問い合わせてから実行するものである。

　ユーザ操作の候補問い合わせ部１２は、ユーザ操作抽出部６が抽出したユーザ操作が複数あった場合に、それら複数のユーザ操作の候補を音声または表示によりユーザに提示し、それら複数のユーザ操作の候補の中のいずれを実行するかをユーザに対して問い合わせて判断する。
　そして、ユーザ操作実行制御部は、ユーザ操作抽出部６が抽出した複数のユーザ操作の候補の中から、ユーザ操作の候補問い合わせ部１２により判断された結果に基づいて選択し、その選択したユーザ操作を実行する。

　次に、図１３に示すフローチャートを用いて、実施の形態５の音声認識装置の動作を説明する。
　ステップＳＴ５１～ＳＴ５６までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１１～ＳＴ１６と同じであるため、説明を省略する。そして、この実施の形態５では、ステップＳＴ５６で訂正表現に該当するユーザ操作を抽出した後で、当該抽出されたユーザ操作が複数あった場合に、ユーザにそれら複数の操作の候補を提示していずれを実行するかを問い合わせる（ステップＳＴ５７）。そして、ユーザ操作実行制御部７が、問い合わせの結果ユーザにより選択されたユーザ操作を実行する（ステップＳＴ５８）。

　具体的には、例えば、ステップＳＴ２２における音声認識結果が「前のだった。」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、文字列「１つ前」および「２つ前」の２つの訂正表現を抽出する（ステップＳＴ５３のＹＥＳ、ステップＳＴ５４）。その後、ユーザ操作履歴記憶部５に記憶されている１つ前のユーザ操作○○と、２つ前のユーザ操作××を抽出し（ステップＳＴ５５のＹＥＳ、ステップＳＴ５６）、ユーザ操作の候補問い合わせ部１２が、「１つ前の操作○○を実行しますか？それとも、２つ前の操作××を実行しますか？」と音声により問い合わせを行なったり、１つ前の操作○○と２つ前の操作××を表示画面上にリスト表示する等により問い合わせを行う（ステップＳＴ５７）。そして、ユーザが「１つ前の操作○○を実行」という音声や、キー操作やタッチパネル等によるキー入力操作によりリスト表示された候補のうち１つを選択する等により、ユーザ操作実行制御部７がそのユーザにより選択されたユーザ操作を実行する（ステップＳＴ５８）。

　以上のように、この実施の形態５によれば、実施の形態１と同様の効果に加え、複数のユーザ操作が抽出された場合であっても、ユーザの意図した訂正操作を実行することができる。

実施の形態６．
　図１４は、この発明の実施の形態６による音声認識装置の一例を示すブロック図である。なお、実施の形態１～５で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態６では、実施の形態１と比べると、例外訂正表現記憶部１３と例外訂正表現除外部１４とをさらに備えており、抽出した訂正表現のうち訂正表現とみなさない例外表現を除外してから、ユーザ操作を抽出するものである。

　例外訂正表現記憶部１３は、図２に示すようなユーザ操作訂正表現記憶部３に記憶されている訂正表現のうち、訂正表現とはみなさない例外的な表現を記憶している。
　図１５は、例外訂正表現記憶部１３の一例を示す図である。この図１５に示すように、例外訂正表現記憶部１３は、図３に示すユーザ操作訂正表現記憶部３に記憶されている訂正表現（例えば、「違う」「違った」「間違えた」「～ではなくて」「やめて」「キャンセル」「１つ前」「２つ前」など）のうち、例えば「やめて」と「キャンセル」を、ユーザ操作の訂正を意図しない例外訂正表現として記憶している。これは、「やめて」と「キャンセル」は、例えば処理全体を終わらせることを意図しており、ユーザ操作を訂正することを意図しているわけではない場合のためのものである。

　例外訂正表現除外部１４は、図１５に示す例外訂正表現記憶部３を参照して、ユーザ操作訂正表現抽出部４により抽出された訂正表現を除外する。
　そして、ユーザ操作抽出部６は、例外訂正表現除外部１４により除外された訂正表現については抽出しない。

　次に、図１６に示すフローチャートを用いて、実施の形態６の音声認識装置の動作を説明する。
　ステップＳＴ６１～ＳＴ６４までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１１～ＳＴ１４と同じであるため、説明を省略する。そして、この実施の形態６では、ステップＳＴ６４で訂正表現を抽出した後で、例外訂正表現記憶部１３を参照し、抽出した訂正表現の中に例外訂正表現が存在するか否かを判断する（ステップＳＴ６５）。例外訂正表現が存在する場合（ステップＳＴ６５のＹＥＳの場合）には、その例外訂正表現を除外する（ステップＳＴ６６）。

　さらに、ステップＳＴ６４で抽出した訂正表現から例外訂正表現を除外後に、訂正表現が１以上存在するか否かを判断する（ステップＳＴ６７）。例外訂正表現を除外しても、訂正表現が１以上存在する場合（ステップＳＴ６７のＹＥＳの場合）には、ユーザ操作抽出部６が、その訂正表現に該当するユーザ操作がユーザ操作履歴記憶部５の中に存在するか否かを判断する（ステップＳＴ６８）。該当するユーザ操作が存在する場合（ステップＳＴ６８のＹＥＳの場合）には、ユーザ操作履歴記憶部５からそのユーザ操作を抽出する（ステップＳＴ６９）。そして、ユーザ操作実行制御部７が、当該ユーザ操作を実行する（ステップＳＴ７０）。ステップＳＴ６８において、該当するユーザ操作が存在しなかった場合（ステップＳＴ６８のＮＯの場合）には、処理を終了する。

　一方、ステップＳＴ６７の判断において、例外訂正表現を除外した結果、訂正表現が存在しなくなった場合（ステップＳＴ６７のＮＯの場合）には、処理を終了する。
　また、ステップＳＴ６５の判断において、例外訂正表現が存在しなかった場合（ステップＳＴ６５のＮＯの場合）には、ステップＳＴ６４で抽出された訂正表現について、ステップＳＴ６８～ＳＴ７０の処理を行う。

　具体的には、例えば、ステップＳＴ２２における音声認識結果が「キャンセルする」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、合致する文字列「キャンセル」を訂正表現として抽出する（ステップＳＴ６３のＹＥＳ、ステップＳＴ６４）。その後、図１５に示す例外訂正表現記憶部１３を参照すると、「キャンセル」は例外訂正表現であるため（ステップＳＴ６５のＹＥＳの場合）、例外訂正表現除外部１４が、この例外訂正表現「キャンセル」を訂正表現から除外する（ステップＳＴ６６）。その結果、訂正表現が存在しなくなったため（ステップＳＴ６７のＮＯの場合）、処理を終了する。

　このように、ユーザが処理そのものを中断したい（終わらせたい）場合に発話した「キャンセル」という訂正表現により、ユーザ操作がキャンセルされただけで、処理は続行される、というような、ユーザの意図しない訂正操作や処理操作が実行されることを防ぐことができる。また、例えば、この音声認識装置を搭載した情報装置が有するＵＩ（キーのラベル名、音声コマンド等）を例外訂正表現記憶部に記憶しておくことにより、ユーザの訂正操作と情報装置のＵＩ操作が競合した場合には、情報装置のＵＩ操作を訂正操作よりも優先することができる。
　なお、例外訂正表現記憶部１３に記憶する訂正表現は、予め登録されていてもよいし、動的に追加や削除を行ってもよい。また、ユーザが追加や削除を行うことができるようにしてもよい。

　以上のように、この実施の形態６によれば、実施の形態１と同様の効果に加え、ユーザの意図しない訂正操作が実行されることを防ぐことができる。

実施の形態７．
　図１７は、この発明の実施の形態７による音声認識装置の一例を示すブロック図である。なお、実施の形態１～６で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態７では、実施の形態１と比べると、訂正トリガー取得部１５とユーザ操作実行可否判断部１６とをさらに備えており、ユーザ操作抽出部６により抽出されたユーザ操作の実行要否を訂正トリガー取得部１５に基づいて判断してから実行するものである。

　訂正トリガー取得部１５は、ユーザ操作抽出部６により抽出されたユーザ操作を実行するトリガーとなる情報を取得するものである。ここで、ユーザ操作を実行するトリガーとなる情報とは、例えば、前回のユーザ操作実行時からの経過時間、音声認識装置の状態、ユーザの様子を撮影した動画情報、訂正のやり直し回数、車両の走行状態などである。
　ユーザ操作実行可否判断部１６は、ユーザ操作抽出部６により抽出されたユーザ操作の実行可否を、訂正トリガー取得部１５により取得された情報に基づいて判断する。
　そして、ユーザ操作実行制御部７は、ユーザ操作抽出部６により抽出されたユーザ操作を、ユーザ操作実行可否判断部１６により実行可能であると判断された場合にのみ実行する。

　次に、図１８に示すフローチャートを用いて、実施の形態４の音声認識装置の動作を説明する。
　ステップＳＴ７１～ＳＴ７６までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１１～ＳＴ１６と同じであるため、説明を省略する。そして、この実施の形態７では、ステップＳＴ７６で訂正表現に該当するユーザ操作を抽出した後に、ユーザ操作実行可否判断部１６が、そのユーザ操作を実行可能か否かを、訂正トリガー取得部１５により取得された情報に基づいて判断する（ステップＳＴ７７）。その結果、ユーザ操作を実行可能であると判断された場合（ステップＳＴ７７のＹＥＳの場合）には、ユーザ操作実行制御部７が、当該ユーザ操作を実行する（ステップＳＴ７８）。一方、ユーザ操作を実行可能ではないと判断された場合（ステップＳＴ７７のＮＯの場合）には、処理を終了する。

　具体的には、例えば、ステップＳＴ７２における音声認識結果が「１つ前のだった。」という文字列である場合、図２に示すユーザ操作訂正表現記憶部３を参照して、合致する文字列「１つ前」を訂正表現として抽出する（ステップＳＴ７３のＹＥＳ、ステップＳＴ７４）。その後、ユーザ操作履歴記憶部５に記憶されている１つ前のユーザ操作を抽出する（ステップＳＴ７５のＹＥＳ、ステップＳＴ７６）。

　ここで、当該抽出されたユーザ操作を実行するトリガーとなる情報として、前回のユーザ操作実行時からの経過時間を用いた場合を例に説明する。この際、訂正トリガー取得部１５が取得した情報は、前回のユーザ操作実行時からの経過時間が２分であるものとする。通常、ユーザが１つ前の操作に戻したい場合に、音声により「１つ前のだった。」と発話するのは、前回のユーザ操作から１分以内に行われるのが一般的であると考えられる。そこで、ユーザ操作実行可否判断部１６は、訂正トリガー取得部１５が取得した前回のユーザ操作実行時からの経過時間が１分（所定の時間）以内である場合には、実行可能であると判断し、１分（所定の時間）を超えている場合には、実行可能ではないと判断するように予め設定しておく。

　そして、訂正トリガー取得部１５が取得した情報、すなわち、前回のユーザ操作実行時からの経過時間（２分）が所定の時間（１分）を超えているので、ユーザ操作実行可否判断部１６は、訂正可能ではないと判断し（ステップＳＴ７７のＮＯの場合）、処理を終了する。
　なお、所定の時間の設定については、適宜決定すればよいことは、言うまでもない。

　これにより、最後のユーザ操作が実行されてからしばらく経った後に、急に訂正操作が実行されてしまうといった誤動作（誤訂正）を防ぐことができる。

　また、別の例として、抽出されたユーザ操作を実行するトリガーとなる情報として、ユーザの様子を撮影した動画情報を用いた場合について説明する。この際、訂正トリガー取得部１５が、ユーザがマイク等の音声取得部１のある方向に向かって発話していた動画情報を取得したとする。そして、ユーザ操作実行可否判断部１６は、所定の条件を満たす場合、ここでは、ユーザがマイク等の音声取得部１の方向を向いて発話している場合には実行可能であると判断し、所定の条件を満たしていない場合、例えば、後ろを向いて発話していた場合などには実行可能ではないと判断するように予め設定しておく。

　この場合、訂正トリガー取得部１５が取得した情報が、ユーザがマイク等の音声取得部１の方向（音声認識装置を搭載した装置の方向）を向いて発話している動画情報であり、予め設定した所定の条件を満たしているので、ユーザ操作実行可否判断部１６は実行可能であると判断し（ステップＳＴ７７のＹＥＳの場合）、ユーザ操作抽出部６により抽出されたユーザ操作を実行する（ステップＳＴ７８）。

　これにより、ユーザが音声認識装置を搭載した装置の方向を向いていない場合には、ユーザ操作以外の内容を発話している可能性が高いため、そのような場合に誤って訂正してしまうことを防ぐことができる。

　また、さらに別の例として、抽出されたユーザ操作を実行するトリガーとなる情報として、訂正のやり直し回数を用いた場合について説明する。この際、訂正トリガー取得部１５が、過去に訂正結果を訂正した回数が７回であるという情報を取得したとする。そして、ユーザ操作実行可否判断部１６は、同じ訂正表現による訂正結果をユーザが訂正している回数が所定の回数（５回）未満の場合には実行可能であると判断し、所定の回数（５回）以上の場合には実行可能ではないと判断するように予め設定しておく。

　この場合、訂正トリガー取得部１５が取得した情報＝７回が、所定の回数（５回）以上であるので、ユーザ操作実行可否判断部１６は実行可能ではないと判断し（ステップＳＴ７７のＮＯの場合）、処理を終了する。
　なお、所定の回数の設定については、適宜決定すればよいことは、言うまでもない。

　これにより、例えば、訂正した操作を再度ユーザが行った場合は、該操作に対する訂正を抑止してユーザ操作を妨げないようにすることができる。また、訂正した操作をユーザが何度もキャンセルした場合は、以降その訂正表現での訂正を禁止してユーザ操作を妨げないようにすることができる。

　また、この音声認識装置は車両などの移動体用の情報装置または車載情報装置に搭載されているものであるので、抽出されたユーザ操作を実行するトリガーとなる情報として、この音声認識装置を搭載した情報装置の状態や、車両などの移動体の走行状態を用いることもできる。この際、訂正トリガー取得部１５が、ウィンカー使用中という情報を取得したとする。そして、ユーザ操作実行可否判断部１６は、走行状態が所定の状態でない場合、ここでは、例えばウィンカー使用中や加速中など、運転手が運転操作に集中している最中であり、ユーザ操作以外の内容を発話している可能性が高く、音声取得された訂正表現により抽出されたユーザ操作の尤度が低いと思われる場合には、そのユーザ操作を実行可能ではないと判断し、所定の状態である場合、すなわち、特に運転操作に集中している最中であると認められる状態ではない通常の走行状態である場合には、ユーザ操作に関する内容を発話している可能性が高く、音声取得された訂正表現により抽出されたユーザ操作の尤度が高いと思われるので、実行可能であると判断するように予め設定しておく。

　この場合、訂正トリガー取得部１５が取得した情報がウィンカー使用中であるので、運転手が運転操作に集中している最中であり、音声取得された訂正表現により抽出されたユーザ操作の尤度が低いと思われるので、そのユーザ操作を実行可能ではないと判断し（ステップＳＴ７７のＮＯの場合）、処理を終了する。
　なお、取得可能な車両の走行状態と、それにより運手操作に集中している最中であると判断する条件については、適宜決定すればよいことは、言うまでもない。

　また、ここでは、移動体の走行状態がウィンカー使用中である場合を例に説明したが、音声認識装置を搭載した情報装置（ナビゲーション装置）が経路案内中であるという情報を取得した場合であっても、運転手が運転操作に集中している最中であると判断され、上記と同様の処理が行われる。

　なお、この例では、運転手が運転操作に集中している最中は、ユーザ操作以外の内容を発話している可能性が高いと判断し、実行可能ではないと判断するものとして説明したが、これとは逆に、運転手が運転操作に集中している最中は、操作間違いが発生しやすい状態であると判断し、ユーザ操作の訂正を行う、すなわち、ユーザ操作を実行可能であると判断し、通常時には、ユーザの操作間違いが発生しにくい状態であると判断し、ユーザ操作を実行可能ではないと判断するようにしてもよい。

　これにより、運転手が運転操作に集中している場合には、ユーザ操作以外の内容を発話している可能性が高いため、そのような場合に誤って訂正してしまうことを防ぐことができる。
　また、ユーザの操作間違いが発生しやすい状態では、訂正操作の実行可の頻度を高くして、訂正操作を行いやすくすることができる。また、ユーザ操作間違いが発生しにくい状態では、訂正操作の実行可の頻度を低くして、誤って訂正してしまうことを防ぐことができる。

　以上のように、この実施の形態７によれば、実施の形態１と同様の効果に加え、例えば、前回のユーザ操作実行時からの経過時間、音声認識装置の状態、ユーザの様子を撮影した動画情報、訂正のやり直し回数、車両の走行状態などの、抽出されたユーザ操作を実行するトリガーとなる情報に基づいて、当該ユーザ操作（訂正操作）を実行する／しないを判断して処理することができるので、誤動作（誤訂正）を防ぐことができる。

実施の形態８．
　図１９は、この発明の実施の形態８による音声認識装置の一例を示すブロック図である。なお、実施の形態１～７で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態８では、実施の形態１と比べると、操作者外発話抑止部１８をさらに備えており、音声取得部１によって取得された音声を発話した操作者以外の発話を抑止するものである。

　操作者外発話抑止部１８は、音声取得部１によって取得された音声データに含まれる操作者以外の発話を抑止する。
　そして、音声認識部２は、操作者外発話抑止部１８により抑止された後の操作者の発話のみの音声データを取得して認識を行う。

　次に、図２０に示すフローチャートを用いて、実施の形態８の音声認識装置の動作を説明する。
　まず、音声取得部１は、マイク等により集音された車内の音声（入力された音声）をＡ／Ｄ変換して、例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）形式で取得する（ステップＳＴ８１）。次に、操作者外発話抑止部１８は、音声取得部１によって取得された音声データの操作者以外の発話を抑止する（ステップＳＴ８２）。ここで、操作者外発話抑止部１８の抑止手段としては、例えばＢｅａｍ　Ｆｏｒｍｉｎｇなどの一般的な方法を用いて行えばよい。

　この結果、音声取得部１によって取得された音声データの操作者の発話のみが音声認識部２に出力される。そして、音声認識部２は、操作者外発話抑止部１８から出力された音声データを認識し、認識結果を文字列で出力する（ステップＳＴ８３）。
　なお、ステップＳＴ８４～ＳＴ８８までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１３～ＳＴ１７と同じであるため、説明を省略する。

　以上のように、この実施の形態８によれば、実施の形態１と同様の効果に加え、操作者以外の発話によって、操作者の意図しない訂正操作が誤って実行されることを防ぐことができる。

実施の形態９．
　図２１は、この発明の実施の形態９による音声認識装置の一例を示すブロック図である。なお、実施の形態１～８で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態９では、実施の形態１と比べると、エコーキャンセル部１９をさらに備えており、音声取得部１によって取得された音声に含まれる発話以外の音を抑止するものである。

　エコーキャンセル部１９は、音声取得部１によって取得された音声データに含まれる操作者の発話以外の、例えば音声認識装置を搭載した情報装置が発生する音などを抑止する。
　そして、音声認識部２は、エコーキャンセル部１９により抑止された後の操作者の発話のみの音声データを取得して認識を行う。

　次に、図２２に示すフローチャートを用いて、実施の形態９の音声認識装置の動作を説明する。
　まず、音声取得部１は、マイク等により集音された車内の音声（入力された音声）をＡ／Ｄ変換して、例えばＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）形式で取得する（ステップＳＴ９１）。次に、エコーキャンセル部１９は、音声取得部１によって取得された音声データに含まれる操作者の発話以外の音、例えば音声認識装置が発生する音などを抑止する（ステップＳＴ９２）。ここで、エコーキャンセル部１９の抑止手段としては、例えばキャンセルしたい音を適応フィルタで予測し、その逆位相の音で相殺するなどの一般的な方法を用いて行えばよい。

　この結果、音声取得部１によって取得された音声データに含まれる操作者の発話以外の音が抑止されて音声認識部２に出力される。そして、音声認識部２は、エコーキャンセル部１９から出力された音声データを認識し、認識結果を文字列で出力する（ステップＳＴ９３）。
　なお、ステップＳＴ９４～ＳＴ９８までの処理については、実施の形態１における図３のフローチャートのステップＳＴ１３～ＳＴ１７と同じであるため、説明を省略する。

　以上のように、この実施の形態９によれば、実施の形態１と同様の効果に加え、操作者の発話以外の、例えば音声認識装置が発生する音などによって、音声認識の精度が下がってしまい、操作者の意図しない訂正操作が誤って実行されることを防ぐことができる。

　なお、以上の実施の形態４～９については、実施の形態１による音声認識装置に対して構成要素を追加したものとして説明したが、実施の形態２または３に対して同様の構成要素を追加したものであってもよいことは、言うまでもない。

　また、上記の実施の形態１～９は、車両などの移動体用の情報装置または車載情報装置に搭載される音声認識装置として説明したが、この発明の音声認識装置は、車両などに搭載される場合に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用の情報装置や携帯型の情報装置等、ユーザと装置との音声対話により音声認識を行うことが可能な装置であれば、どのような形態のものにも適用することができる。

　なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　この発明の音声認識装置は、車両などの移動体用の情報装置または車載情報装置などに適用することができる。

　１　音声取得部、２　音声認識部、３　ユーザ操作訂正表現記憶部、４　ユーザ操作訂正表現抽出部、５　ユーザ操作履歴記憶部、６　ユーザ操作抽出部、７　ユーザ操作実行制御部、８　変換情報記憶部、９　入力操作部、１０　操作情報記憶部、１１　ユーザ操作の実行要否問い合わせ部、１２　ユーザ操作の候補問い合わせ部、１３　例外訂正表現記憶部、１４　例外訂正表現除外部、１５　訂正トリガー取得部、１６　ユーザ操作実行可否判断部、１８　操作者外発話抑止部、１９　エコーキャンセル部。

Claims

　ユーザが発話した音声を認識する音声認識装置において、
　ユーザにより入力された音声を検知して取得する音声取得部と、
　前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
　ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、
　前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、
　ユーザの操作履歴を記憶するユーザ操作履歴記憶部と、
　前記ユーザ操作履歴記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、
　前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備える
　ことを特徴とする音声認識装置。
　ユーザが発話した音声を認識する音声認識装置において、
　ユーザにより入力された音声を検知して取得する音声取得部と、
　前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
　ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、
　前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、
　前記ユーザ操作訂正表現抽出部により抽出された訂正表現に対応付けられたユーザ操作情報を記憶する変換情報記憶部と、
　前記変換情報記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、
　前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備える
　ことを特徴とする音声認識装置。
　ユーザが発話した音声を認識する音声認識装置において、
　ユーザにより入力された音声を検知して取得する音声取得部と、
　前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
　ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、
　前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、
　ユーザが実際に入力操作した情報を取得する入力操作部と、
　前記ユーザが入力操作した時の操作可能な操作情報を記憶する操作情報記憶部と、
　前記入力操作部により取得されたユーザの入力操作の情報と、前記操作情報記憶部に記憶されている操作情報とを参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、
　前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備える
　ことを特徴とする音声認識装置。
　前記ユーザ操作抽出部により抽出されたユーザ操作の実行要否をユーザに対して問い合わせて判断するユーザ操作実行要否問い合わせ部をさらに備え、
　前記ユーザ操作実行制御部は、前記ユーザ操作抽出部により抽出されたユーザ操作を、前記ユーザ操作実行要否問い合わせ部により判断された結果に基づいて実行する
　ことを特徴とする請求項１記載の音声認識装置。
　前記ユーザ操作抽出部により抽出されたユーザ操作が複数あった場合に、当該複数のユーザ操作の候補の中のいずれを実行するかをユーザに対して問い合わせて判断するユーザ操作候補問い合わせ部をさらに備え、
　前記ユーザ操作実行制御部は、前記ユーザ操作抽出部により抽出された複数のユーザ操作の候補の中から、前記ユーザ操作候補問い合わせ部により判断された結果に基づいて選択して当該選択したユーザ操作を実行する
　ことを特徴とする請求項１記載の音声認識装置。
　訂正表現とはみなさない例外的な表現を記憶する例外訂正表現記憶部と、
　前記例外訂正表現記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現を除外する例外訂正表現除外部とをさらに備え、
　前記ユーザ操作抽出部は、前記例外訂正表現除外部により除外された訂正表現については抽出しない
　ことを特徴とする請求項１記載の音声認識装置。
　前記ユーザ操作抽出部により抽出されたユーザ操作を実行するトリガーとなる情報を取得する訂正トリガー取得部と、
　前記ユーザ操作抽出部により抽出されたユーザ操作の実行可否を、前記訂正トリガー取得部により取得された情報に基づいて判断するユーザ操作実行可否判断部とをさらに備え、
　前記ユーザ操作実行制御部は、前記ユーザ操作抽出部により抽出されたユーザ操作を、前記ユーザ操作実行可否判断部により実行可能であると判断された場合にのみ実行する
　ことを特徴とする請求項１記載の音声認識装置。
　前記訂正トリガー取得部は、前回のユーザ操作実行時からの経過時間を取得するものであり、
　前記ユーザ操作実行可否判断部は、前記経過時間が所定の時間以内である場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
　ことを特徴とする請求項７記載の音声認識装置。
　前記訂正トリガー取得部は、ユーザを撮影した動画情報を取得するものであり、
　前記ユーザ操作実行可否判断部は、前記動画情報が所定の条件を満たす場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
　ことを特徴とする請求項７記載の音声認識装置。
　前記訂正トリガー取得部は、訂正のやり直し回数を取得するものであり、
　前記ユーザ操作実行可否判断部は、前記やり直し回数が所定の回数未満である場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
　ことを特徴とする請求項７記載の音声認識装置。
　前記音声認識装置は、移動体用の情報装置または車載情報装置に搭載され、
　前記訂正トリガー取得部は、前記移動体の走行状態または前記情報装置の状態を取得するものであり、
　前記ユーザ操作実行可否判断部は、前記走行状態または情報装置の状態が所定の状態である場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
　ことを特徴とする請求項７記載の音声認識装置。
　前記音声取得部により取得された音声データに含まれる操作者以外の発話を抑止する操作者外発話抑止部をさらに備え、
　前記音声認識部は、前記操作者外発話抑止部により抑止された後の前記操作者の発話のみの音声データを取得して認識を行う
　ことを特徴とする請求項１記載の音声認識装置。
　前記音声取得部により取得された音声データに含まれる操作者の発話以外の音を抑止するエコーキャンセル部をさらに備え、
　前記音声認識部は、前記エコーキャンセル部により抑止された後の前記操作者の発話のみの音声データを取得して認識を行う
　ことを特徴とする請求項１記載の音声認識装置。
　前記音声認識装置は、移動体用の情報装置または車載情報装置に搭載されていることを特徴とする請求項１記載の音声認識装置。