JPWO2015125274A1

JPWO2015125274A1 - 音声認識装置、システムおよび方法

Info

Publication number: JPWO2015125274A1
Application number: JP2016502550A
Authority: JP
Inventors: 政信大沢; 友紀古本; 渡邉　圭輔; 圭輔渡邉; 匠武井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-02-21
Filing date: 2014-02-21
Publication date: 2017-03-30
Anticipated expiration: 2034-02-21
Also published as: JP5925401B2; WO2015125274A1; US20160335051A1

Abstract

この発明の音声認識装置によれば、表示画面上に複数のアイコン（表示物）が密集しているなど、隣接する視線検出範囲や視線検出範囲同士の重複部分が多い場合であっても、視線と音声操作とにより効率的に絞り込んで１つのアイコン（表示物）を特定することができ、また、誤認識も減少させることができるため、ユーザの利便性を向上させることができる。

Description

この発明は、ユーザにより発話された音声を認識して認識結果に対応する表示物を特定する音声認識装置、システムおよび方法に関するものである。

従来より、ユーザにより発話された音声を認識して認識結果に対応する表示物を特定する際に、表示画面上に設けられた視線検出範囲へのユーザの視線の停留に基づいて、視線の停留した範囲に関連付けられた音声認識辞書への切替えを行う音声認識装置が知られている（例えば、特許文献１参照）。

特開平８−８３０９３号公報

しかしながら、例えば特許文献１のような従来の音声認識装置では、複数のアイコン（表示物）の視線検出範囲が重複していたり、視線検出範囲同士が隣接していたりする場合、ユーザが特定しようとしたアイコンと、ユーザの視線に基づいて実際に特定されたアイコンとの不一致が起き、ユーザが所望しないアイコンに対応する音声認識辞書が有効になってしまい、誤認識が増加するという課題があった。

また、ユーザは、音声操作の対象とするアイコンを特定するために、例えば、重複部分以外や所望のアイコンの視線検出範囲に近くて他の視線検出範囲からは遠い位置に、意識的に視線を向ける必要があるため、例えば車両の運転中には運転に集中できずに危険となるなど、表示画面の大きさが限られていたり、他のことを意識しながら操作したりする場合に利便性が低くなるという課題があった。

この発明は、上記のような課題を解決するためになされたものであり、表示画面上に複数のアイコン（表示物）が密集しているなど、隣接する視線検出範囲や姿勢検出範囲同士に重複部分が多い場合であっても、視線と音声操作とにより効率的に１つのアイコンを特定することができる音声認識装置、システムおよび方法を提供することを目的とする。

上記目的を達成するため、この発明は、表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する１つの表示物を特定する音声認識装置であって、前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、前記ユーザの視線を取得する視線取得部と、前記視線取得部により取得された視線結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の中から１つの表示物を特定する特定部とを備え、前記特定部は、前記グループ化された表示物の中から１つの表示物を特定、または、前記１つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化することを特徴とする。

実施の形態１による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。表示部に表示された表示物（アイコン）と視線検知領域の一例を示す図である。表示物（アイコン）の詳細情報の一例を示す表である。表示部に表示された表示物（アイコン）と視線検知領域の別の例を示す図であり、表示物のグループ化についての説明図である。実施の形態１において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。実施の形態１において、グループ化された表示物から、音声操作によって１つの表示物を特定する処理を示すフローチャートである。表示部に表示された表示物（アイコン）と視線検知領域のさらに別の例を示す図である。実施の形態２による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。実施の形態２において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。実施の形態２において、グループ化された表示物から、音声操作によって１つの表示物を特定する処理を示すフローチャートである。認識結果文字列と認識スコアとの対応の一例を示す表である。実施の形態３による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。実施の形態３において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。実施の形態３において、グループ化された表示物から、音声操作によって１つの表示物を特定する処理を示すフローチャートである。

以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
なお、以下の実施の形態では、この発明の音声認識装置および音声認識システムを車両等の移動体用のナビゲーション装置やナビゲーションシステムに適用した場合を例に挙げて説明するが、ディスプレイ等に表示された表示物を選択し、操作を指示することができる装置やシステムであれば、どのような装置やシステムに適用してもよい。

実施の形態１．
図１は、この発明の実施の形態１による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。このナビゲーション装置は、ナビゲーション部１、指示入力部２、表示部（表示装置）３、スピーカ４、マイク５、音声認識部６、音声認識辞書７、認識結果選択部８、カメラ９、視線検出部１０、グループ生成部１１、特定部１２、認識辞書制御部１３を備えている。

なお、音声認識部６、認識結果選択部８および認識辞書制御部１３が、制御部２０を構成し、この制御部２０と、音声認識辞書７、視線検出部１０、グループ生成部１１および特定部１２が、音声認識装置３０を構成する。また、この音声認識装置３０と、表示部（表示装置）３およびカメラ９が、音声認識システム１００を構成する。

ナビゲーション部１は、ＧＰＳ受信機等から取得した移動体の現在位置情報や地図データベースに格納されている情報を用いて、後述する表示部（表示装置）３に表示すべき描画情報を生成する。地図データベースには、例えば、道路に関する「道路情報」、施設に関する「施設情報」（種別、名称、位置等）、「各種文字情報」（地名、施設名、交差点名、道路名など）および施設・道路番号などを表す「各種アイコン情報」等が含まれる。

また、指示入力部２や音声操作により、ユーザによって設定された施設や地点、移動体の現在位置および地図データベースの情報等を用いて、現在位置からユーザにより設定された施設等までの経路を計算する。そして、当該経路に沿って移動体を案内するための誘導案内図や誘導案内メッセージを生成し、表示部（表示装置）３やスピーカ４に対して当該生成した情報を出力するよう指示出力する。

また、同じく指示入力部２や音声操作によって、ユーザにより指示された内容に対応する機能を実行する。例えば、施設や住所を検索したり、表示部（表示装置）３に表示されているアイコンやボタン等の表示物を選択したり、表示物に対応付けられた機能を実行したりする。

指示入力部２は、ユーザの手動による指示を入力するものである。これは例えば、ナビゲーション装置に設けられたハードウェアのスイッチ、表示部（表示装置）３に組み込まれているタッチセンサ、あるいは車両のハンドル等に設置されたリモコンもしくは別体のリモコンによる指示を認識する認識装置などが挙げられる。

表示部（表示装置）３は、例えばＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）やＨＵＤ（Ｈｅａｄ−ＵｐＤｉｓｐｌａｙ）やインストルメントパネル等であり、タッチセンサが組み込まれているものであってもよい。そして、ナビゲーション部１の指示に基づき画面上に描画を行う。
また、スピーカ４も、ナビゲーション部１の指示に基づき音声を出力する。

マイク５は、ユーザが発話した音声を取得（集音）する。マイク５には、例えば、全指向性のマイク、複数の全指向性のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイク、あるいは一方向のみに指向性を有しており、指向特性を調整できない単一指向性マイク等がある。

音声認識部６は、マイク５により取得されたユーザ発話、すなわち、入力された音声を取り込み、例えばＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）によりＡ／Ｄ（Ａｎａｌｏｇ／Ｄｉｇｉｔａｌ）変換するとともに、デジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出した後、該音声区間の音声データの特徴量を抽出する。

その後、認識辞書制御部１３により有効化された音声認識辞書７を参照して、抽出した特徴量に対する認識処理を行い、認識結果を出力する。ここで、認識結果には少なくとも、単語もしくは単語列（以下、認識結果文字列）または認識結果文字列に対応づけられているＩＤ等の識別情報、および、尤度を表す認識スコア、が含まれている。なお、認識処理としては、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）法のような一般的な方法を用いて行えばよいため説明を省略する。

ここで、この実施の形態１においては、音声認識部６に対して音声認識開始を指示するためのボタン（以下、音声認識開始指示部と記載する）が、指示入力部２に設置されており、ユーザにより音声認識開始指示部が押下されると、音声認識部６はマイク５から入力されたユーザ発話に対する認識処理を開始するものとして説明する。
なお、当該音声認識開始指示がなくても、音声認識部６は常時、認識処理を行うとしてもよい（以下の実施の形態においても同様）。

音声認識辞書７は、音声認識部６による音声認識処理において使用されるものであり、音声認識対象となる語が格納されている。音声認識辞書７には、予め用意されているものと、ナビゲーション装置の動作中に、必要に応じて動的に生成されるものがある。

例えば、地図情報などから予め用意される施設名認識用の音声認識辞書や、後述するように、グループ生成部１１によりグループ化された表示物または特定部１２により再グループ化された表示物に複数種類の表示物が存在する場合に、その表示物の種類を特定するための認識対象語を含む音声認識辞書、単一種類の表示物が複数存在する場合に、１つの表示物を特定するための認識対象語を含む音声認識辞書、グループ化された表示物または再グループ化された表示物の中から１つの表示物を特定するための認識対象語を含む音声認識辞書、グループ化された表示物または再グループ化された表示物の個数が予め定められた個数以上である場合に、その予め定められた個数以上の表示物を消去する認識対象語を含む音声認識辞書などがある。

認識結果選択部８は、音声認識部６により出力された認識結果文字列から、予め定められた所定の条件を満たす認識結果文字列を選択する。この実施の形態１においては、認識結果選択部８は、認識スコアが最も高く、かつ認識スコアが予め定められた数値以上の（または、予め定められた数値より大きい）認識結果文字列を一つ選択するものとして説明する（以下の実施の形態についても同様）。

なお、当該条件に限られるものではなく、認識対象となっている語彙やナビゲーション装置で実行中の機能によっては、複数の認識結果文字列を選択するとしてもよい。例えば、予め定められた数値以上の（または、予め定められた数値より大きい）認識スコアを有する認識結果文字列から、認識スコアが高い上位Ｎ個の認識結果文字列を選択してもよいし、音声認識部６により出力された認識結果文字列をすべて選択する等としてもよい。

カメラ９は、赤外線カメラやＣＣＤカメラ等、ユーザの目画像を撮影して取得するものである。
視線検出部１０は、カメラ９により取得された画像を解析して表示部（表示装置）３に向けられるユーザの視線を検出し、表示部（表示装置）３上における視線の位置を算出する。なお、視線を検出する方法および表示部（表示装置）３上における視線の位置を算出する方法については、公知の技術を用いればよいためここでは説明を省略する。

グループ生成部１１は、表示部（表示装置）３に表示されている表示物に関する情報を、ナビゲーション部１から取得する。具体的には、表示部（表示装置）３上における表示物の位置情報や表示物の詳細情報等の情報を取得する。

そして、グループ生成部１１は、表示部（表示装置）３に表示されている表示物毎に、ナビゲーション部１から取得した表示物の表示位置に基づいて、表示物を含む一定の範囲を視線検知領域に設定する。この実施の形態１では、表示物の中心から予め定められた半径の円を視線検知領域とするが、これに限られず、例えば、視線検知領域は多角形とする等してもよい。なお、表示物毎に視線検知領域が異なるようにしてもよい（以下の実施の形態においても同様）。

図２は、表示部（表示装置）３に表示された表示物と視線検知領域の一例を示す図である。ここでは、アイコン４０が表示物であり、破線で囲まれた範囲５０が視線検知領域を表している。
なお、図２に示すアイコン４０は、地図画面に表示される駐車場を表すアイコンであり、この実施の形態１においては、表示物としては、地図画面に表示される施設を表すアイコンを例にして説明するが、ボタン等ユーザによって選択されるものであればどのような表示物であってもよく、施設アイコンに限らない（以下の実施の形態においても同様）。

図３は、表示物（アイコン）の詳細情報の一例を示す図である。例えば、駐車場アイコンには詳細情報として、「施設名」「種別」「空き状況」「料金」の項目が設定されており、図３（ａ）〜（ｃ）に示すような内容が格納されている。また、例えば、ガソリンスタンドアイコンには詳細情報として、「施設名」「種別」「営業時間」「レギュラー」「ハイオク」の項目が設定されており図３（ｄ）〜（ｅ）に示すような内容が格納されている。
なお、詳細情報の項目はこれらに限られるものではなく、項目の追加や削除をしてもよい。

さらに、グループ生成部１１は、視線検出部１０からユーザの視線位置を取得し、当該視線位置情報と表示物毎に設定された視線検知領域の情報を用いて、表示物をグループ化する。すなわち、グループ生成部１１は、表示部（表示装置）３の表示画面上に複数の表示物（アイコン）が表示されている場合に、どの表示物（アイコン）を１つのグループとしてまとめるかを決定して、グループ化する。

ここで、グループ生成部１１による表示物のグループ化について説明する。
図４は、表示部（表示装置）３に表示された表示物（アイコン）と視線検知領域の別の例を示す図であり、表示物のグループ化についての説明図である。
例えば、図４（ａ）に示すように、表示部（表示装置）３の表示画面に６つのアイコン４１〜４６が表示されており、グループ生成部１１によって各アイコンに対して視線検知領域５１〜５６が設定されているとする。

グループ生成部１１は、視線が存在していない視線検知領域（以下、「他の視線検知領域」と記載する）であって、その視線検知領域の少なくとも一部が、視線の存在している視線検知領域と重複しているものを特定する。
その後、視線が存在している視線検知領域と、特定された他の視線検知領域とを統合する。そして、グループ生成部１１は、統合した視線検知統合領域内に存在する表示物を１つのグループにグループ化する。

図４（ａ）の例では、グループ生成部１１は、視線６０がアイコン４１の視線検知領域５１内にあるので、視線検知領域の一部が視線検知領域５１と重複している視線検知領域５２〜５５を、他の視線検知領域として特定し、視線検知領域５１〜５５を統合する。そして、統合した視線検知統合領域内に含まれるアイコン４１〜４５を選択し、グループ化する。

なお、この実施の形態１では上述の方法でアイコンをグループ化するとしたが、この方法に限られない。例えば、他の視線検知領域の特定において、視線が存在している視線検知領域と隣接する視線検知領域を他の視線検知領域としてもよい。

また、例えば、図４（ｂ）に示すように、表示部（表示装置）３の表示画面に７つのアイコン４１〜４７が表示されており、グループ生成部１１によって各アイコンに対して視線検知領域５１〜５７が設定されている場合には、上述の方法では、グループ生成部１１は、視線６０がアイコン４１の視線検知領域５１内にあるので、視線検知領域の一部が視線検知領域５１と重複している視線検知領域５２〜５５を、他の視線検知領域として特定し、視線検知領域５１〜５５を統合する。そして、統合した視線検知統合領域内に含まれるアイコン４１〜４５および４７を選択し、グループ化する。

この方法でグループ化する場合とは別の方法として、グループ化の対象となるアイコンの選択においては、視線が存在する視線検知領域と、特定された他の視線検知領域のそれぞれに対応するアイコンをグループ化の対象としてもよい。すなわち、例えば図４（ｂ）の場合には、統合した視線検知統合領域内の視線検知領域５１〜５５のそれぞれに対応するアイコン４１〜４５のみをグループ化するようにしてもよい。

特定部１２は、グループ生成部１１により取得された表示物の詳細情報および認識結果選択部８により選択された認識結果の少なくとも一方を用いて、グループ生成部１１によりグループ化された表示物の絞り込みを行う。そして、グループ化された表示物の中から１つの表示物を特定する。また、１つの表示物を特定できなかった場合は、１つの表示物を特定できなかったことを示す絞り込み結果を出力するとともに、絞り込まれた表示物を再グループ化する。１つの表示物を特定することができた場合は、そのことを示す絞り込み結果を出力する。

認識辞書制御部１３は、ナビゲーション部１から取得した情報に基づいて、音声認識部６に対して、所定の音声認識辞書７を有効化するよう指示出力する。
具体的には、表示部（表示装置）３に表示される画面（例えば、地図画面等）毎やナビゲーション部１で実行される機能（例えば住所検索機能、施設検索機能等）毎に予め音声認識辞書が対応付けられており、ナビゲーション部１から取得した画面情報や実行中の機能の情報に基づいて、対応する音声認識辞書を有効化するよう音声認識部６に対して指示出力する。

また、認識辞書制御部１３は、グループ生成部１１によりグループ化された表示物または特定部１２により再グループ化された表示物の詳細情報に基づいて、グループ化された表示物から１つの表示物を特定するための音声認識辞書（以下、「表示物特定用辞書」と記載する）を動的に生成する。すなわち、グループ生成部１１によりグループ化された表示物または特定部１２により再グループ化された表示物に対応する音声認識辞書を動的に生成する。そして、音声認識部６に対して、その動的に生成した表示物特定用辞書のみを有効化するよう指示出力する。

また、認識辞書制御部１３は、音声認識部６に対して、特定部１２により特定された１つの表示物を操作するための単語列等を認識対象とする音声認識辞書（以下、「表示物操作用辞書」と記載する）を有効化するよう指示出力する。

ここで、表示物特定用辞書を生成する方法について説明する。
認識辞書制御部１３は、異なる種別の表示物がグループ化されている場合は、各表示物の詳細情報を用いて、１つの種別を特定するための単語等を含む音声認識辞書を生成する。具体的には、例えば「駐車場」「ガソリンスタンド」等の種別そのものを認識語彙として含む辞書であってもよいし、「駐車する」「給油する」等の項目名に対応する言い換え語や「駐車したい」「給油したい」等の意図を含む認識語彙を含む辞書であってもよい。

また、認識辞書制御部１３は、同一種別の表示物がグループ化されている場合は、各表示物の詳細情報を用いて、１つの表示物を特定するための単語等を含む音声認識辞書を生成する。具体的には、例えば「駐車場」という種別の複数の表示物がグループ化されている場合には、その複数の「駐車場」という表示物（アイコン）の中から１つの表示物を特定するために「駐車場」という種別に関連する「空き状況」や「料金」などの情報を含む辞書を生成する。

次に図５および図６に示すフローチャートを用いて、実施の形態１の音声認識装置の動作を説明する。
図５は、実施の形態１において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。

まず、視線検出部１０は、カメラ９により取得された画像を解析して表示部（表示装置）３に向けられるユーザの視線を検出し、表示部（表示装置）３上における視線の位置を算出する（ステップＳＴ０１）。
次に、グループ生成部１１は、ナビゲーション部１から、表示部（表示装置）３に表示されている表示物の位置情報と詳細情報を取得する（ステップＳＴ０２）。

その後、グループ生成部１１は、ナビゲーション部１から取得した表示物毎に視線検知領域を設定し、視線が何れかの視線検知領域に存在するか否かを判定する（ステップＳＴ０３）。
視線が何れの視線検知領域にも存在しない場合（ステップＳＴ０３の「ＮＯ」の場合）、認識辞書制御部１３は、音声認識部６に対して、例えば表示部（表示装置）３に表示されている画面に応じた音声認識辞書を有効化するよう指示出力し、音声認識部６は当該指示された辞書を有効化する（ステップＳＴ０４）。

一方、視線が何れかの視線検知領域に存在する場合（ステップＳＴ０３の「ＹＥＳ」の場合）、ユーザは表示物に対する音声操作を所望しているとして、ステップＳＴ０５以降の処理を行う。その際、まずはグループ生成部１１が、上述した方法で表示物をグループ化する（ステップＳＴ０５）。

そして、特定部１２は、グループ生成部１１からグループ化された各表示物の詳細情報を取得し、当該詳細情報に基づいてグループ化された表示物の絞り込みを行い、絞り込み結果を出力する（ステップＳＴ０６）。

その後、認識辞書制御部１３は、特定部１２から当該絞り込み結果と絞り込まれた表示物の詳細情報を取得し、当該絞り込み結果が１つの表示物を特定できたことを示すものである場合（ステップＳＴ０７の「ＹＥＳ」の場合）、当該特定された表示物に対する音声操作を可能とするため、音声認識部６に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示し、音声認識部６は当該指示された音声認識辞書を有効化する（ステップＳＴ０８）。

一方、当該絞り込み結果が１つの表示物を特定できたことを示すものでない場合（ステップＳＴ０７の「ＮＯ」の場合）、ユーザが１つの表示物を効率的に特定できるようにするため、認識辞書制御部１３は、グループ化された表示物の詳細情報に基づいて、表示物特定用辞書を生成する（ステップＳＴ０９）。

その後、認識辞書制御部１３は、音声認識部６に対して、当該生成した表示物特定用辞書のみを有効化するよう指示出力し、音声認識部６は当該指示された表示物特定用辞書のみを有効化する（ステップＳＴ１０）。

以上のフローチャートを用いて説明した処理について、具体例を用いて説明する。例えば、図４（ａ）のように表示部（表示装置）３にアイコン４１〜４６が表示されており、視線検出部１０によって視線が６０の位置であると算出されているとする。また、アイコン４１〜４３の詳細情報は図３（ａ）、（ｂ）、（ｃ）、アイコン４４と４５の詳細情報は図３（ｄ）および（ｅ）であるとする。

グループ生成部１１は、視線６０がアイコン４１の視線検知領域５１内にあるので、視線検知領域の一部が視線検知領域５１と重複している視線検知領域５２〜５５を、他の視線検知領域として特定し、視線検知領域５１〜５５を統合し、アイコン４１〜４５をグループ化する（ステップＳＴ０１〜ステップＳＴ０５）。

特定部１２は、グループ生成部１１から図３の（ａ）〜（ｅ）の詳細情報を取得する。
ここで、アイコン４２に対応する詳細情報の「空き状況」項目の内容が満車を表す「満」であるため、特定部１２は、表示物をアイコン４１および４３〜４５に絞り込んで再グループ化する。そして、１つの表示物を特定できなかったことを示す絞り込み結果を出力する（ステップＳＴ０６）。
そして、認識辞書制御部１３は、当該絞り込み結果に従って（ステップＳＴ０７の「ＮＯ」の場合）、表示物特定用辞書を生成する（ステップＳＴ０９）。

具体的には、アイコン４１と４３の種別は、図３（ａ）（ｃ）の詳細情報を参照すると「駐車場」であり、アイコン４４と４５の種別は、図３（ｄ）（ｅ）の詳細情報を参照すると「ガソリンスタンド」であるため、異なる二つの種別のアイコンがグループ化されている。そこで、認識辞書制御部１３は、各アイコンの詳細情報から、項目名「駐車場」「ガソリンスタンド」を取得し、それらを認識対象語に含む、１つの種別を特定するための表示物特定用辞書を生成する。
なお、例えば「駐車する」「給油する」等、項目名に対応する言い換え語を認識対象語としてもよい。

また、認識辞書制御部１３は、グループ化されたアイコンであって、予め定められた所定個数以上（または、所定個数より多く）存在するアイコンについては、当該アイコンを非表示にしたり、当該アイコンの大きさを縮小するための認識対象語を、表示物特定用辞書に含めるとしてもよい。
例えば、予め定められた所定個数が「５」であり、種別が「ガソリンスタンド」のアイコンが、グループ化されたアイコン中に６個存在する場合、認識辞書制御部１３は、例えば「ガソリンスタンド非表示」のような認識対象語を含む表示物特定用辞書を生成する。

さらに、認識辞書制御部１３は、グループ化された各アイコンの表示部（表示装置）３上の位置情報に基づいて、例えば「右」「左のアイコン」等の位置を特定する認識対象語を、表示物特定用辞書に含めるとしてもよい。すなわち、例えば図４（ａ）に示すように表示部（表示装置）３に表示されているアイコン４１〜４５がグループ化されている場合に、ユーザがアイコン４５を選択したい場合に「右下のアイコン」と発話するかもしれないことを想定して、それらの語彙も表示物特定用辞書に含めるようにしてもよい。

その後、認識辞書制御部１３は、音声認識部６に対して、生成した表示物特定用辞書のみを有効化するよう指示し、音声認識部６は当該指示された表示物特定用辞書のみを有効化する（ステップＳＴ１０）。

次に、図７のように表示部（表示装置）３にアイコン４８と４９が表示されており、視線が６０の位置であると算出されているとした場合について説明する。また、アイコン４８と４９の詳細情報は図３（ａ）および（ｃ）であり、いずれも種別は「駐車場」、空き状況は「空」、料金は「６００円」であるとする。
ここで、図５のフローチャートに示すステップＳＴ０１〜ＳＴ０５までの処理については、図４の例で説明した場合と同様であるため説明を省略する。

この場合、特定部１２は、グループ生成部１１によりグループ化されたアイコン４８と４９に対応する詳細情報に基づいて、１つのアイコンを特定できないため、そのことを示す絞り込み結果を出力する（ステップＳＴ０６）、認識辞書制御部１３は、当該絞り込み結果に従って（ステップＳＴ０７の「ＮＯ」の場合）、表示物特定用辞書を生成する（ステップＳＴ０９）。

具体的には、認識辞書制御部１３は、アイコン４８と４９の種別は、図３（ａ）（ｃ）を参照すると「駐車場」であるため、同一種別のアイコンがグループ化されている。そこで、認識辞書制御部１３は、アイコンの詳細情報から項目名「空き状況」「料金」を取得し、それらに基づいて、例えば、「空きがある」「料金が安い」等の認識対象語を含む、１つの表示物を特定するための表示物特定用辞書を生成する。

最後に、図２のように表示部（表示装置）３にアイコン４０が表示されており、視線が６０の位置であると算出されているとした場合について説明する。
グループ生成部１１は、視線６０が存在する視線検知領域５０の一部と重複している視線検知領域がないため、視線検知領域５０に対応するアイコン４０をグループ化する（ステップＳＴ０１〜ステップＳＴ０５）。

特定部１２は、グループ化されたアイコンが１つであるため、１つのアイコンを特定できたことを示す絞り込み結果を出力する（ステップＳＴ０６）。認識辞書制御部１３は、当該判定（ステップＳＴ０７の「ＹＥＳ」の判定）に従って、アイコン４０に対応する表示物操作用辞書を有効化するよう、音声認識部６に指示出力する。そして、音声認識部６は当該指示された表示物操作用辞書を有効化する（ステップＳＴ０８）。
なお、表示物操作用辞書は、予め表示物毎に用意されているものとする。

図６は、実施の形態１において、グループ化された表示物から、音声操作によって１つの表示物を特定する処理を示すフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部６は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合（ステップＳＴ１１の「ＮＯ」の場合）、処理を終了する。

一方、音声が入力された場合（ステップＳＴ１１の「ＹＥＳ」の場合）、音声認識部６は、入力された音声を認識し、認識結果を出力する（ステップＳＴ１２）。
次に、認識結果選択部８は、音声認識部６により出力された認識結果文字列から、最も高い認識スコアを有するものを１つ選択する（ステップＳＴ１３）。

その後、認識結果選択部８は、選択した認識結果文字列が表示物特定用辞書に含まれているものか判定する（ステップＳＴ１４）。
そして、表示物特定用辞書に含まれていない、すなわち、ユーザ発話が１つの表示物を特定するためのものではないと判定した場合（ステップＳＴ１４の「ＮＯ」の場合）、認識結果選択部８は、ナビゲーション部１に対して認識結果を出力する。

その後、ナビゲーション部１は、認識結果選択部８から出力された認識結果を取得し、認識結果文字列が表示物操作用辞書に含まれているものか否かを判定する（ステップＳＴ１５）。
ここで、表示物操作用辞書に含まれていない、すなわち、ユーザ発話が１つの表示物に対して操作するためのものではないと判定した場合（ステップＳＴ１５の「ＮＯ」の場合）、ナビゲーション部１は、認識結果に対応する機能を実行する（ステップＳＴ１６）。

一方、表示物操作用辞書に含まれている、すなわち、ユーザ発話が１つの表示物に対して操作するためのものであると判定した場合（ステップＳＴ１５の「ＹＥＳ」の場合）、ナビゲーション部１は、特定部１２により特定された１つの表示物に対して、認識結果に対応する機能を実行する（ステップＳＴ１７）。

また、ステップＳＴ１４において、認識結果選択部８が、選択した認識結果文字列が表示物特定用辞書に含まれている、すなわち、ユーザ発話が１つの表示物を特定するためのものであると判定した場合（ステップＳＴ１４の「ＹＥＳ」の場合）、認識結果選択部８は、特定部１２に対して選択した認識結果を出力する。
そして、特定部１２は、認識結果選択部８により出力された認識結果を取得し、グループ化された表示物の絞り込みを行い、絞り込み結果を出力する（ステップＳＴ１８）。

認識辞書制御部１３は、特定部１２から当該判定結果と絞り込まれた表示物の詳細情報を取得し、当該判定結果が、１つの表示物を特定できたことを示すものである場合（ステップＳＴ１９の「ＹＥＳ」の場合）、音声認識部６に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示出力し、音声認識部６は、当該指示された表示物操作用辞書を有効化する（ステップＳＴ２０）。

一方、特定部１２の判定結果が、１つの表示物を特定できたことを示すものでない場合（ステップＳＴ１９の「ＮＯ」の場合）、認識辞書制御部１３は、絞り込まれた表示物の詳細情報に基づいて、表示物特定用辞書を生成する（ステップＳＴ２１）。
その後、認識辞書制御部１３は、音声認識部６に対して、当該生成した表示物特定用辞書を有効化するよう指示出力し、音声認識部６は、当該指示された音声認識辞書を有効化する（ステップＳＴ２２）。

以上のフローチャートを用いて説明した処理について、具体例を用いて説明する。
例えば、図４（ａ）のように表示部（表示装置）３にアイコン４１〜４６が表示されており、視線検出部１０によって視線が６０の位置であると算出されているとする。また、アイコン４１〜４３の詳細情報は図３（ａ）、（ｂ）、（ｃ）、アイコン４４と４５の詳細情報は図３（ｄ）および（ｅ）であるとする。

ここでは、この図４（ａ）のような状況において、図５のフローチャートの処理によって、例えば、アイコン４１，４２および４４，４５がグループ化されており、１つの種別を特定するための単語等、すなわち「駐車場」「ガソリンスタンド」を認識対象とする表示物特定用辞書のみが有効化されているものとする。

まず、システムガイダンスに従って、ユーザにより「駐車場」と発話されると（ステップＳＴ１１の「ＹＥＳ」の場合）、音声認識部６は、音声認識処理を行い認識結果を出力する（ステップＳＴ１２）。
ここでは、「駐車場」「ガソリンスタンド」のみが音声認識の対象語となっているため、認識結果として「駐車場」が出力される。

認識結果選択部８は、音声認識部６から出力された認識結果「駐車場」を選択する（ステップＳＴ１３）。そして、認識結果選択部８は、選択した認識結果文字列が表示物特定用辞書に含まれているため（ステップＳＴ１４の「ＹＥＳ」の場合）、特定部１２に対して選択した認識結果を出力する。

そして、特定部１２は、グループ化された各表示物の詳細情報を参照して、認識結果文字列「駐車場」と一致する種別を有するアイコン４１と４２を特定し、それらを再グループ化する。また、１つのアイコンを特定できなかったことを示す絞り込み結果を出力する（ステップＳＴ１８）。

認識辞書制御部１３は、特定部１２から絞り込み結果とアイコン４１とアイコン４２の詳細情報を取得する。ここで、絞り込み結果は、１つのアイコンを特定できなかったことを示すものであり（ステップＳＴ１９の「ＮＯ」の場合）、図３（ａ）および（ｂ）を参照すると、２つのアイコンの種別が「駐車場」で同一であるため、表示物の詳細情報から項目名「空き状況」「料金」を取得し、それらに基づいて、例えば、「空きがある」「料金が安い」等を認識対象とする表示物特定用辞書を生成する（ステップＳＴ２１）。

その後、認識辞書制御部１３は、音声認識部６に対して、当該生成した表示物特定用辞書のみを有効化するよう指示出力し、音声認識部６は、当該指示された表示物特定用辞書を有効化する（ステップＳＴ２２）。

続いて、システムガイダンスに従って、ユーザにより１つの表示物を特定するために「空き状況」と発話されると（ステップＳＴ１１の「ＹＥＳ」の場合）、音声認識部６は、音声認識処理を行い認識結果を出力する（ステップＳＴ１２）。ここでは、「空き状況」「料金が安い」のみが認識対象語となっているため、認識結果として「空き状況」が出力される。

認識結果選択部８は、音声認識部６から出力された認識結果「空き状況」を選択する（ステップＳＴ１３）。そして、認識結果選択部８は、選択した認識結果文字列が表示物特定用辞書に含まれるため（ステップＳＴ１４の「ＹＥＳ」の場合）、特定部１２に対して選択した認識結果を出力する。

次に、特定部１２は、グループ化されたアイコン４１と４３の詳細情報を参照して、空き状況が「空」であるアイコンを特定する。ここで、空き状況が「空」であるアイコンは、アイコン４１のみであるため、一つの表示物を特定できたことを示す絞り込み結果を出力する（ステップＳＴ１８）。

そして、認識辞書制御部１３は、特定部１２から判定結果とアイコン４１の詳細情報を取得する。そして、絞り込み結果に従って（ステップＳＴ１９の「ＹＥＳ」の場合）、音声認識部６に対して、アイコン４１に対応する表示物操作用辞書を有効化するよう指示出力し、音声認識部６は、当該指示された表示物操作用辞書を有効化する（ステップＳＴ２０）。

以上のように、この実施の形態１によれば、表示画面上に複数のアイコン（表示物）が密集しているなど、隣接する視線検出範囲や視線検出範囲同士の重複部分が多い場合であっても、視線と音声操作により効率的に絞り込んで１つのアイコン（表示物）を特定することができ、また、誤認識も減少させることができるため、ユーザの利便性を向上させることができる。

なお、この実施の形態１において、視線が表示物の視線検知領域またはグループ生成部１１により統合された視線検知統合領域から外れても、予め定められた一定時間が経過するまでは、有効化されている音声認識辞書を変更しないようにしてもよい。すなわち、認識辞書制御部１３が、表示物の視線検知領域または視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書を有効化しておくようにしてもよい。

これは、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があるからである。一方、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる（他の操作をする）ために、意図的に視線を外した可能性が高くなっていくと考えられる。
具体的な処理としては、グループ生成部１１は、視線が検出された視線検知領域またはグループ生成部１１により統合された視線検知統合領域内に視線が存在しない場合（図５のステップＳＴ０３の「ＮＯ」の場合）であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップＳＴ０４を実行することなしに、処理を終了するようにすればよい。

なお、上記の「一定時間」は予め定められたものではなく、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間と正の相関を有するようにして算出されるものであってもよい。つまり、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間が長ければ、ユーザが本当にその表示物を選択したいのであろうと考えられるので、それに応じて「一定時間」も長くするようにしてもよい。

また、この実施の形態１において、特定部１２が、グループ生成部１１によりグループ化された表示物、特定部１２により再グループ化された表示物、または、特定部１２により特定された表示物の、色や大きさなどの表示態様を他の表示物とは異なるようにしてもよい。以下の実施の形態においても、同様である。
この場合、特定部１２が、グループ化された表示物や再グループ化された表示物や特定された表示物を所定の表示態様で表示するよう指示出力し、ナビゲーション部１が、当該指示に従って表示物を表示するよう表示部（表示装置）３に対して指示出力するようにすればよい。

なお、音声認識装置３０は、これが適用されるナビゲーション装置のマイクロコンピュータが、この発明に特有な処理に関するプログラムを実行することにより、ハードウェアとソフトウェアとが協働した具体的な手段として実現される。以下の実施の形態においても、同様である。

実施の形態２．
図８は、この発明の実施の形態２による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。なお、実施の形態１で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。

以下に示す実施の形態２では、実施の形態１と比べると、制御部２０の中にスコア調整部１４をさらに備える点が異なる。また、認識辞書制御部１３が、表示物特定用辞書を生成した後、スコア調整部１４に対して、生成した表示物特定用辞書に含まれる単語等（または単語等に対応付けたＩＤ）を出力する点が異なる。

さらに、認識辞書制御部１３が、表示物特定用辞書を有効化する際、その時点で有効化されている他の音声認識辞書（例えば、地図表示画面に対応する音声認識辞書等）を有効化したままとする点が異なる。

スコア調整部１４は、音声認識部６により出力された認識結果文字列（または認識結果文字列に対応付けられたＩＤ）が、認識辞書制御部１３から取得した単語等（または単語等に対応付けられたＩＤ）に中に存在するか判定する。そして、認識結果文字列が認識辞書制御部１３から取得した単語等の中に存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。すなわち、認識辞書制御部１３により動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる。

なお、この実施の形態２では、認識スコアを一定量増加させるものとして説明するが、一定の割合増加させるとしてもよい。
また、スコア調整部１４は音声認識部６に含まれているとしてもよい。

次に図９および図１０に示すフローチャートを用いて、実施の形態２の音声認識装置の動作を説明する。
図９は、実施の形態２において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。

図９に示すフローチャートにおいて、ステップＳＴ３１〜ＳＴ３８の処理については、実施の形態１における図５に示すフローチャートのステップＳＴ０１〜ＳＴ０８と同一であるため説明を省略する。

ステップＳＴ３７において、絞り込み結果が１つの表示物を特定できたことを示すものではない場合（ステップＳＴ３７の「ＮＯ」の場合）、ユーザが１つの表示物を効率的に特定できるようにするため、認識辞書制御部１３は、グループ化された表示物の詳細情報に基づいて、表示物特定用辞書を生成する（ステップＳＴ３９）。

その後、認識辞書制御部１３は、生成した表示物特定用辞書を有効化するが、この表示物特定用辞書のみを有効化するのではなく、すなわち、他の音声認識辞書が有効化されていた場合でもそれらを無効化することなしに、表示物特定用辞書を有効化する（ステップＳＴ４０）。
そして、認識辞書制御部１３は、スコア調整部１４に対して、生成した表示物特定用辞書に含まれる単語等（または単語等に対応付けたＩＤ）を出力する（ステップＳＴ４１）。

以上のフローチャートを用いて説明した処理について、実施の形態１と同様に、図４（ａ）を用いて具体的に説明する。ここで、ステップＳＴ３９までの処理については、実施の形態１と同様であるため詳細な説明を省略し、主に、ステップＳＴ３９〜ＳＴ４１の処理について具体的に説明する。

表示部（表示装置）３には、図４（ａ）に示すようにアイコン４１〜４６が表示されており、視線検出部１０によって視線が６０の位置であると算出されているとする。また、アイコン４１〜４３の詳細情報は図３（ａ）、（ｂ）、（ｃ）、アイコン４４と４５の詳細情報は図３（ｄ）および（ｅ）であるとする。

グループ生成部１１は、視線６０がアイコン４１の視線検知領域５１内にあるので、視線検知領域の一部が視線検知領域５１と重複している視線検知領域５２〜５５を、他の視線検知領域として特定し、視線検知領域５１〜５５を統合し、アイコン４１〜４５をグループ化する（ステップＳＴ３１〜ステップＳＴ３５）。

特定部１２は、グループ生成部１１から図３の（ａ）〜（ｅ）の詳細情報を取得する。
ここで、アイコン４２に対応する詳細情報の「空き状況」項目の内容が満車を表す「満」であるため、特定部１２は、表示物を４１および４３〜４５に絞り込んで再グループ化する。そして、１つの表示物を特定できなかったことを示す絞り込み結果を出力する（ステップＳＴ３６）。

そして、認識辞書制御部１３は、当該絞込結果に従って（ステップＳＴ３７の「ＮＯ」の場合）、各アイコンの詳細情報から、項目名「駐車場」「ガソリンスタンド」を取得し、それらを認識対象語に含む、１つの種別を特定するための表示物特定用辞書を生成する（ステップＳＴ３９）

その後、認識辞書制御部１３は、当該生成した辞書を有効化するが（ステップＳＴ４０）、このとき、例えば施設名認識用の音声認識辞書が有効化されていたとしても、それを無効化することはしない。

最後に、認識辞書制御部１３は、「駐車場」「ガソリンスタンド」の単語をスコア調整部１４に対して出力する（ステップＳＴ４１）
なお、例えば「駐車する」「給油する」等、項目名に対応する言い換え語を認識対象語とした場合は、これらの単語列もスコア調整部１４に対して出力する。

図１０は、実施の形態２において、グループ化された表示物から、音声操作によって１つの表示物を特定する処理を示すフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部６は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合（ステップＳＴ５１の「ＮＯ」の場合）、処理を終了する。

一方、音声が入力された場合（ステップＳＴ５１の「ＹＥＳ」の場合）、音声認識部６は、入力された音声を認識し、認識結果を出力する（ステップＳＴ５２）。
次に、スコア調整部１４は、音声認識部６により出力された認識結果文字列（または認識結果文字列に対応付けられたＩＤ）が、認識辞書制御部１３から取得した単語等（または単語等に対応付けられたＩＤ）の中に存在するか判定する。そして、認識結果文字列が認識辞書制御部１３から取得した単語等の中に存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。（ステップＳＴ５３）。

そして、認識結果選択部８は、音声認識部６により出力された認識結果文字列から、スコア調整部１４により調整された後の認識スコアが最も高いものを１つ選択する（ステップＳＴ５４）。
なお、ステップＳＴ５５〜ＳＴ６２の処理については、実施の形態１における図６に示すフローチャートのステップＳＴ１４〜ＳＴ２１の処理と同一であるため、説明を省略する。

ステップＳＴ６２において、表示物特定用辞書を生成した後、認識辞書制御部１３は、生成した表示物特定用辞書を有効化するが、このとき、表示物特定用辞書のみを有効化することはせずに、すなわち、他の音声認識辞書が有効化されていた場合でもそれらを無効化することなしに、表示物特定用辞書を有効化する（ステップＳＴ６３）。
そして、認識辞書制御部１３は、スコア調整部１４に対して、生成した表示物特定用辞書に含まれる単語等（または単語等に対応付けたＩＤ）を出力する（ステップＳＴ６４）。

以上のフローチャートを用いて説明した処理について、具体例を用いて説明する。
ここでは、図４（ａ）に示すような状況において、図９に示すフローチャートの処理によって、アイコン４１，４２，４４，４５がグループ化されており、１つの種別を特定するための単語等、すなわち「駐車場」「ガソリンスタンド」を認識対象とする表示物特定用辞書と施設名認識用の音声認識辞書が有効化されているものとする。
また、スコア調整部１４におけるスコア調整量は、予め「＋１０」と定められているとする。

まず、システムガイダンスに従って、ユーザにより「駐車場」と発話されると（ステップＳＴ５１の「ＹＥＳ」の場合）、音声認識部６は、音声認識処理を行い認識結果を出力する（ステップＳＴ５２）。ここで、表示物特定用辞書と施設認識用辞書が有効化されているため、音声認識部６から図１１（ａ）に示すような認識結果が出力されたとする。
図１１は、認識結果文字列と認識スコアとの対応の一例を示す表である。

スコア調整部１４は、音声認識部６から出力された認識結果文字列「駐車場」が、認識辞書制御部１３から取得した単語列（表示物特定用辞書に含まれる単語等からなる単語列）に含まれているので、認識結果文字列「駐車場」に対応する認識スコアに「１０」を加算する（ステップＳＴ５３）。すなわち、図１１（ａ）に示すように、認識結果文字列「駐車場」の認識スコア「７０」に「１０」を加算するので、「駐車場」の認識スコアが「８０」となる。

その結果、認識結果選択部８により「駐車場」が選択され（ステップＳＴ５４）、以降の処理で表示物が絞り込まれる。すなわち、単に表示物特定用辞書だけでなく施設認識用辞書も有効化されている、というだけであれば、「駐車場」と発話された場合には、図１１（ａ）に示すように「駐車場」と「中華堂」の認識スコアが同じであるため認識結果を特定することができないが、この実施の形態２のようにスコア調整部１４により調整を加えることにより、正しい認識結果を得ることができる。

一方、ユーザが急に施設を検索したくなり「中華堂」と発話された場合（ステップＳＴ５１の「ＹＥＳ」の場合）、音声認識部６は、音声認識処理を行い認識結果を出力する（ステップＳＴ５２）。ここで、表示物特定用辞書と施設認識用辞書が有効化されているため、音声認識部６から図１１（ｂ）に示すような認識結果が出力されたとする。

スコア調整部１４は、音声認識部６から出力された認識結果文字列「駐車場」が、認識辞書制御部１３から取得した単語列（表示物特定用辞書に含まれる単語等からなる単語列）に含まれているので、認識結果文字列「駐車場」に対応する認識スコアに「１０」を加算する（ステップＳＴ５３）。すなわち、図１１（ｂ）に示すように、認識結果文字列「駐車場」の認識スコア「６５」に「１０」を加算するので、「駐車場」の認識スコアが「７５」となる。

この場合には、上記のように「駐車場」の認識スコアに「１０」を加算しても、調整後の認識スコアは「中華堂」の方が大きいので、認識結果選択部８により「中華堂」が選択され（ステップＳＴ５４）、以降の処理で認識結果「中華堂」に対応する機能が実行される（ステップＳＴ５５〜ＳＴ５７）。すなわち、このような場合には、実施の形態１においては、表示物特定用辞書のみが有効化されていたため、「中華堂」を認識することができず、音声認識部６によって「駐車場」と誤認識され、その結果、ユーザが意図していない表示物の絞り込み処理を行ってしまうこととなるが、この実施の形態２では、施設認識用辞書が有効化されているため、実施の形態１の場合とは異なり、認識結果選択部８により「中華堂」が選択される可能性があるため、誤認識を減少させることができる。

以上のように、この実施の形態２によれば、実施の形態１と同様の効果に加え、１つのアイコン（表示物）を特定するための発話を認識しやすくするとともに、ユーザの発話の自由度を上げることができる。

なお、この実施の形態２において、視線が表示物の視線検知領域またはグループ生成部１１により統合された視線検知統合領域から外れても、予め定められた一定時間が経過するまでは、認識スコアを調整するようにしてもよい。すなわち、スコア調整部１４が、表示物の視線検知領域または視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させるようにしてもよい。

これは、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があるからである。一方、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる（他の操作をする）ために、意図的に視線を外した可能性が高くなっていくと考えられる。
具体的な処理としては、グループ生成部１１は、視線が検出された視線検知領域またはグループ生成部１１により統合された視線検知統合領域内に視線が存在しない場合（図９に示すフローチャートのステップＳＴ３３の「ＮＯ」の場合）であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップＳＴ３４を実行することなしに、処理を終了するようにすればよい。

なお、「一定時間」は予め定められたものではなく、グループ生成部１１によって、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間を計測しておき、当該計測された時間と正の相関を有するようにして算出されるものであってもよい。つまり、視線が表示物の視線検知領域または視線検知統合領域に存在していた時間が長ければ、ユーザが本当にその表示物を選択したいのであろうと考えられるので、それに応じて「一定時間」も長くするようにしてもよい。

また、スコア調整部１４は、視線が視線検知領域または視線検知統合領域から外れてから経過した時間と負の相関を有するように、認識スコアの増加量を変化させるとしてもよい。すなわち、視線が視線検知領域または視線検知統合領域から外れてから経過した時間が短い場合には、認識スコアの増加量を多くし、視線が外れてから経過した時間が長い場合には、認識スコアの増加量を少なくする。
これも、視線が外れてからの経過時間が短い場合は、ユーザが意図せず視線検知範囲から視線を外してしまっている可能性があり、視線が外れてからの経過時間が長くなるにつれ、ユーザが表示物の特定や表示物への操作をやめる（他の操作をする）ために、意図的に視線を外した可能性が高くなっていくと考えられるからである。

実施の形態３．
図１２は、この発明の実施の形態３による音声認識装置および音声認識システムを適用したナビゲーション装置の一例を示すブロック図である。なお、実施の形態１，２で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。

以下に示す実施の形態３では、実施の形態２に比べると、表示物特定用辞書を生成することなく、音声認識辞書７に予め作成された表示物特定用辞書を含んでいる点で異なる。また、認識辞書制御部１３は、特定部１２から取得した判定結果が、１つの表示物を特定できたことを示すものでない場合、表示物特定用辞書を生成するのではなく、予め作成された表示物特定用辞書を有効化にする点で異なる。

さらに、スコア調整部１４は、特定部１２から判定結果と絞り込まれた表示物の詳細情報を取得し、判定結果が１つの表示物を特定できたことを示すものでない場合、表示物の詳細情報に基づいて、表示物を特定するための単語等のリストを生成する。そして、音声認識部６により出力された認識結果文字列が、当該リストに存在するか判定し、存在する場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。

すなわち、この実施の形態３におけるスコア調整部１４は、音声認識部６が、グループ生成部１１によりグループ化された表示物または特定部１２により再グループ化された表示物に関連した認識対象語彙を認識した場合、音声認識部６により出力された認識結果の認識スコアを一定量増加させる。

なお、この実施の形態３では、認識スコアを一定量増加させるものとして説明するが、一定の割合増加させるとしてもよい。
また、スコア調整部１４は音声認識部６に含まれているとしてもよい。

次に図１３および図１４に示すフローチャートを用いて、実施の形態３の音声認識装置の動作を説明する。
図１３は、実施の形態２において、表示物のグループ化、グループ化された表示物に対応する音声認識辞書の生成、および、音声認識辞書の有効化についての処理を示したフローチャートである。

図１３に示すフローチャートにおいて、ステップＳＴ７１〜ＳＴ７５の処理については、実施の形態１における図５に示すフローチャートのステップＳＴ０１〜ＳＴ０５（実施の形態２における図９に示すフローチャートのステップＳＴ３１〜ＳＴ３５）と同一であるため説明を省略する。

ステップＳＴ７５において、グループ生成部１１がアイコンをグループ化した後に、特定部１２は、グループ生成部１１からグループ化された各表示物の詳細情報を取得し、当該詳細情報に基づいてグループ化された表示物の絞り込みを行い、絞り込み結果を出力する（ステップＳＴ７６）。

そして、認識辞書制御部１３は、特定部１２から当該絞り込み結果を取得する。また、スコア調整部１４は、特定部１２から当該絞り込み結果と絞り込まれた表示物の詳細情報を取得する。

当該絞り込み結果が１つの表示物を特定できたことを示すものである場合（ステップＳＴ７７の「ＹＥＳ」の場合）、認識辞書制御部１３は、音声認識部６に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示し、音声認識部６は当該指示された辞書を有効化する（ステップＳＴ７８）。一方で、スコア調整部１４は、何もしない。

また、絞り込み結果が１つの表示物を特定できたことを示すものでない場合（ステップＳＴ７７の「ＮＯ」の場合）、スコア調整部１４は、表示物の詳細情報に基づいて、表示物を特定するための単語等のリストを生成し（ステップＳＴ７９）、認識辞書制御部１３は、音声認識部６に対して、表示物特定用辞書を有効化するよう指示し、音声認識部６は当該指示された辞書を有効化する（ステップＳＴ８０）。

図１４は、実施の形態３において、グループ化された表示物から、音声操作によって１つの表示物を特定する処理を示すフローチャートである。
まず、ユーザにより音声認識開始指示部が押下されると、音声認識部６は、音声が入力されたかどうか判定し、所定期間、音声が入力されなかった場合（ステップＳＴ８１の「ＮＯ」の場合）、処理を終了する。

一方、音声が入力された場合（ステップＳＴ８１の「ＹＥＳ」の場合）、音声認識部６は、入力された音声を認識し、認識結果を出力する（ステップＳＴ８２）。
次に、スコア調整部１４は、音声認識部６により出力された認識結果文字列が、表示物を特定するための単語等のリストに存在するか判定する。そして、認識結果文字列が当該リストに含まれている場合は、当該認識結果文字列に対応する認識スコアを一定量増加させる。（ステップＳＴ８３）。

そして、認識結果選択部８は、音声認識部６により出力された認識結果文字列から、スコア調整部１４により調整された後の認識スコアが最も高いものを１つ選択する（ステップＳＴ８４）。
なお、ステップＳＴ８５〜ＳＴ８９の処理については、実施の形態１における図６に示すフローチャートのステップＳＴ１５〜ＳＴ１８（実施の形態２における図１０に示すフローチャートのステップＳＴ５５〜ＳＴ５９）の処理と同一であるため、説明を省略する。

特定部１２は、グループ生成部１１からグループ化された各表示物の詳細情報を取得し、当該詳細情報に基づいてグループ化された表示物の絞り込みを行い、絞り込み結果を出力する（ステップＳＴ８９）。
そして、認識辞書制御部１３は、特定部１２から当該判定結果を取得する。また、スコア調整部１４は、特定部１２から当該判定結果と絞り込まれた表示物の詳細情報を取得する。

認識辞書制御部１３は、当該判定結果が１つの表示物を特定できたことを示すものである場合（ステップＳＴ９０の「ＹＥＳ」の場合）、音声認識部６に対して、当該特定された表示物に対応する表示物操作用辞書を有効化するよう指示出力し、音声認識部６は、当該指示された表示物操作用辞書を有効化する（ステップＳＴ９１）。

一方、当該判定結果が１つの表示物を特定できたことを示すものでない場合（ステップＳＴ９０の「ＮＯ」の場合）、スコア調整部１４は、表示物の詳細情報に基づいて、表示物を特定するための単語等のリストを生成する（ステップＳＴ９２）。一方で、認識辞書制御部１３は、何もしない。

なお、この実施の形態３では、必要に応じて、予め作成された音声認識辞書ごとに、すなわち、例えば施設名認識用辞書、コマンド用辞書、表示物特定用辞書、表示物操作用辞書などをそれぞれ必要に応じて有効化するものとして説明したが、それぞれの音声認識辞書の中から必要な語彙のみを有効化するようにしてもよい。

以上のように、この実施の形態３によれば、実施の形態１と同様の効果に加え、１つのアイコン（表示物）を特定するための発話を認識しやすくするとともに、ユーザの発話の自由度を上げることができる。

なお、この実施の形態３においても、視線が表示物の視線検知領域またはグループ生成部１１により統合された視線検知統合領域から外れても、予め定められた一定時間が経過するまでは、認識スコアを調整するようにしてもよい。すなわち、スコア調整部１４が、表示物の視線検知領域または視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させるようにしてもよい。

具体的には、グループ生成部１１は、視線が検出された視線検知領域またはグループ生成部１１により統合された視線検知統合領域内に視線が存在しない場合（図１３に示すフローチャートのステップＳＴ６３の「ＮＯ」の場合）であっても、表示物をグループ化してから予め定められた一定時間を経過していなければ、ステップＳＴ６４を実行することなしに、処理を終了するようにすればよい。

また、スコア調整部１４は、視線が視線検知領域または視線検知統合領域から外れてから経過した時間と負の相関を有するように、認識スコアの増加量を変化させるとしてもよい。すなわち、視線が視線検知領域または視線検知統合領域から外れてから経過した時間が短い場合には、認識スコアの増加量を多くし、視線が外れてから経過した時間が長い場合には、認識スコアの増加量を少なくする。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明の音声認識装置は、車両等の移動体に搭載されるナビゲーション装置やナビゲーションシステムの他、ディスプレイ等に表示された表示物を選択し、操作を指示することができる装置やシステムであれば、どのような装置やシステムにも適用することができる。

１ナビゲーション部、２指示入力部、３表示部（表示装置）、４スピーカ、５マイク、６音声認識部、７音声認識辞書、８認識結果選択部、９カメラ、１０視線検出部、１１グループ生成部、１２特定部、１３認識辞書制御部、１４スコア調整部、２０制御部、３０音声認識装置、４０〜４９表示物（アイコン）、５０〜５９視線検知領域、６０視線、１００音声認識システム。

Claims

表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する１つの表示物を特定する音声認識装置であって、
前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、
前記ユーザの視線を検出する視線検出部と、
前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、
前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行う特定部とを備え、
前記特定部は、前記グループ化された表示物の中から１つの表示物を特定、または、前記１つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化する
ことを特徴とする音声認識装置。
前記制御部は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物に対応する音声認識辞書を動的に生成する
ことを特徴とする請求項１記載の音声認識装置。
前記音声認識辞書は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物の中から１つの表示物を特定するための認識対象語を含む
ことを特徴とする請求項２記載の音声認識装置。
前記音声認識辞書は、複数種類の表示物が存在する場合は、前記表示物の種類を特定するための認識対象語を含む
ことを特徴とする請求項３記載の音声認識装置。
前記音声認識辞書は、単一種類の表示物が複数存在する場合は、１つの表示物を特定するための認識対象語を含む
ことを特徴とする請求項３記載の音声認識装置。
前記音声認識辞書は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物の個数が予め定められた個数以上である場合は、当該予め定められた個数以上の表示物を消去する認識対象語を含む
ことを特徴とする請求項３記載の音声認識装置。
前記制御部は、前記動的に生成した音声認識辞書のみを有効化する
ことを特徴とする請求項２記載の音声認識装置。
前記制御部は、前記動的に生成した音声認識辞書に含まれる認識結果の認識スコアを増加させる
ことを特徴とする請求項２記載の音声認識装置。
前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書を有効化しておく
ことを特徴とする請求項２記載の音声認識装置。
前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
ことを特徴とする請求項９記載の音声認識装置。
前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる
ことを特徴とする請求項２記載の音声認識装置。
前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
ことを特徴とする請求項１１記載の音声認識装置。
前記認識スコアの増加量は、前記視線検知領域または前記視線検知統合領域から視線が外れてから経過した時間と負の相関を有する
ことを特徴とする請求項１１記載の音声認識装置。
前記制御部は、前記グループ生成部によりグループ化された表示物または前記特定部により再グループ化された表示物に関連した認識対象語彙を認識した場合、前記出力された認識結果の認識スコアを増加させる
ことを特徴とする請求項１記載の音声認識装置。
前記制御部は、前記視線検知領域または前記視線検知統合領域から視線が外れた時点から、予め定められた一定時間が経過するまでは、動的に生成された音声認識辞書に含まれる認識結果の認識スコアを増加させる
ことを特徴とする請求項１４記載の音声認識装置。
前記一定時間は、前記視線検知領域または前記視線検知統合領域に視線が存在していた時間と正の相関を有する
ことを特徴とする請求項１５記載の音声認識装置。
前記認識スコアの増加量は、前記視線検知領域または前記視線検知統合領域から視線が外れてから経過した時間と負の相関を有する
ことを特徴とする請求項１５記載の音声認識装置。
前記特定部は、前記グループ生成部によりグループ化された表示物、前記特定部により再グループ化された表示物、または、前記特定部により特定された表示物の表示態様を変更する
ことを特徴とする請求項１記載の音声認識装置。
複数の表示物が表示される表示装置と、
ユーザの目画像を撮影して取得するカメラと、
前記表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する１つの表示物を特定する音声認識装置と
を備える音声認識システムであって、
前記音声認識装置は、
前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力する制御部と、
前記カメラにより取得された画像から前記ユーザの視線を検出する視線検出部と、
前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するグループ生成部と、
前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行う特定部とを備え、
前記特定部は、前記グループ化された表示物の中から１つの表示物を特定、または、前記１つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化する
ことを特徴とする音声認識システム。
音声認識装置が、表示装置に表示されている複数の表示物の中から、ユーザにより発話された音声を認識して認識結果に対応する１つの表示物を特定する音声認識方法であって、
制御部が、前記ユーザにより発話された音声を取得し、音声認識辞書を参照して前記取得した音声を認識し、認識結果を出力するステップと、
視線検出部が、前記ユーザの視線を検出するステップと、
グループ生成部が、前記視線検出部により検出された視線検出結果に基づいて前記表示物ごとに定められた視線検知領域を統合し、その統合された視線検知統合領域内に存在する表示物をグループ化するステップと、
特定部が、前記制御部により出力された認識結果に基づいて、前記グループ生成部によりグループ化された表示物の絞り込みを行い、前記グループ化された表示物の中から１つの表示物を特定、または、前記１つの表示物を特定できなかった場合は前記絞り込みを行った表示物を再グループ化するステップと
を備えることを特徴とする音声認識方法。