WO2013005248A1

WO2013005248A1 - 音声認識装置およびナビゲーション装置

Info

Publication number: WO2013005248A1
Application number: PCT/JP2011/003827
Authority: WO
Inventors: 石井　純; 道弘山崎
Original assignee: 三菱電機株式会社
Priority date: 2011-07-05
Filing date: 2011-07-05
Publication date: 2013-01-10
Also published as: US20140100847A1; CN103650034A; DE112011105407T5

Abstract

　入力された音声をデジタル変換して音声データとして取得する音声取得部１と、音声取得部１が取得した音声データを記憶する音声データ記憶部２と、音声データ記憶部２に記憶された音声データから音声区間を検出し、音声区間の音声データの特徴量を抽出して、抽出した特徴量に基づいて認識辞書を参照して認識処理を行う第１～第Ｍ音声認識部と、第１～第Ｍ音声認識部を切り換える音声認識切換部４と、音声認識切換部４による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する認識制御部５と、認識制御部５が取得した認識結果の中からユーザへの提示対象の認識結果を選択する認識結果選択部６とを備える。

Description

音声認識装置およびナビゲーション装置

　この発明は、音声認識装置およびこれを備えたナビゲーション装置に関する。

　現在のカーナビゲーション装置では、音声入力Ｉ／Ｆを有して住所や施設名を音声認識する機能が一般的になっている。しかしながら、カーナビゲーション装置として実装するハードウェアのワークメモリや演算能力の制限、認識率の問題から、住所や施設名などの大語彙を一度に認識対象とすることが困難な場合があった。

　これに対して、例えば特許文献１には、音声認識の対象を分割し認識を複数回に分けて実施する音声認識装置が開示されている。この装置では、音声認識の対象を分割して順次音声認識を行い、認識結果の認識スコア（尤度）が閾値以上であれば、その認識結果を確定して処理を終了する。また、上記閾値以上の認識スコアの認識結果が一つもない場合、得られた認識結果の中で最も認識スコアが高いものを最終的な認識結果とする。
　このように、音声認識対象を分割することで認識率の低下を防ぐことができる。また、認識結果の認識スコアが閾値以上になった時点で処理を終了するので、認識処理に要する時間を短縮することができる。

特開２００９－２３００６８号公報

　特許文献１に代表される従来の技術では、例えば、構文型やディクテーション型などの異なる音声認識処理によって順次認識を行う場合、認識結果同士の認識スコア（尤度）を単純に比較することができない。このため、上記閾値以上の認識スコアの認識結果が一つもない場合には、得られた認識結果の中で最も認識スコアが高いものを選択することができず、ユーザに対して認識結果を提示できないという課題があった。

　この発明は、上記のような課題を解決するためになされたもので、異なる音声認識処理で得られた認識結果を的確に提示し、かつ認識処理の短縮化を図ることができる音声認識装置およびこれを備えたナビゲーション装置を得ることを目的とする。

　この発明に係る音声認識装置は、入力された音声をデジタル変換して音声データとして取得する取得部と、取得部が取得した音声データを記憶する音声データ記憶部と、音声データ記憶部に記憶された音声データから音声区間を検出し、音声区間の音声データの特徴量を抽出して、抽出した特徴量に基づいて認識辞書を参照して認識処理を行う複数の音声認識部と、複数の音声認識部を切り換える切換部と、切換部による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する制御部と、制御部が取得した認識結果の中からユーザへの提示対象の認識結果を選択する選択部とを備える。

　この発明によれば、異なる音声認識処理で得られた認識結果を的確に提示し、かつ認識処理の短縮化を図ることができるという効果がある。

この発明の実施の形態１に係る音声認識装置を備えたナビゲーション装置の構成を示すブロック図である。実施の形態１に係る音声認識装置による音声認識処理の流れを示すフローチャートである。認識スコアが上位から第２位までの音声認識部ごとの認識結果の表示例を示す図である。音声認識部ごとに異なる方法で選択した認識結果の表示例を示す図である。この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。この発明の実施の形態３に係る音声認識装置の構成を示すブロック図である。実施の形態３に係る音声認識装置による音声認識処理の流れを示すフローチャートである。この発明の実施の形態４に係る音声認識装置の構成を示すブロック図である。実施の形態４に係る音声認識装置による音声認識処理の流れを示すフローチャートである。この発明の実施の形態５に係る音声認識装置の構成を示すブロック図である。実施の形態５に係る音声認識装置による音声認識処理の流れを示すフローチャートである。

　以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
　図１は、この発明の実施の形態１に係る音声認識装置を備えたナビゲーション装置の構成を示すブロック図である。図１において、実施の形態１に係るナビゲーション装置は、実施の形態１に係る音声認識装置を、移動体である車両に搭載した車載用ナビゲーション装置に適用した場合を示している。音声認識装置の構成として、音声取得部１、音声データ記憶部２、音声認識部３、音声認識切換部４、認識制御部５、認識結果選択部６および認識結果記憶部７を備え、ナビゲーションを行う構成として、表示部８、ナビゲーション処理部９、位置検出部１０、地図データベース（ＤＢ）１１および入力部１２を備える。

　音声取得部１は、マイクなどによって入力された所定期間の音声をアナログ／デジタル変換し、例えばＰＣＭ（Pulse Code Modulation）形式の音声データとして取得する取得部である。音声データ記憶部２は、音声取得部１により取得された音声データを格納する記憶部である。
　音声認識部３は、例えば構文型やディクテーション型等の異なる音声認識処理を行う複数の音声認識部（以降、第１～第Ｍ音声認識部と記載する）からなる。
　第１～第Ｍ音声認識部は、各々の音声認識アルゴリズムに従って、音声取得部１が取得した音声データからユーザが発話した内容に該当する音声区間を検出し、その音声区間における音声データの特徴量を抽出し、抽出した特徴量に基づいて認識辞書を参照しながら認識処理を行う。

　音声認識切換部４は、認識制御部５からの切換制御信号に応じて第１～第Ｍ音声認識部を切り換える切換部である。認識制御部５は、音声認識切換部４による音声認識部の切換を制御して、切り換え後の音声認識部の認識結果を取得する制御部である。認識結果選択部６は、認識制御部５が取得した認識結果から、出力すべき認識結果を選択する選択部である。認識結果記憶部７は、認識結果選択部６により選択された認識結果を記憶する記憶部である。

　表示部８は、認識結果記憶部７に格納された認識結果またはナビゲーション処理部９の処理結果を表示する表示部である。ナビゲーション処理部９は、ルート計算、ルート誘導および地図表示などのナビゲーション処理を行う機能構成部である。例えば、ナビゲーション処理部９は、位置検出部１０が取得した自車の現在位置、実施の形態１に係る音声認識装置または入力部１２で入力された目的地および地図データベース（ＤＢ）１１が記憶する地図データを用いて、現在の自車位置から目的地までのルートを計算する。そして、ナビゲーション処理部９は、ルート計算で得たルートを誘導案内する。また、ナビゲーション処理部９は、自車の現在位置および地図ＤＢ１１が記憶する地図データを用いて、自車位置を含む地図を表示部８に表示する。

　位置検出部１０は、ＧＰＳ（Global Positioning System）電波などの解析結果から、自車の位置情報（緯度経度）を取得する機能構成部である。また、地図ＤＢ１１は、ナビゲーション処理部９により利用される地図データが登録されたデータベースである。地図データには、地形図データ、住宅地図データおよび道路ネットワークなどがある。入力部１２は、ユーザによる目的地の設定入力または各種操作を受け付ける機能構成部であり、例えば表示部８の画面上に搭載したタッチパネル等で実現される。

　次に動作について説明する。
　図２は、実施の形態１に係る音声認識装置による音声認識処理の流れを示すフローチャートである。まず、音声取得部１が、マイクなどにより入力された所定期間の音声をＡ／Ｄ変換し、例えば、ＰＣＭ形式の音声データとして取得する（ステップＳＴ１０）。音声データ記憶部２は、音声取得部１により取得された音声データを記憶する（ステップＳＴ２０）。

　次に、認識制御部５が変数Ｎを１に初期化する（ステップＳＴ３０）。なお、Ｎは、１～Ｍの値を取り得る変数である。そして、認識制御部５は、音声認識部３を第Ｎ音声認識部へ切り換える切換制御信号を音声認識切換部４へ出力する。音声認識切換部４は、認識制御部５からの当該切換制御信号に従って、音声認識部３を第Ｎ音声認識部に切り換える（ステップＳＴ４０）。

　第Ｎ音声認識部は、音声データ記憶部２が記憶する音声データから、ユーザ発話に該当する音声区間を検出し、その音声区間における音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を参照しながら認識処理を行う（ステップＳＴ５０）。
　認識制御部５は、第Ｎ音声認識部から認識結果を取得し、当該認識結果における第１位の認識スコア（尤度）を所定の閾値と比較して、当該閾値以上であるか否かを判定する（ステップＳＴ６０）。なお、上記所定の閾値は、他の音声認識部へ切り換えて認識処理を継続するか否かを判断するために使用されるものであり、上記所定の閾値は、第１～第Ｍ音声認識部ごとに設定されている。

　第１位の認識スコアが上記閾値以上の場合（ステップＳＴ６０；ＹＥＳ）は、認識結果選択部６が、認識制御部５が取得した第Ｎ音声認識部による認識結果の中から、後述する方法で出力すべき認識結果を選択する（ステップＳＴ７０）。この後、表示部８が、認識結果選択部６に選択され、認識結果記憶部７に記憶された認識結果を表示する（ステップＳＴ８０）。
　一方、第１位の認識スコアが閾値未満である場合（ステップＳＴ６０；ＮＯ）、認識結果選択部６は、認識制御部５が取得した第Ｎ音声認識部による認識結果の中から、後述する方法で出力すべき認識結果を選択する（ステップＳＴ９０）。

　次いで、認識結果選択部６は、選択した認識結果を認識結果記憶部７に格納する（ステップＳＴ１００）。認識制御部５は、認識結果選択部６により認識結果が認識結果記憶部７に格納されると、変数Ｎを＋１インクリメントして（ステップＳＴ１１０）、変数Ｎの値が音声認識部の数Ｍを超えたか否かを判定する（ステップＳＴ１２０）。

　変数Ｎの値が音声認識部数Ｍを超える場合（ステップＳＴ１２０；ＹＥＳ）、表示部８が、認識結果格納部７に格納された第１～第Ｍ音声認識部の認識結果を出力する（ステップＳＴ１３０）。表示部８による認識結果の出力は、音声認識部ごとの認識結果順で出力してもよい。変数Ｎの値が音声認識部数Ｍ以下の場合（ステップＳＴ１２０；ＮＯ）、ステップＳＴ４０の処理へ戻る。これにより、切り換え後の音声認識部によって上記処理を繰り返す。

　ここで、ステップＳＴ７０およびステップＳＴ９０について具体例を挙げて説明する。
　認識結果選択部６は、認識制御部５が取得した認識結果の中から、認識スコアが上位のものを選択する。
　選択方法は、例えば、上述したように認識スコアが第１位の認識結果を選択してもよいし、認識制御部５が取得した認識結果の全てを選択してもよい。
　また、認識スコアの上位からＸ位までに含まれる認識結果を選択してもよい。
　さらに、第１位の認識スコアからの差が所定値以下の認識結果を選択してもよい。
　なお、認識スコアの上位からＸ位までに含まれる認識結果、または第１位の認識スコアからの差が所定値以下の認識結果であっても、認識スコアが予め定めた閾値未満の認識結果は、選択しないようにしてもよい。

　図３は、認識スコアが上位から第２位までの音声認識部ごとの認識結果の表示例を示す図である。図３において、“音声認識処理１”とは、例えば第１音声認識部の認識結果であることを示しており、“音声認識処理２”は、例えば第２音声認識部の認識結果であることを示している。“音声認識処理３”、“音声認識処理４”、・・・についても同様である。音声認識部ごとに上位から第２位までの認識スコア（尤度）の認識結果が順に並んで表示されている。

　図４は、音声認識部ごとに異なる方法で選択した認識結果の表示例を示す図である。図４において、第１音声認識部（“音声認識処理１”）の認識結果については、認識スコアが上位から第２位までのものを選択し表示している。また、第２音声認識部（“音声認識処理２”）については、全ての認識結果を選択し表示している。
　このように、ステップＳＴ７０とステップＳＴ９０では、音声認識部ごとに認識結果の選択方法が異なっていてもよい。

　ユーザは、例えば入力部１２を用いて表示部８に表示された認識結果を選択することにより、自身が発話した目的地の認識結果が認識結果記憶部７から読み出され、ナビゲーション処理部９へ出力される。ナビゲーション処理部９は、例えば、位置検出部１０が取得した自車の現在位置、認識結果記憶部７から読み出した目的地の認識結果および地図ＤＢ１１が記憶する地図データを用いて、現在の自車位置から目的地までのルートを計算し、得られたルートを誘導案内する。

　以上のように、この実施の形態１によれば、入力された音声をデジタル変換して音声データとして取得する音声取得部１と、音声取得部１が取得した音声データを記憶する音声データ記憶部２と、音声データ記憶部２に記憶された音声データから音声区間を検出し、音声区間の音声データの特徴量を抽出して、抽出した特徴量に基づいて認識辞書を参照して認識処理を行う第１～第Ｍ音声認識部と、第１～第Ｍ音声認識部を切り換える音声認識切換部４と、音声認識切換部４による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する認識制御部５と、認識制御部５が取得した認識結果の中からユーザへの提示対象の認識結果を選択する認識結果選択部６とを備える。このように構成することで、異なる音声認識処理での認識結果であるために、認識結果同士の認識スコアを単純に比較できず、最も認識スコアが高い認識結果を決定できない場合であっても、各音声認識処理による認識結果をユーザに提示することができる。

実施の形態２．
　図５は、この発明の実施の形態２に係る音声認識装置の構成を示すブロック図である。図５において、実施の形態２に係る音声認識装置は、音声取得部１、音声データ記憶部２、音声認識部３、音声認識切換部４、認識制御部５、認識結果選択部６Ａ、認識結果記憶部７、および認識結果選択方法変更部１３を備える。認識結果選択部６Ａは、認識結果選択方法変更部１３からの選択方法制御信号に従って、認識制御部５により取得された認識結果から、出力すべき認識結果を選択する。認識結果選択方法変更部１３は、第１～第Ｍ音声認識部ごとに、認識結果選択部６Ａによる認識結果の選択方法の指定を受け付けて、ユーザから指定された選択方法に変更する選択方法制御信号を認識結果選択部６Ａへ出力する機能構成部である。なお、図５において、図１と同一構成要素には同一符号を付して説明を省略する。

　次に動作について説明する。
　認識結果選択方法変更部１３は、認識結果の選択方法の指定用画面を表示部８に表示して、ユーザによる指定を受け付けるＨＭＩ（Human Machine Interface）を提供する。
　例えば、ユーザ操作によって第１～第Ｍ音声認識部のそれぞれと選択方法を対応付ける指定用画面を表示する。これにより、認識結果選択部６Ａに対して、音声認識部ごとに選択方法を設定しておく。ユーザは、音声認識部ごとの選択方法を好みで指定でき、また、音声認識装置の使用状況に応じて音声認識部ごとの選択方法を指定してもよい。さらに、音声認識部ごとに重要度を予め設定していた場合には、重要度の高い音声認識部による認識結果が多く選択されるように選択方法を指定してもよい。なお、音声認識部によっては選択方法を指定しない、すなわちその音声認識部による認識結果は出力しないように指定を行ってもよい。

　実施の形態２に係る音声認識装置による音声認識は、上記実施の形態１で示した図２のフローチャートと同様である。ただし、ステップＳＴ７０およびステップＳＴ９０においては、認識結果選択部６Ａが、認識結果選択方法変更部１３が設定した選択方法で認識結果が選択される。例えば、認識制御部５が第１音声認識部から取得した認識結果については、認識スコアが第１位のものを選択し、第２音声認識部から取得した認識結果については、全てを選択する。このように、実施の形態２では、ユーザが、音声認識部ごとの認識結果の選択方法を決定することができる。その他の処理は、上記実施の形態１と同様である。

　以上のように、この実施の形態２によれば、認識制御部５が取得した認識結果の中からユーザへの提示対象の認識結果を選択する選択方法の指定を受け付けて、指定された選択方法で認識結果選択部６Ａによる認識結果の選択方法を変更する認識結果選択方法変更部１３を備える。このように構成することで、ユーザが認識結果選択部６Ａによる認識結果の選択方法を指定でき、例えば使用状況に応じて最適と考える音声認識処理の結果を重点的に提示させることが可能である。

実施の形態３．
　図６は、この発明の実施の形態３に係る音声認識装置の構成を示すブロック図である。図６に示すように、実施の形態３に係る音声認識装置は、音声取得部１、音声データ記憶部２Ａ、音声認識部３、音声認識切換部４、認識制御部５、認識結果選択部６、認識結果記憶部７および音声区間検出部１４を備える。なお、図６において、図１と同一構成要素には同一符号を付して説明を省略する。

　音声データ記憶部２Ａは、音声区間検出部１４により検出された音声区間の音声データを格納する記憶部である。また、音声区間検出部１４は、音声取得部１が取得した音声データから、ユーザが発話した内容に該当する音声区間における音声データを検出する音声区間検出部である。なお、第１～第Ｍ音声認識部は、音声データ記憶部２Ａに格納された音声データから特徴量を抽出し、その特徴量に基づいて認識辞書を参照しながら認識処理を行う。このように、実施の形態３では、第１～第Ｍ音声認識部がそれぞれ個別に音声区間検出処理を実施しない。

　次に動作について説明する。
　図７は、実施の形態３に係る音声認識装置による音声認識処理の流れを示すフローチャートである。まず、音声取得部１が、マイクなどにより入力された所定期間の音声をＡ／Ｄ変換し、例えばＰＣＭ形式の音声データとして取得する（ステップＳＴ２１０）。次に、音声区間検出部１４は、音声取得部１が取得した音声データから、ユーザが発話した内容に該当する区間の音声データを検出する（ステップＳＴ２２０）。音声データ記憶部２Ａは、音声区間検出部１４により検出された音声データを格納する（ステップＳＴ２３０）。

　次いで、認識制御部５が変数Ｎを１に初期化する（ステップＳＴ２４０）。そして、認識制御部５は、音声認識部３を第Ｎ音声認識部へ切り換える切換制御信号を音声認識切換部４へ出力する。音声認識切換部４は、認識制御部５からの当該切換制御信号に従って、音声認識部３を第Ｎ音声認識部に切り換える（ステップＳＴ２５０）。

　第Ｎ音声認識部は、音声データ記憶部２Ａに記憶された音声区間ごとの音声データから特徴量を抽出し、その特徴量に基づいて認識辞書を参照しながら認識処理を行う（ステップＳＴ２６０）。以降のステップＳＴ２７０からステップＳＴ３４０までの処理は、上記実施の形態１の図２におけるステップＳＴ６０からステップＳＴ１３０までの処理と同様であるので説明を省略する。

　以上のように、この実施の形態３によれば、入力された音声をデジタル変換して音声データとして取得する音声取得部１と、音声取得部１が取得した音声データからユーザの発話内容に該当する音声区間を検出する音声区間検出部１４と、音声区間検出部１４が検出した音声区間ごとの音声データを記憶する音声データ記憶部２Ａと、音声データ記憶部２Ａに記憶された音声データの特徴量を抽出して、抽出した特徴量に基づいて認識辞書を参照して認識処理を行う第１～第Ｍ音声認識部と、第１～第Ｍ音声認識部を切り換える音声認識切換部４と、音声認識切換部４による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する認識制御部５と、認識制御部５が取得した認識結果の中からユーザへの提示対象の認識結果を選択する認識結果選択部６とを備える。
　このように構成することで、第１～第Ｍ音声認識部で音声区間検出を実施しないため、認識処理に要する時間を短縮することができる。

実施の形態４．
　図８は、この発明の実施の形態４に係る音声認識装置の構成を示すブロック図である。図８に示すように、実施の形態４に係る音声認識装置は、音声取得部１、音声データ記憶部２、音声認識部３Ａ、音声認識切換部４、認識制御部５、認識結果選択部６および認識結果記憶部７を備える。なお、図８において、図１と同一構成要素には同一符号を付して説明を省略する。

　音声認識部３Ａでは、第１～第Ｍ音声認識部が、各々の音声認識アルゴリズムにおける異なる認識精度の音声認識方法で認識処理を実施する。つまり、第Ｎ（Ｎ＝１～Ｍ）音声認識部において、当該音声認識部の音声認識アルゴリズムが同じだが、その音声認識精度に寄与する変数を変更した異なる精度の音声認識方法を実施する。例えば、各音声認識部において、認識精度は低いが処理時間が短い音声認識方法Ｎ（ａ）と、認識精度は高いが処理時間が長い音声認識方法Ｎ（ｂ）とで認識処理を実施する。なお、音声認識の精度に寄与する変数としては、音声区間の特徴量を抽出する際のフレーム周期、音響モデルの混合分布数、音響モデルのモデル数、またはこれらの組み合わせなどが挙げられる。

　認識精度が低い音声認識方法は、上述した変数において、音声区間の特徴量を抽出する際のフレーム周期を所定値よりも長くしたもの、音響モデルの混合分布数を所定値よりも減らしたもの、音響モデルのモデル数を所定値よりも減らしたもの、またはこれらの組み合わせにより規定する。
　また、認識精度が高い音声認識方法は、反対に、音声区間の特徴量を抽出する際のフレーム周期を上記所定値以下に短くしたもの、音響モデルの混合分布数を上記所定値以上に増やしたもの、音響モデルのモデル数を上記所定値以上に増やしたもの、またはこれらの組み合わせにより規定する。
　なお、第１～第Ｍ音声認識部における音声認識方法の認識精度に寄与する上記変数は、ユーザが適宜設定して認識精度を決定してもよい。

　次に動作について説明する。
　図９は、実施の形態４に係る音声認識装置による音声認識処理の流れを示すフローチャートである。まず、音声取得部１が、マイクなどにより入力された所定期間の音声をＡ／Ｄ変換して、例えばＰＣＭ形式の音声データとして取得する（ステップＳＴ４１０）。音声データ記憶部２は、音声取得部１が取得した音声データを記憶する（ステップＳＴ４２０）。

　次に、認識制御部５が変数Ｎを１に初期化する（ステップＳＴ４３０）。なお、Ｎは、１～Ｍの値を取り得る変数である。そして、認識制御部５は、音声認識部３Ａを第Ｎ音声認識部へ切り換える切換制御信号を音声認識切換部４へ出力する。音声認識切換部４は、認識制御部５からの当該切換制御信号に従って、音声認識部３Ａを第Ｎ音声認識部に切り換える（ステップＳＴ４４０）。

　第Ｎ音声認識部は、認識精度が低い音声認識方法によって、音声データ記憶部２が記憶する音声データからユーザ発話に該当する音声区間を検出しその音声区間の特徴量を抽出して、その特徴量に基づいて認識辞書を参照しながら認識処理を行う（ステップＳＴ４５０）。次いで、認識制御部５は、認識結果選択部６による認識結果が認識結果記憶部７に格納されると、変数Ｎを＋１インクリメントして（ステップＳＴ４６０）、変数Ｎの値が音声認識部の数Ｍを超えたか否かを判定する（ステップＳＴ４７０）。ここで、変数Ｎの値が音声認識部数Ｍ以下の場合（ステップＳＴ４７０；ＮＯ）、ステップＳＴ４４０の処理へ戻る。切り換え後の音声認識部によって上記処理を繰り返す。

　また、変数Ｎが音声認識部の数Ｍを超えた場合（ステップＳＴ４７０；ＹＥＳ）、認識制御部５は、第Ｎ音声認識部から認識結果を取得し、認識結果の中の第１位の認識スコア（尤度）を所定の閾値と比較して、当該閾値以上であるＫ個の音声認識部があるか否かを判定する（ステップＳＴ４８０）。これにより、第１～第Ｍ音声認識部のうち、認識精度が低い音声認識方法によって第１位の認識スコアが閾値以上の認識結果が得られたＫ個の音声認識部Ｌ（１）～Ｌ（Ｋ）に絞り込まれる。

　認識制御部５が変数ｎを１に初期化する（ステップＳＴ４９０）。なお、ｎは、１～Ｋの値を取り得る変数である。
　次に、認識制御部５は、ステップＳＴ４８０で選択した音声認識部Ｌ（１）～Ｌ（Ｋ）のうち、音声認識部Ｌ（ｎ）へ切り換える切換制御信号を音声認識切換部４へ出力する。音声認識切換部４は、認識制御部５からの当該切換制御信号に従って、音声認識部３Ａを音声認識部Ｌ（ｎ）に切り換える（ステップＳＴ５００）。

　音声認識部Ｌ（ｎ）は、認識精度が高い音声認識方法によって、音声データ記憶部２が記憶する音声データからユーザ発話に該当する音声区間を検出し、その音声区間における音声データの特徴量を抽出して、その特徴量に基づいて認識辞書を参照しながら認識処理を行う（ステップＳＴ５１０）。認識制御部５は、音声認識部Ｌ（ｎ）の認識処理が終わる度に、その認識結果を取得する。

　次に、認識結果選択部６は、認識制御部５が取得した第Ｎ音声認識部による認識結果の中から、上記実施の形態１と同様の方法（図２のステップＳＴ７０およびステップＳＴ９０）で出力すべき認識結果を選択する（ステップＳＴ５２０）。認識結果選択部６は、選択した認識結果を認識結果記憶部７に格納する（ステップＳＴ５３０）。

　認識制御部５は、認識結果選択部６によって認識結果が認識結果記憶部７に格納されると、変数ｎを＋１インクリメントして（ステップＳＴ５４０）、変数ｎの値が、ステップＳＴ４８０で選択した音声認識部の数であるＫを超えたか否かを判定する（ステップＳＴ５５０）。ここで、変数ｎの値が、ステップＳＴ４８０で選択した音声認識部の数Ｋ以下の場合（ステップＳＴ５５０；ＮＯ）、ステップＳＴ５００の処理へ戻る。これにより、切り換え後の音声認識部によって上記処理を繰り返す。

　変数ｎの値が、ステップＳＴ４８０で選択した音声認識部の数Ｋを超える場合（ステップＳＴ５５０；ＹＥＳ）、表示部８が、認識結果格納部７に格納された音声認識部Ｌ（１）～Ｌ（Ｋ）の認識結果を出力する（ステップＳＴ５６０）。表示部８による認識結果の出力は、音声認識部Ｌ（１）～Ｌ（Ｋ）の認識結果順で出力してもよい。

　以上のように、この実施の形態４によれば、音声認識部３Ａの第１～第Ｍ音声認識部が精度が異なる認識処理を行うことが可能であり、認識制御部５が、音声認識部に対して、認識結果の認識スコアに基づいて認識処理を行う音声認識部を絞り込みながら段階的に精度が上がるように認識処理を行わせる。このように構成することにより、例えば、認識精度は低いが処理時間が短い音声認識方法と、認識精度は高いが処理時間が長い音声認識方法とを組み合わせ、複数の音声認識処理において精度が低い方法で認識を行い、そのうち認識スコアが高かった音声認識処理について精度が高い方法で精密な認識を行うことが可能である。これにより、全ての認識処理について精密な認識を行う必要がなくなるため、全体の認識処理の時間を短縮することができる。

実施の形態５．
　図１０は、この発明の実施の形態５に係る音声認識装置の構成を示すブロック図である。図１０に示すように、実施の形態５に係る音声認識装置は、音声取得部１、音声データ記憶部２、音声認識部３、音声認識切換部４、認識制御部５および認識結果確定部１５を備える。認識結果確定部１５は、表示部８に表示された認識結果の候補に基づいたユーザによる認識結果の選択を受け付け、選択された認識結果の候補を最終的な認識結果として確定する確定部である。例えば、認識結果確定部１５は、表示部８の画面上に認識結果の選択用画面を表示させ、認識結果選択用画面に基づき、タッチパネルやハードキー、ボタンなどの入力装置を用いて、認識結果候補を選択するＨＭＩを提供する。なお、図１０において、図１と同一構成要素には同一符号を付して説明を省略する。

　次に動作について説明する。
　図１１は、実施の形態５に係る音声認識装置による音声認識処理の流れを示すフローチャートである。まず、音声取得部１が、マイクなどにより入力された所定期間の音声をＡ／Ｄ変換し、例えば、ＰＣＭ形式の音声データとして取得する（ステップＳＴ６１０）。音声データ記憶部２は、音声取得部１により取得された音声データを記憶する（ステップＳＴ６２０）。

　次に、認識制御部５が変数Ｎを１に初期化する（ステップＳＴ６３０）。なお、Ｎは、１～Ｍの値を取り得る変数である。そして、認識制御部５は、音声認識部３を第Ｎ音声認識部へ切り換える切換制御信号を音声認識切換部４へ出力する。音声認識切換部４は、認識制御部５からの当該切換制御信号に従って、音声認識部３を第Ｎ音声認識部に切り換える（ステップＳＴ６４０）。

　第Ｎ音声認識部は、音声データ記憶部２が記憶する音声データから、ユーザ発話に該当する音声区間を検出してその音声区間における音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を参照しながら認識処理を行う（ステップＳＴ６５０）。認識制御部５は、第Ｎ音声認識部から認識結果を取得して表示部８へ出力する。表示部８は、認識制御部５から認識結果を入力すると、認識結果確定部１５の制御に従い、入力した認識結果を、認識結果候補として表示する（ステップＳＴ６６０）。

　認識結果確定部１５は、表示部８が認識結果候補を表示すると、ユーザからの認識結果の選択待ち状態となり、ユーザが表示部８に表示された認識結果候補を選択したか否かを判定する（ステップＳＴ６７０）。ここで、ユーザにより認識結果候補が選択されると（ステップＳＴ６７０；ＹＥＳ）、認識結果確定部１５は、ユーザに選択された認識結果候補を最終的な認識結果として確定する（ステップＳＴ６８０）。これにより、認識処理は終了する。

　一方、ユーザにより認識結果候補が選択されなかった場合（ステップＳＴ６７０；ＮＯ）、認識制御部５は、変数Ｎを＋１インクリメントして（ステップＳＴ６９０）、変数Ｎの値が音声認識部の数Ｍを超えたか否かを判定する（ステップＳＴ７００）。
　変数Ｎの値が音声認識部数Ｍを超える場合（ステップＳＴ７００；ＹＥＳ）、認識処理は終了する。また、変数Ｎの値が音声認識部数Ｍ以下の場合（ステップＳＴ７００；ＮＯ）、ステップＳＴ６４０の処理へ戻る。これにより、切り換え後の音声認識部によって、上記処理を繰り返す。

　以上のように、この実施の形態５によれば、入力された音声をデジタル変換して音声データとして取得する音声取得部１と、音声取得部１が取得した音声データを記憶する音声データ記憶部２と、音声データ記憶部２に記憶された音声データから音声区間を検出し、音声区間の音声データの特徴量を抽出して、抽出した特徴量に基づいて認識辞書を参照して認識処理を行う第１～第Ｍ音声認識部と、第１～第Ｍ音声認識部を切り換える音声認識切換部４と、音声認識切換部４による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する認識制御部５と、認識制御部５が取得してユーザへ提示された認識結果の中から、ユーザによる認識結果の選択を受け付け、ユーザに選択された認識結果を最終的な認識結果として確定する認識結果確定部１５とを備える。このように構成することで、全ての認識処理を行う前に、ユーザが選択し指定した認識結果を最終的な認識結果として確定することができるため、全体の認識処理の時間を短縮できる。

　なお、上記実施の形態１～５では、認識結果を表示部８で表示する場合について示したが、認識結果のユーザへの提示は、表示部８の画面表示に限定されるものではない。例えば、スピーカなどの音声出力装置を用いて認識結果を音声ガイダンスしてもよい。

　また、上記実施の形態１において、本発明に係るナビゲーション装置を、車載用のナビゲーション装置に適用した場合を示したが、車載用のみならず、携帯電話端末または携帯情報端末（ＰＤＡ；Personal Digital Assistance）に適用してもよい。
　さらに、車両、鉄道、船舶または航空機等の移動体に人が携帯して持ち込んで使用されるＰＮＤ（Portable Navigation Device）等に適用してもよい。
　そのほか、上記実施の形態１のみならず、上記実施の形態２～５に係る音声認識装置をナビゲーション装置に適用してもよい。

　なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　この発明に係る音声認識装置は、異なる音声認識処理で得られた認識結果を的確に提示し、かつ認識処理の短縮化を図ることができるので、認識処理の迅速性および認識結果の的確さが要求される車載用ナビゲーション装置の音声認識に好適である。

　１　音声取得部、２，２Ａ　音声データ記憶部、３，３Ａ　音声認識部、４　音声認識切換部、５　認識制御部、６，６Ａ　認識結果選択部、７　認識結果記憶部、８　表示部、９　ナビゲーション処理部、１０　位置検出部、１１　地図データベース（ＤＢ）、１２　入力部、１３　認識結果選択方法変更部、１４　音声区間検出部、１５　認識結果確定部。

Claims

　入力された音声をデジタル変換して音声データとして取得する取得部と、
　前記取得部が取得した音声データを記憶する音声データ記憶部と、
　前記音声データ記憶部に記憶された音声データから音声区間を検出し、前記音声区間の音声データの特徴量を抽出して、前記抽出した特徴量に基づいて認識辞書を参照して認識処理を行う複数の音声認識部と、
　前記複数の音声認識部を切り換える切換部と、
　前記切換部による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する制御部と、
　前記制御部が取得した認識結果の中からユーザへの提示対象の認識結果を選択する選択部とを備えた音声認識装置。
　入力された音声をデジタル変換して音声データとして取得する取得部と、
　前記取得部が取得した音声データからユーザの発話内容に該当する音声区間を検出する音声区間検出部と、
　前記音声区間検出部が検出した音声区間ごとの音声データを記憶する音声データ記憶部と、
　前記音声データ記憶部に記憶された音声データの特徴量を抽出して、前記抽出した特徴量に基づいて認識辞書を参照して認識処理を行う複数の音声認識部と、
　前記複数の音声認識部を切り換える切換部と、
　前記切換部による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する制御部と、
　前記制御部が取得した認識結果の中からユーザへの提示対象の認識結果を選択する選択部とを備えた音声認識装置。
　入力された音声をデジタル変換して音声データとして取得する取得部と、
　前記取得部が取得した音声データを記憶する音声データ記憶部と、
　前記音声データ記憶部に記憶された音声データから音声区間を検出し、前記音声区間の音声データの特徴量を抽出して、前記抽出した特徴量に基づいて認識辞書を参照して認識処理を行う複数の音声認識部と、
　前記複数の音声認識部を切り換える切換部と、
　前記切換部による音声認識部の切り換えを制御して、切り換えられた音声認識部による認識結果を取得する制御部と、
　前記制御部が取得してユーザへ提示された認識結果の中から、ユーザによる認識結果の選択を受け付け、ユーザに選択された認識結果を最終的な認識結果として確定する確定部とを備えた音声認識装置。
　前記制御部が取得した認識結果の中からユーザへの提示対象の認識結果を選択する選択方法の指定を受け付けて、指定された選択方法で前記選択部による認識結果の選択方法を変更する変更部を備えたことを特徴とする請求項１または請求項２記載の音声認識装置。
　前記複数の音声認識部は、それぞれの音声認識部が精度が異なる認識処理を行うことが可能であり、
　前記制御部は、前記音声認識部に対して、認識結果の認識スコアに基づいて認識処理を行う音声認識部を絞り込みながら段階的に精度が上がるように認識処理を行わせることを特徴とする請求項１から請求項４のうちのいずれか１項記載の音声認識装置。
　請求項１から請求項５のうちのいずれか１項記載の音声認識装置を備え、前記音声認識部による認識結果を利用してナビゲーション処理を行うナビゲーション装置。