WO2015075903A1

WO2015075903A1 - 音声認識装置

Info

Publication number: WO2015075903A1
Application number: PCT/JP2014/005683
Authority: WO
Inventors: 拓郎内藤; 鈴木　大介
Original assignee: 日産自動車株式会社; 株式会社デンソー
Priority date: 2013-11-21
Filing date: 2014-11-12
Publication date: 2015-05-28
Also published as: JP2017015744A

Abstract

　複数の機能を有するマスターユニット（２０）と、ナビ機能を有するナビユニット（４０）とを備え、車載された音声認識システム（１００）である。マスターユニット（２０）は、車室内で発話された音声を電気信号に変換した音声データを第１音声認識辞書（３２）と照合しつつ、音声データをナビユニット（４０）に転送する。ナビユニット（４０）は、マスターユニット（２０）から転送された音声データを第２音声認識辞書（４２）と照合して第２の音声認識結果をマスターユニット（２０）に出力する。マスターユニット（２０）は、第１音声認識辞書（３２）との照合結果である第１の音声認識結果と、第２の音声認識結果とに基づいて、最終認識結果を判定する。

Description

音声認識装置

　本発明は、音声認識装置に関する。

　従来から、車両システム内のメインユニットに搭載されている１つの音声認識エンジンを用いて、ナビゲーション装置、オーディオ装置、エアコン、車両情報のコマンドを認識して機能実行させる技術が知られている。また、近年では、メインユニット内に１つの音声認識エンジンを持ち、ユーザーが発話した音声を電気信号に変換したデータ（以下、発話データ）を音声認識エンジンが認識できなかった場合（例えば住所等を認識できなかった場合）に、該発話データをネットワーク経由で車外センタに送信する技術が知られている（例えば、特許文献１参照）。

国際公開第２００８／０７２４１３号

　特許文献１ではメインユニット内に１つの音声認識エンジンを持ち、全ての音声認識をこの音声認識エンジンで行い、認識できなかった音声についてはネットワーク経由で車外センタにて認識を行うので、通信障害が起きた場合には対応できないことがある。かといって全ての音声認識をこの１つの音声認識エンジンにて行うと音声認識の処理負荷が過大になる。
　そこで、本発明は、外部通信を行わずに、音声認識の処理負荷が過大にならない音声認識装置を提供することを目的とする。

　上記課題を解決するために、本発明の一態様は、第１の機能を有する第１のユニットと、第２の機能を有する第２のユニットとを備える。第１のユニットは、第１の機能に属する語彙を第１の辞書データとして予め格納し、音声データを第１の辞書と照合しつつ、音声データを第２のユニットに転送する。第２のユニットは、第２の機能に属する語彙を第２の辞書データとして予め格納し、第１のユニットから転送された音声データを第２の辞書と照合して第２の音声認識結果を第１のユニットに出力する。第１のユニットは、第１の辞書との照合結果である第１の音声認識結果と第２の音声認識結果とに基づいて、最終認識結果を判定する。

　本発明の一態様によれば、車載され、機能が異なる２つのユニットが、互いに異なる辞書を用いて音声認識処理を分担して行う。これにより、音声認識装置は、車室内でのユーザーの発話を音声認識する際に、外部通信を行わずに、音声認識の処理負荷が過大にならないようにすることができる。

本発明の実施形態に係る音声認識システム１００の構成例を示す概要図である。第１、第２の辞書データの一例を示す図である。音声認識システム１００が行う音声認識処理を示すフローチャート（メインルーチン）である。不可時対応処理１、２を示すフローチャート（サブルーチン）である。本発明の変形例に係る音声認識システム１００Ａの構成例を示す概念図である。本発明の変形例に係る音声認識システム１００Ｂの構成例を示す概念図である。

　次に、本発明の実施形態について図面を参照しつつ説明する。
（構成）
　図１は、本発明の実施形態に係る音声認識システム１００の構成例を示す概要図である。この音声認識システム１００は、例えば、１つ又は複数以上の機能を搭載した複数のユニット（即ち、機器）を備え、自動車等の車室内に配置され（即ち、車載され）、各ユニットが搭載する各機能をユーザーが発話する音声で操作することが可能なシステムである。

　図１に示すように、この音声認識システム１００は、例えば、マイクロフォン（以下、マイク）１０と、複数の機能を有するマスターユニット２０と、ナビゲーション（以下、ナビ）機能を有するナビユニット４０と、スイッチ５０と、音声ライン６０と、転送ライン６５と、信号ライン７０及び通信ライン８０を備える。マイク１０は、例えば車室内に配置されており、ユーザーが発話した音声を集音し、集音した音声を電気信号に変換して音声データを生成する。マイク１０は、例えばダッシュボードに取り付けられている。また、スイッチ５０は、ユーザーによる手動操作を受けて、音声認識開始信号を生成する。スイッチ５０は、例えば、図示しないステアリングホイール（即ち、ハンドル）に取り付けられている。

　マスターユニット２０は、例えば車室内に配置されており、複数のユニットで１つの音声認識システムを構成する際に各ユニット間で各機能の調停を行うユニットである。マスターユニット２０は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　ｄｉｓｋ　ｄｒｉｖｅ）等の記憶装置と、液晶表示装置又は有機エレクトロルミネッセンスディスプレイ等の表示装置と、外部と通信するためのアンテナ等のハードウェアで構成されている。
　また、マスターユニット２０は、その機能部として、例えばオーディオ機能部２１と、画面表示機能部２２と、電話機能部２３と、車両連携機能部２４と、第１音声認識処理部３１と、音声認識結果判定部３４と、音声認識結果採用部３５と、機能実行指示部３６と、を有する。

　オーディオ機能部２１は、例えば、ラジオ放送やテレビジョン放送の受信、マスターユニット２０に装入するコンパクトディスク（ＣＤ）、フラッシュメモリ、又は、マスターユニット２０が内蔵する記憶装置に格納した音楽データや映像データを再生出力する機能を有する。画面表示機能部２２は、例えば、上記の表示装置に各種情報（例えば、オーディオ機能に関する情報や、電話機能に関する情報等）を表示する機能を有する。電話機能部２３は、電話機能（例えば、無線で電話基地局に接続し、電話回線を通じて離れた場所にいる相手方と車室内のユーザーとが互いに会話する機能）を有する。車両連携機能部２４は、車両連携機能（例えば、エンジンの出力制御など、車両制御と連携する機能）を有する。

　また、第１音声認識処理部３１は、マイク１０から音声ライン６０を通して取得した音声データを認識しつつ、この音声データを転送ライン６５を通してナビユニット４０に転送する機能を有する。この機能を実現するために、第１音声認識処理部３１は、例えば、第１の辞書データを格納する第１音声認識辞書３２と、音声データを第１音声認識辞書３２と照合して第１の音声認識結果を出力する第１音声認識エンジン３３とを有する。

　第１の辞書データは、マスターユニット２０の各機能（例えば、オーディオ機能、画面表示機能、電話機能及び車両連携機能）の何れか一つに属する（即ち、関係する）複数の語彙と、ナビユニット４０のナビ機能に属する複数の語彙とを含む。例えば図２（ａ）に示すように、第１の辞書データとして、オーディオ機能に属する複数の語彙「オーディオ」「音楽」「○○○（アーティスト名）」「Ｐｌａｙ　Ａｒｔｉｓｔ」等、電話機能に属する複数の語彙「電話」「Ｃａｌｌ」、ナビ機能に属する複数の語彙「ナビ」「目的地設定」等を第１音声認識辞書３２に格納しておく。第１の辞書データとして第１音声認識辞書３２に格納する語彙は、例えば日本語、英語、ドイツ語、フランス語、中国語など任意の言語である。

　音声認識結果判定部３４は、例えば、第１音声認識処理部３１から取得する第１の音声認識結果に基づいて、第１音声認識処理部３１による音声認識処理の成否を判定する機能を有する。また、音声認識結果判定部３４は、第１音声認識処理部３１による音声認識処理が成功と判定した場合は、その内容がマスターユニット２０が有する各機能（例えば、オーディオ機能、画面表示機能、電話機能又は車両連携機能等）に属するのか、ナビユニット４０が有するナビ機能に属するのかを判定する機能を有する。
　また、音声認識結果判定部３４は、例えば、第２音声認識処理部４１から取得する第２の音声認識結果に基づいて、第２音声認識処理部４１による音声認識処理の成否を判定する機能を有する。そして、音声認識結果判定部３４は、第１の音声認識結果と第２の音声認識結果とに基づいて、最終認識結果を判定する（即ち、音声認識装置としての最終的な音声認識結果を決定する）機能を有する。

　音声認識結果採用部３５は、音声認識結果判定部３４による判定結果に基づいて、第１の音声認識結果及び第２の音声認識結果の何れか一方を採用する機能を有する。機能実行指示部３６は、音声認識結果採用部３５により採用された第１又は第２の音声認識結果に基づいて、オーディオ機能部２１、画面表示機能部２２、電話機能部２３、車両連携機能部２４又はナビ機能部４４に各種処理の実行を指示する機能を有する。
　また、マスターユニット２０と同様、ナビユニット４０も車室内に配置されている。ナビユニット４０は、例えばＣＰＵと、ＲＡＭ、ＲＯＭ等の記憶装置と、液晶表示装置又は有機エレクトロルミネッセンスディスプレイ等の表示装置と、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）信号等を受信するためのアンテナ等のハードウェアで構成されている。

　また、ナビユニット４０は、その機能部として、例えば、自車両の現在地を示すと共に、ユーザーが設定することにより自車両を目的地に案内するためのナビ機能部４４と、第１音声認識処理部３１から転送ライン６５を通して転送された音声データを認識するための第２音声認識処理部４１と、を有する。第２音声認識処理部４１は、例えば、第２の辞書データを格納する第２音声認識辞書４２と、マスターユニット２０から転送された音声データを第２音声認識辞書４２と照合して第２の音声認識結果をマスターユニット２０に出力する第２音声認識エンジン４３と、を有する。

　第２の辞書データは、ナビユニット４０のナビ機能に属する複数の語彙を含む。例えば図２（ｂ）に示すように、ナビユニット４０のナビ機能に属する複数の語彙を第２音声認識辞書４２に格納しておく。ここで、ナビ機能に属する語彙について、第２音声認識辞書４２には第１音声認識辞書３２と比べて、より多くの語彙を格納しておく。即ち、第１の辞書データよりも第２の辞書データの方が、ナビ機能に属する語彙の情報量が大きい。例えば、第１音声認識辞書３２に格納するナビ機能に属する語彙は、「ナビ」「目的地」など、ユーザーが発話するコマンドの接頭語のみである。これに対して、第２音声認識辞書４２に格納するナビ機能に属する語彙は、「ナビ」「目的地」などコマンドの接頭語のほかに、「神奈川県厚木市○○○」等の都道府県名、市町村名、住所、「△△△」駅等の施設の名称、「×××通り」等のストリート名など、より詳細な語彙も格納しておく。なお、第２の辞書データとして第２音声認識辞書４２に格納する語彙も、例えば日本語、英語、ドイツ語、フランス語、中国語など任意の言語である。

　音声ライン６０は、マイク１０からマスターユニット２０へ音声データを送信するための経路である。転送ライン６５は、第１音声認識処理部３１がナビユニット４０に音声データを転送するための経路である。信号ライン７０は、スイッチ５０からマスターユニット２０及びナビユニット４０へそれぞれ音声認識開始信号を送信するための経路である。通信ライン８０は、マスターユニット２０とナビユニット４０との間で通信するための経路である。音声ライン６０、信号ライン７０及び通信ライン８０は有線又は無線のどちらでもよい。なお、通信ライン８０を介した通信方法として、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）通信又はＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）通信などが挙げられる。

　次に、音声認識システム１００が行う処理について説明する。
　図３は、音声認識システム１００が行う音声認識処理を示すフローチャート（メインルーチン）である。なお、図３において、ステップＳ１０ｂ、２０ｂ、３０ｂ、４０ｂの各処理は、例えばナビユニット４０が行う。図３において、上記以外の他のステップの各処理は、例えばマスターユニット２０が行う。
　まず始めに、図３に示すように、ユーザーはステアリングホイール等に取り付けられているスイッチ５０を操作して、音声認識システム１００に音声認識の開始を通知する。これにより、マスターユニット２０及びナビユニット４０はそれぞれ、音声認識処理を開始する（ステップＳ１０ａ、１０ｂ）。
　次に、ユーザーが発話すると、マイク１０は音声を集音し、これを電気信号に変換して音声データを生成する。マスターユニット２０は、この生成した音声データを音声ライン６０を介して取得する（ステップＳ２０ａ）。

　次に、この取得した音声データについて、マスターユニット２０の第１音声認識処理部３１は音声認識処理を行う（ステップＳ３０ａ）。即ち、第１音声認識エンジン３３は、取得した音声データを第１音声認識辞書３２と照合する。また、この第１音声認識辞書３２による照合動作と前後して、或いは並行して、第１音声認識処理部３１は、音声データを転送ライン６５を通してナビユニット４０の第２音声認識処理部４１に転送する（ステップＳ３０ａ）。第２音声認識処理部４１は、転送された音声データを受信し、取得する（ステップＳ２０ｂ）。第２音声認識エンジン４３は、取得した音声データを第２音声認識辞書４２と照合する（ステップＳ３０ｂ）。

　この音声認識処理ついて、ユーザーがナビ機能に関して発話した場合を想定して説明する。まず、第１音声認識辞書３２が行う音声認識処理について説明する。
　例えば図２（ａ）に示したように、第１音声認識辞書３２は、第１の辞書データとして、マスターユニット２０の各機能（例えば、オーディオ機能、画面表示機能、電話機能及び車両連携機能）に属する複数の語彙と、ナビユニット４０のナビ機能に属する複数の語彙（例えば、発話の接頭語）とを格納している。ユーザーが例えば「目的地設定　神奈川県厚木市○○○」と連続発話した場合、第１音声認識エンジン３３は、この連続発話を電気信号に変換した音声データを第１音声認識辞書３２と照合する。ここでは、音声データに含まれる「目的地設定」が、第１の辞書データの「目的地設定」と一致するため、第１音声認識エンジン３３は連続発話の一部である「目的地設定」を音声認識することができる。第１音声認識処理部３１は、この認識結果（即ち、第１の音声認識結果）を音声認識結果判定部３４に出力する（ステップＳ４０ａ）。

　また、例えば図２（ｂ）に示すように、第２音声認識辞書４２は、第２の辞書データとして、ナビユニット４０のナビ機能に属する複数の語彙（例えば、コマンドの接頭語、都道府県名、市町村名、住所、施設の名称、ストリート、交差点の名称等）を格納している。
　上述したように、ユーザーが例えば「目的地設定　神奈川県厚木市○○○」と連続発話した場合、この連続発話を電気信号に変換した音声データはマスターユニット２０からナビユニット４０に転送される。第２音声認識エンジン４３は、この転送されてきた音声データを第２音声認識辞書４２と照合する。ここでは、音声データに含まれる「目的地設定」、「神奈川県厚木市○○○」と、第２の辞書データの「目的地設定」、「神奈川県厚木市○○○」がそれぞれ一致するため、第２音声認識エンジン４３は連続発話「目的地設定　神奈川県厚木市○○○」を全て音声認識することができる。第２音声認識処理部４１は、この認識結果（即ち、第２の音声認識結果）を、通信ライン８０を介して、マスターユニット２０が有する音声認識結果判定部３４に出力する（ステップＳ４０ｂ）。

　次に、音声認識結果判定部３４は、取得した第１の音声認識結果に基づいて、第１音声認識処理部３１による音声認識処理の成否（即ち、音声データの少なくとも一部を認識できたか否か）を判定する（ステップＳ５０）。例えば、第１音声認識エンジン３３が連続発話の一部である「目的地設定」を認識できた場合、音声認識結果判定部３４は第１音声認識処理部３１による音声認識処理が成功したと判定する。また、第１音声認識エンジン３３が連続発話を全く認識できなかった場合、音声認識結果判定部３４は第１音声認識処理部３１による音声認識処理が不可であったと判定する。音声認識結果判定部３４が第１音声認識処理部３１による音声認識処理が成功したと判定した場合はステップＳ６０へ進み、不可であったと判定した場合はステップＳ１００へ進む。

　ステップＳ６０では、音声認識結果判定部３４は、取得した第２の音声認識結果に基づいて、第２音声認識処理部４１による音声認識処理の成否を判定する。例えば、第２音声認識エンジン４３が、連続発話「目的地設定　神奈川県厚木市○○○」を認識できた場合、音声認識結果判定部３４は第２音声認識処理部４１による音声認識処理が成功したと判定する。また、第２音声認識エンジン４３が連続発話を全く認識できなかった場合、音声認識結果判定部３４は第２音声認識処理部４１による音声認識処理が不可であったと判定する。音声認識結果判定部３４が第２音声認識処理部４１による音声認識処理が成功したと判定した場合はステップＳ７０へ進み、不可であったと判定した場合はステップＳ１１０へ進む。

　ステップＳ７０では、音声認識結果判定部３４が、第１の音声認識結果及び第２の音声認識結果の少なくとも一方に基づいて、発話の内容がマスターユニット２０の各機能又はナビ機能のどちらに属するかを判定する。ここでは、例えば第１の音声認識結果の内容及び第２の音声認識結果の内容が双方ともナビ機能に属するため、音声認識結果判定部３４は発話内容がナビユニット４０のナビ機能に属すると判定する。
　この判定を受けて、音声認識結果採用部３５は、ナビユニット４０の第２音声認識処理部４１が出力した第２の音声認識結果を採用する（ステップＳ８０）。

　なお、第２音声認識辞書４２が格納している第２の辞書データが例えばナビ機能に属する語彙に限定されている場合、音声認識結果判定部３４は、第２音声認識処理部４１による音声認識が成功したことのみに基づいて、第２の音声認識結果を採用してもよい。この場合、音声認識結果判定部３４は、第１の音声認識結果の内容を確認する必要がないので、音声認識システム１００における音声認識処理をより高速化できる可能性がある。

　また、ステップＳ７０で、音声認識結果判定部３４が第１の音声認識結果に基づいて発話の内容がマスターユニット２０の各機能に属すると判定した場合は、ステップＳ９０に進む。ステップＳ９０では、音声認識結果採用部３５は、第１の音声認識結果を採用する。
　ステップＳ８０又はステップＳ９０の後、例えば、所定時間が経過するまでの間にマイク１０が集音した場合、又は、ユーザーがスイッチ５０を操作して音声認識システム１００に音声認識の開始を通知した場合は、ステップＳ１０ａ、１０ｂに戻って、音声認識処理を再度開始する。また、上記以外の場合は、例えば、音声認識処理を終了する。

　次に、ステップＳ１００、Ｓ１１０の各処理について説明する。
　図４（ａ）は、音声認識システム１００がステップＳ１００で行う不可時対応処理１を示すフローチャート（サブルーチン）である。図４（ａ）に示すように、ステップＳ１００の不可時対応処理１は、例えば、ステップＳ１０１、Ｓ１０２、Ｓ１０３からなる。
　ステップＳ１０１では、音声認識結果判定部３４は、取得した第２の音声認識結果に基づいて、第２音声認識処理部４１による音声認識処理の成否を判定する。例えば、ステップＳ１０１では、音声認識結果判定部３４はステップＳ６０と同様の処理を行う。音声認識結果判定部３４が第２音声認識処理部４１による音声認識処理が成功したと判定した場合はステップＳ１０２へ進み、不可であったと判定した場合はステップＳ１０３へ進む。

　ステップＳ１０２では、音声認識結果採用部３５は、第２音声認識処理部４１が出力した第２の音声認識結果を採用する。また、ステップＳ１０３では、音声認識結果採用部３５は、例えば、音声を認識できない旨を音声認識システム１００が有する表示装置等に表示し、又は予め録音した音声等で通知する。或いは、音声認識結果採用部３５は、音声を認識できない旨に続いて、再度の発話を促す旨、例えば「もう一度指示してください」を上記表示装置等に表示し、又は予め録音した音声で通知してもよい。音声認識結果採用部３５は、上記旨を表示装置で表示すると共に、音声で通知してもよい。これらの表示又は通知の少なくとも一方を受けて、ユーザーは、音声認識システム１００の各機能の実行を指示するコマンドを再び発話し、又は、この指示を意図する連続発話を再びすることができる。

　図４（ｂ）は、音声認識システム１００がステップＳ１１０で行う不可時対応処理２を示すフローチャート（サブルーチン）である。図４（ｂ）に示すように、不可時対応処理２は、例えば、ステップＳ１１１、Ｓ１１２、Ｓ１１３からなる。
　ステップＳ１１１では、音声認識結果判定部３４が、第１の音声認識結果に基づいて、発話の内容がマスターユニット２０の各機能又はナビ機能のどちらに属するかを判定する。第１の音声認識結果の内容がマスターユニット２０の各機能に属する場合はステップＳ１１２へ進み、音声認識結果採用部３５は、第１音声認識処理部３１が出力した第１の音声認識結果を採用する。また、第１の音声認識結果の内容がナビユニット４０のナビ機能に属する場合はステップＳ１１３へ進む。ステップＳ１１３では、音声認識結果採用部３５は、目的地設定に関して再度の発話を促す旨、例えば「目的地をもう一度言ってください」を表示装置等に表示し、又は予め録音した音声で通知する。この場合も、音声認識結果採用部３５は、表示装置での表示と音声による通知の両方を行ってもよい。

　図３又は図４（ａ）及び（ｂ）の各フローチャートに沿って、音声認識結果採用部３５が第１の音声認識結果又は第２の音声認識結果を採用した後は、採用した第１の音声認識結果又は第２の音声認識結果に対応するコマンドを機能実行指示部３６が各機能部に送信する。コマンドの送信先は、第１の音声認識結果を採用した場合はマスターユニット２０のオーディオ機能部２１、画面表示機能部２２、電話機能部２３又は車両連携機能部２４であり、第２の音声認識結果を採用した場合はナビユニット４０のナビ機能部４４である。
　例えば、音声認識結果採用部３５が第２の音声認識結果として、ユーザーによる連続発話「目的地設定　神奈川県厚木市○○○」を認識した場合、機能実行指示部３６はナビユニット４０のナビ機能部４４に「神奈川県厚木市○○○」を目的地とするコマンドを送信する。このコマンドを受けて、ナビ機能部４４は「神奈川県厚木市○○○」を目的地とするナビ機能を実行する。

（動作）
　次に、実施形態の動作例について説明する。
　例えば、ユーザーが音声認識システム１００のナビ機能を動作させる場合を想定する。この場合、ユーザーは、コマンドを発話する前に、ステアリングホイールに取り付けられているスイッチ５０を操作して、音声認識システム１００に音声認識の開始を通知する。これを受けて、マスターユニット２０とナビユニット４０はそれぞれ音声認識処理を開始する。

　ユーザーは、スイッチ５０を操作した後で、「目的地設定」→「神奈川県厚木市○○○」とコマンドを発話する。或いは、「目的地設定　神奈川県厚木市○○○」と連続発話してもよい。すると、マイク１０がこの発話を集音して音声データに変換し、音声データをマスターユニット２０に送信する。そして、マスターユニット２０の第１音声認識処理部３１は、発話の一部であって第１の辞書データにある語彙「目的地設定」だけを認識する（第１の辞書データには無い「神奈川県厚木市○○○」は認識しない。）。マスターユニット２０は、この第１音声認識処理部３１による音声認識の結果を第１の音声認識結果とする。また、第１音声認識処理部３１は、音声データをナビユニット４０に転送する。

　ナビユニット４０の第２音声認識処理部４１は、第２の辞書データにある語彙「目的地設定」、「神奈川県厚木市○○○」を両方とも認識する。そして、ナビユニット４０は、この音声認識の結果（即ち、第２の音声認識結果）と、必要なパラメータ（例えば、ナビユニット４０で音声認識した結果をマスターユニット２０に認識させるための設定値等）とを通信ライン８０を介してマスターユニット２０に送信する。

　マスターユニット２０は、第１の音声認識結果及び第２の音声認識結果の何れにも「目的地設定」が含まれていることから、ユーザーが発話した内容はナビ機能に属するものと認識する。この結果を受けて、マスターユニット２０はナビ機能に関してより多くの語彙を含む第２の音声認識結果を採用して、ナビユニット４０にナビ機能の実行を指示する。
　即ち、マスターユニット２０は、ナビユニット４０に「神奈川県厚木市○○○」を目的地とするナビ機能の実行を指示する。ナビユニット４０は、この指示を受けて、「神奈川県厚木市○○○」を目的地とするナビ機能を実行する。

　この実施形態では、マスターユニット２０が第１のユニットに対応し、マスターユニット２０の各機能（例えば、オーディオ機能、画面表示機能、電話機能及び車両連携機能）が第１の機能に対応している。また、ナビユニット４０が第２のユニットに対応し、ナビ機能が第２の機能に対応している。さらに、第１音声認識処理部３１が第１の音声認識処理部に対応し、第１音声認識辞書３２が第１の辞書に対応している。また、第２音声認識処理部４１が第２の音声認識処理部に対応し、第２音声認識辞書４２が第２の辞書に対応している。さらに、音声認識システム１００が音声認識装置に対応している。

（実施形態の効果）
　実施形態は、次のような効果を奏する。
（１）音声認識システム１００は、車載され複数の機能を有するマスターユニット２０と、車載されナビ機能を有するナビユニット４０とを備える。車室内でユーザーが発話した音声に、マスターユニット２０の各機能又はナビ機能に関係する言葉が含まれている場合、マスターユニット２０の第１音声認識処理部３１は第１音声認識辞書３２を用いて音声認識処理を行い、ナビユニット４０の第２音声認識処理部４１は第２音声認識辞書４２を用いて音声認識処理を行う。第１音声認識辞書３２にはマスターユニット２０の各機能に属する語彙が予め格納され、第２音声認識辞書４２にはナビ機能に属する語彙が予め格納されている。このように、音声認識システム１００では、車載され、機能が異なる２つのユニットが、互いに異なる辞書を用いて音声認識処理を分担して行う。これにより、音声認識システム１００は、車室内でのユーザーの発話を音声認識する際に、外部通信を行わずに、音声認識の処理負荷が過大にならないようにすることができる。

（２）また、第１音声認識処理部３１と第２音声認識処理部４１は、例えば同期して、同一の音声データを第１音声認識辞書３２及び第２音声認識辞書４２とそれぞれ照合する。これにより、ユーザーが発話した音声にマスターユニット２０の各機能又はナビ機能に関係する言葉が含まれている場合、音声認識システム１００は、第１音声認識処理部３１が出力する第１の音声認識結果及び第２音声認識処理部４１が出力する第２の音声認識結果の何れか一方を採用することによって、その音声を認識することができる。従って、ユーザーがユニットを指定しないでコマンドを発話したり連続発話した場合でも、音声認識システム１００は、その発話を音声認識することができる。

（３）上述したように、第１音声認識処理部３１は、第１の辞書データとして、マスターユニット２０の各機能に属する語彙だけでなく、ナビ機能に属する語彙も格納している。このため、ナビユニット４０からマスターユニット２０に向けて音声認識に必要な辞書データ（例えば、第２の辞書データ等）を送信する必要がなく、音声認識処理の所要時間を短縮することができる。よって、音声認識処理を高速化することができる。
　例えば、第２音声認識辞書４２に格納する第２の辞書データは、県、市、町の名称、施設のジャンル、施設の名称、交差点の名称、ストリートの名称等々、地図データに依存する読み込み専用データである。これらのデータ量は非常に大きく、例えば１ギガバイト以上ある。これらの情報を例えばＵＳＢ通信で送信する場合、例えば十数分の時間を要する。これに対して、本実施形態では、上記のような大容量の辞書データを送受信する必要はないので、音声認識処理の所要時間を短縮することができる。

（４）マスターユニット２０は音声認識結果判定部３４を有する。音声認識結果判定部３４は、発話の内容がマスターユニット２０の各機能又はナビ機能のどちらに属するかを判定する（例えば、ステップＳ７０）。この判定はマスターユニット２０内で行うことができる。マスターユニット２０は、この判定を行うために第１の音声認識結果を外部へ送信したり、判定結果を外部から受信したりする必要はない。このため、音声認識処理の所要時間をさらに短縮することができる。

（５）マスターユニット２０は音声認識結果採用部３５を有する。第１音声認識処理部３１、第２音声認識処理部４１がそれぞれ音声データの少なくとも一部を認識した場合（例えば、ステップＳ５０、Ｓ６０がそれぞれＹｅｓの場合）、音声認識結果採用部３５は、音声認識結果判定部３４の判定結果に基づいて（即ち、発話の内容を判定材料として）、第１、第２の音声認識結果の何れか一方を採用する。ここで、第１の辞書データよりも第２の辞書データの方が、ナビ機能に属する語彙の情報量が大きい。これにより、音声認識結果採用部３５は、第１、第２の音声認識結果のうち、発話の内容と一致する可能性がある語彙をより多く含む辞書と照合することによって出力した音声認識結果を、音声認識システム１００における音声認識結果として採用することができる。

（６）音声認識結果採用部３５は、第１音声認識処理部３１が音声データを認識し、且つ第２音声認識処理部４１が音声データを認識しない場合は第１の音声認識結果を採用する（例えば、ステップＳ１１０）。また、音声認識結果採用部３５は、第１音声認識処理部３１が音声データを認識せず、且つ第２音声認識処理部４１が音声データを認識する場合は第２の音声認識結果を採用する（例えば、ステップＳ１００）。このように、第１音声認識処理部３１及び第２音声認識処理部４１の何れか一方が音声データを認識しなかった場合でも、その他方が音声データを認識した場合は、該他方が出力する音声認識結果を採用する。これにより、音声認識システム１００は、音声認識結果を出力できる可能性を高めることができる。

（７）マスターユニット２０は、音声認識結果採用部３５が採用した第１、第２の音声認識結果の何れか一方に従って、マスターユニット２０の各機能部（例えば、オーディオ機能部２１、画面表示機能部２２、電話機能部２３若しくは車両連携機能部２４）、又は、ナビユニット４０のナビ機能部４４に各種処理の実行を指示する機能実行指示部３６を有する。これにより、マスターユニット２０の各機能や、ナビユニット４０のナビ機能をそれぞれ音声で操作することができる。

（変形例）
（１）上記の実施形態では、第２のユニットとしてナビユニット４０を例示した。しかしながら、第２のユニットはナビユニットに限定されるものではない。第２のユニットは、例えば、第２音声認識処理部と、オーディオ機能部とを有するオーディオユニットでもよい。
　図５は、本発明の変形例に係る音声認識システム１００Ａの構成例を示す概念図である。図５に示すように、音声認識システム１００Ａは、第２のユニットとして、ナビユニット４０の代わりにオーディオユニット４０Ａを有する。オーディオユニット４０Ａは、第２音声認識処理部４１Ａとオーディオ機能部２１とを有する。また、第２音声認識処理部４１Ａは、第２音声認識辞書４２Ａと、第２音声認識エンジン４３Ａとを有する。第２音声認識辞書４２Ａには、第２の辞書データとして、図２（ａ）に示したようなオーディオ機能に属する複数の語彙を予め格納しておく。

　また、マスターユニット２０は、オーディオ機能部に代えて、ナビ機能部４４を有する。マスターユニット２０が有する第１音声認識辞書３２には、第１の辞書データとして、コマンドの接頭語となる「Ｐｌａｙ　Ａｒｔｉｓｔ」など、オーディオ機能に属する複数の語彙を予め格納しておく。
　このような構成であれば、例えば、ユーザーが音声で選曲操作を行う場合、ユーザーが発話するコマンド「Ｐｌａｙ　Ａｒｔｉｓｔ」→「○○○（アーティスト名）」のうちの接頭語「Ｐｌａｙ　Ａｒｔｉｓｉｔ」だけをマスターユニット２０は認識することができる。或いは、ユーザーによる連続発話「Ｐｌａｙ　Ａｒｔｉｓｔ　○○○（アーティスト名）」のうち「Ｐｌａｙ　Ａｒｔｉｓｉｔ」だけをマスターユニット２０は認識することができる。このように、第２のユニットがオーディオユニット４０Ａの場合でも、音声認識システム１００Ａは図３に示した各ステップを実行できる。従って、変形例（１）も上記の実施形態の効果（１）～（７）と同様の効果を奏する。
　変形例（１）では、オーディオユニット４０Ａが第２のユニットに対応し、オーディオ機能が第２の機能に対応している。また、音声認識システム１００Ａが音声認識装置に対応している。

（２）上記の実施形態では、第２のユニットが一つの場合について例示した。しかしながら、第２のユニットは一つに限定されず、複数でもよい。例えば、第２のユニットは、実施形態で説明したナビユニット４０と、変形例（１）で説明したオーディオユニット４０Ａの両方でもよい。
　図６は、本発明の変形例に係る音声認識システム１００Ｂの構成例を示す概念図である。図６に示すように、音声認識システム１００Ｂは、第２のユニットとして、ナビユニット４０及びオーディオユニット４０Ａを有する。マスターユニット２０とナビユニット４０との間、及び、マスターユニット２０とオーディオユニット４０Ａとの間はそれぞれ転送ライン６５及び通信ライン８０で接続されている。また、スイッチ５０とナビユニット４０との間、及び、スイッチ５０とオーディオユニット４０Ａとの間はそれぞれ信号ライン７０で接続されている。

　このような構成であっても、音声認識システム１００Ｂは図３に示した各ステップを実行できる。即ち、ナビユニット４０及びオーディオユニット４０Ａはそれぞれ、図３のステップＳ１０ｂ、Ｓ２０ｂ、Ｓ３０ｂ、Ｓ４０ｂを実行できる。従って、変形例（２）も上記の実施形態の効果（１）～（７）と同様の効果を奏する。
　変形例（２）では、ナビユニット４０とオーディオユニット４０Ａがそれぞれ第２のユニットに対応し、ナビ機能とオーディオ機能がそれぞれ第２の機能に対応している。また、音声認識システム１００Ｂが音声認識装置に対応している。

　以上、本願が優先権を主張する日本国特許出願２０１３－２４１０６５（２０１３年１１月２１日出願）の全内容は、参照により本開示の一部をなす。
　ここでは、限られた数の実施形態を参照しながら説明したが、権利範囲はそれらに限定されるものではなく、上記の開示に基づく各実施形態の改変は当業者にとって自明なことである。

１０　マイクロフォン
２０　マスターユニット
２１　オーディオ機能部
２２　画面表示機能部
２３　電話機能部
２４　車両連携機能部
３１　第１音声認識処理部
３２　第１音声認識辞書
３３　第１音声認識エンジン
３４　音声認識結果判定部
３５　音声認識結果採用部
３６　機能実行指示部
４０　ナビユニット
４０Ａ　オーディオユニット
４１、４１Ａ　第２音声認識処理部
４２、４２Ａ　第２音声認識辞書
４３、４３Ａ　第２音声認識エンジン
４４　ナビ機能部
５０　スイッチ
６０　音声ライン
７０　信号ライン
８０　通信ライン
１００、１００Ａ、１００Ｂ　音声認識システム

Claims

　第１の機能を有する第１のユニットと、前記第１の機能とは異なる第２の機能を有する第２のユニットとを備え、車載された音声認識装置であって、
　前記第１のユニットは、前記第１の機能に属する語彙を第１の辞書データとして第１の辞書に予め格納し、車室内で発話された音声を電気信号に変換した音声データを前記第１の辞書と照合しつつ、前記音声データを第２のユニットに転送する第１の音声認識処理部を有し、
　前記第２のユニットは、前記第２の機能に属する語彙を第２の辞書データとして第２の辞書に予め格納し、前記第１のユニットから転送された前記音声データを前記第２の辞書と照合して第２の音声認識結果を前記第１のユニットに出力する第２の音声認識処理部を有し、
　前記第１のユニットは、前記第１の辞書との照合結果である第１の音声認識結果と、前記第２の音声認識結果とに基づいて、最終認識結果を判定する音声認識結果判定部を有することを特徴とする音声認識装置。
　前記音声認識結果判定部は、
　前記第１の音声認識結果及び前記第２の音声認識結果の少なくとも一方に基づいて、前記発話の内容が前記第１の機能又は前記第２の機能のどちらに属するかを判定することを特徴とする請求項１に記載の音声認識装置。
　前記第１のユニットは、
　前記音声認識結果判定部による判定結果に基づいて、前記第１の音声認識結果及び前記第２の音声認識結果の何れか一方を採用する音声認識結果採用部、をさらに有し、
　前記第１の辞書データは前記第２の機能に属する語彙を含み、かつ前記第１の辞書データよりも前記第２の辞書データの方が、前記２の機能に属する語彙の情報量が大きく、
　前記音声認識結果採用部は、前記第１の音声認識処理部及び前記第２の音声認識処理部がそれぞれ前記音声データの少なくとも一部を認識した場合であって、前記音声認識結果判定部が前記発話の内容が前記第１の機能に属すると判定したときは前記第１の音声認識結果を採用し、前記発話の内容が前記第２の機能に属すると判定したときは前記第２の音声認識結果を採用することを特徴とする請求項２に記載の音声認識装置。
　前記音声認識結果採用部は、
　前記第１の音声認識処理部が前記音声データを認識し、且つ前記第２の音声認識処理部が前記音声データを認識しない場合は前記第１の音声認識結果を採用し、
　前記第１の音声認識処理部が前記音声データを認識せず、且つ前記第２の音声認識処理部が前記音声データを認識する場合は前記第２の音声認識結果を採用することを特徴とする請求項３に記載の音声認識装置。
　前記第１のユニットは、
　前記音声認識結果採用部が採用した前記第１の音声認識結果及び前記第２の音声認識結果の何れか一方に従って、該第１のユニットに前記第１の機能の実行を指示し、又は、前記第２のユニットに前記第２の機能の実行を指示する機能実行指示部、をさらに有することを特徴とする請求項３又は請求項４に記載の音声認識装置。