WO2023062817A1

WO2023062817A1 - 音声認識装置、制御方法、プログラム及び記憶媒体

Info

Publication number: WO2023062817A1
Application number: PCT/JP2021/038224
Authority: WO
Inventors: 敦博山中; 高志飯澤; 敬太倉持; 一聡田中; 洋子阿久津
Original assignee: パイオニア株式会社
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2023-04-20

Abstract

音声認識装置は、情報取得部と、音声認識部と、制御部と、を備える。情報取得部は、車両の運転状況に係る情報である運転状況情報を取得する。音声認識部は、車両の搭乗者による発話内容を認識するための音声認識エンジンを有する。制御部は、運転状況情報に基づき、車両の運転状況が所定の状況に該当することを検知した場合に、音声認識エンジンを起動状態とする。

Description

音声認識装置、制御方法、プログラム及び記憶媒体

　本発明は、音声認識において利用可能な技術に関する。

　ユーザによる発話内容の認識結果に応じた様々な処理を行う音声認識に係る技術が従来知られている。また、音声認識に係る技術は、例えば、特許文献１に開示されているようなスマートスピーカにおいて利用されている。

　特許文献１に開示されているスマートスピーカは、ウェイクワード以外の文言を認識しない待機状態と、マイクにより取得された音声からユーザの要求内容を認識する動作状態と、のうちのいずれかの状態に設定される。また、特許文献１に開示されているスマートスピーカは、ユーザの要求に応じて種々の処理を行った後、動作状態から待機状態へ遷移する。

特開２０２０－１１２６７２号公報

　ここで、特許文献１に開示されている技術によれば、スマートスピーカを待機状態から起動状態に移行させる毎に、ユーザによるウェイクワードの発声が必要となる。

　そのため、特許文献１に開示されている技術によれば、ユーザとスマートスピーカとの間における会話の流れが不自然になるとともに、当該ユーザの発話量がウェイクワードの発声回数に応じて増加するような状況が生じてしまう、という問題点がある。

　すなわち、特許文献１に開示されている技術によれば、音声認識を利用するユーザに対して無用な精神的負担を課してしまう場合がある、という上記の問題点に応じた課題が生じている。

　本発明は、上記の課題を解決するためになされたものであり、音声認識を利用するユーザの精神的負担を軽減することが可能な音声認識装置を提供することを主な目的とする。

　請求項に記載の発明は、音声認識装置であって、車両の運転状況に係る情報である運転状況情報を取得する情報取得部と、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部と、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部と、を備える。

　また、請求項に記載の発明は、制御方法であって、車両の運転状況に係る情報である運転状況情報を取得し、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを起動状態とする。

　また、請求項に記載の発明は、コンピュータを備える音声認識装置により実行されるプログラムであって、車両の運転状況に係る情報である運転状況情報を取得する情報取得部、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部、及び、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部として前記コンピュータを機能させる。

実施例に係る音声出力システムの構成例を示す図。音声出力装置の概略構成を示すブロック図。サーバ装置の概略構成の一例を示す図。サーバ装置において行われる処理を説明するためのフローチャート。

　本発明の１つの好適な実施形態では、音声認識装置は、車両の運転状況に係る情報である運転状況情報を取得する情報取得部と、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部と、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部と、を備える。

　上記の音声認識装置は、情報取得部と、音声認識部と、制御部と、を備える。情報取得部は、車両の運転状況に係る情報である運転状況情報を取得する。音声認識部は、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する。制御部は、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする。これにより、音声認識を利用するユーザの精神的負担を軽減することができる。

　上記の音声認識装置の一態様では、前記制御部は、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動させるために設定された所定の文言を認識したとの認識結果が得られずとも、前記音声認識エンジンを起動状態とする。

　上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記搭乗者が１人であることを検知した場合に、前記音声認識エンジンを起動状態とする。

　上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記搭乗者の視線または顔が前記搭乗者の発話内容を取得するための集音装置に向けられたことを検知した場合に、前記音声認識エンジンを起動状態とする。

　上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記車両の電源が投入されたことを検知した場合に、前記車両の電源投入時から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする。

　上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記搭乗者の発話音量が所定の閾値を超えたことを検知した場合に、前記音声認識エンジンを起動状態とする。

　上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記車両に設けられた音声出力装置によりプッシュ型の発話が行われたことを検知した場合に、当該発話が終了した直後から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする。

　上記の音声認識装置の一態様では、前記制御部は、さらに、前記音声認識エンジンが起動状態になっていることを前記搭乗者に対して知らせるための制御を行う。

　本発明の他の実施形態では、制御方法は、車両の運転状況に係る情報である運転状況情報を取得し、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを起動状態とする。これにより、音声認識を利用するユーザの精神的負担を軽減することができる。

　本発明のさらに他の実施形態では、コンピュータを備える音声認識装置により実行されるプログラムは、車両の運転状況に係る情報である運転状況情報を取得する情報取得部、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部、及び、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部として前記コンピュータを機能させる。このプログラムをコンピュータで実行することにより、上記の音声認識装置を実現することができる。このプログラムは記憶媒体に記憶して使用することができる。

　以下、図面を参照して本発明の好適な実施例について説明する。

　［システム構成］
　（全体構成）
　図１は、実施例に係る音声出力システムの構成例を示す図である。本実施例に係る音声出力システム１は、音声出力装置１００と、サーバ装置２００とを有する。音声出力装置１００は、車両Ｖｅに搭載される。サーバ装置２００は、複数の車両Ｖｅに搭載された複数の音声出力装置１００と通信する。

　音声出力装置１００は、基本的に車両Ｖｅの搭乗者であるユーザに対して、経路探索処理や経路案内処理などを行う。例えば、音声出力装置１００は、ユーザにより目的地等が入力されると、車両Ｖｅの位置情報や指定された目的地に関する情報などを含むアップロード信号Ｓ１をサーバ装置２００に送信する。サーバ装置２００は、地図データを参照して目的地までの経路を算出し、目的地までの経路を示す制御信号Ｓ２を音声出力装置１００へ送信する。音声出力装置１００は、受信した制御信号Ｓ２に基づいて、音声出力によりユーザに対する経路案内を行う。

　また、音声出力装置１００は、ユーザとの対話により各種の情報をユーザに提供する。例えば、音声出力装置１００は、ユーザが情報要求を行うと、その情報要求の内容又は種類を示す情報、及び、車両Ｖｅの走行状態に関する情報などを含むアップロード信号Ｓ１をサーバ装置２００に供給する。サーバ装置２００は、ユーザが要求する情報を取得、生成し、制御信号Ｓ２として音声出力装置１００へ送信する。音声出力装置１００は、受信した情報を、音声出力によりユーザに提供する。

　（音声出力装置）
　音声出力装置１００は、車両Ｖｅと共に移動し、案内経路に沿って車両Ｖｅが走行するように、音声を主とした経路案内を行う。なお、「音声を主とした経路案内」は、案内経路に沿って車両Ｖｅを運転するために必要な情報をユーザが少なくとも音声のみから把握可能な経路案内を指し、音声出力装置１００が現在位置周辺の地図などを補助的に表示することを除外するものではない。本実施例では、音声出力装置１００は、少なくとも、案内が必要な経路上の地点（「案内地点」とも呼ぶ。）など、運転に係る様々な情報を音声により出力する。ここで、案内地点は、例えば車両Ｖｅの右左折を伴う交差点、その他、案内経路に沿って車両Ｖｅが走行するために重要な通過地点が該当する。音声出力装置１００は、例えば、車両Ｖｅから次の案内地点までの距離、当該案内地点での進行方向などの案内地点に関する音声案内を行う。以後では、案内経路に対する案内に関する音声を「経路音声案内」とも呼ぶ。

　音声出力装置１００は、例えば車両Ｖｅのフロントガラスの上部、又は、ダッシュボード上などに取り付けられる。なお、音声出力装置１００は、車両Ｖｅに組み込まれてもよい。

　図２は、音声出力装置１００の概略構成を示すブロック図である。音声出力装置１００は、主に、通信部１１１と、記憶部１１２と、入力部１１３と、制御部１１４と、センサ群１１５と、表示部１１６と、マイク１１７と、スピーカ１１８と、車外カメラ１１９と、車内カメラ１２０と、発光部１３０と、を有する。音声出力装置１００内の各要素は、バスライン１１０を介して相互に接続されている。

　通信部１１１は、制御部１１４の制御に基づき、サーバ装置２００とのデータ通信を行う。通信部１１１は、例えば、後述する地図ＤＢ（ＤａｔａＢａｓｅ）４を更新するための地図データをサーバ装置２００から受信してもよい。

　記憶部１１２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、不揮発性メモリ（ハードディスクドライブ、フラッシュメモリなどを含む）などの各種のメモリにより構成される。記憶部１１２には、音声出力装置１００が所定の処理を実行するためのプログラムが記憶される。上述のプログラムは、経路案内を音声により行うためのアプリケーションプログラム、音楽を再生するためのアプリケーションプログラム、音楽以外のコンテンツ（テレビ等）を出力するためのアプリケーションプログラムなどを含んでもよい。また、記憶部１１２は、制御部１１４の作業メモリとしても使用される。なお、音声出力装置１００が実行するプログラムは、記憶部１２以外の記憶媒体に記憶されてもよい。

　また、記憶部１１２は、地図データベース（以下、データベースを「ＤＢ」と記す。）４を記憶する。地図ＤＢ４には、経路案内に必要な種々のデータが記録されている。地図ＤＢ４は、例えば、道路網をノードとリンクの組合せにより表した道路データ、及び、目的地、立寄地、又はランドマークの候補となる施設を示す施設データなどを記憶している。地図ＤＢ４は、制御部１１４の制御に基づき、通信部１１１が地図管理サーバから受信する地図情報に基づき更新されてもよい。

　入力部１１３は、ユーザが操作するためのボタン、タッチパネル、リモートコントローラ等である。表示部１１６は、制御部１１４の制御に基づき表示を行うディスプレイ等である。マイク１１７は、車両Ｖｅの車内の音声、特に運転手の発話などを集音する。換言すると、マイク１１７は、車両Ｖｅの搭乗者の発話内容を取得する。スピーカ１１８は、運転手などに対して、経路案内のための音声を出力する。

　センサ群１１５は、外界センサ１２１と、内界センサ１２２とを含む。外界センサ１２１は、例えば、ライダ、レーダ、超音波センサ、赤外線センサ、ソナーなどの車両Ｖｅの周辺環境を認識するための１又は複数のセンサである。内界センサ１２２は、車両Ｖｅの測位を行うセンサであり、例えば、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）受信機、ジャイロセンサ、ＩＭＵ（Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、車速センサ、又はこれらの組合せである。なお、センサ群１１５は、制御部１１４がセンサ群１１５の出力から車両Ｖｅの位置を直接的に又は間接的に（即ち推定処理を行うことによって）導出可能なセンサを有していればよい。

　車外カメラ１１９は、車両Ｖｅの外部を撮影するカメラである。車外カメラ１１９は、車両の前方を撮影するフロントカメラのみでもよく、フロントカメラに加えて車両の後方を撮影するリアカメラを含んでもよく、車両Ｖｅの全周囲を撮影可能な全方位カメラであってもよい。一方、車内カメラ１２０は、車両Ｖｅの車内の様子を撮影するカメラであり、少なくとも運転席周辺を撮影可能な位置に設けられる。

　発光部１３０は、例えば、発光素子または照明装置を有している。また、発光部１３０は、制御部１１４の制御に応じて発光状態を変化させることにより、後述の音声認識エンジン２１４ａが待機状態または起動状態のいずれであるかを車両Ｖｅの搭乗者に対して知らせることができるように構成されている。

　制御部１１４は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などを含み、音声出力装置１００の全体を制御する。例えば、制御部１１４は、センサ群１１５の１又は複数のセンサの出力に基づき、車両Ｖｅの位置（進行方向の向きも含む）を推定する。また、制御部１１４は、入力部１１３又はマイク１１７により目的地が指定された場合に、当該目的地までの経路である案内経路を示す経路情報を生成し、当該経路情報と推定した車両Ｖｅの位置情報と地図ＤＢ４とに基づき、経路案内を行う。この場合、制御部１１４は、経路音声案内をスピーカ１１８から出力させる。また、制御部１１４は、表示部１１６を制御することで、再生中の音楽の情報、映像コンテンツ、又は現在位置周辺の地図などの表示を行う。

　なお、制御部１１４が実行する処理は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、制御部１１４が実行する処理は、例えばＦＰＧＡ（field-programmable gate array）又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、制御部１１４が本実施例において実行するプログラムを実現してもよい。このように、制御部１１４は、プロセッサ以外のハードウェアにより実現されてもよい。

　図２に示す音声出力装置１００の構成は一例であり、図２に示す構成に対して種々の変更がなされてもよい。例えば、地図ＤＢ４を記憶部１２が記憶する代わりに、制御部１１４が通信部１１１を介して経路案内に必要な情報をサーバ装置２００から受信してもよい。他の例では、音声出力装置１００は、スピーカ１１８を備える代わりに、音声出力装置１００とは別体に構成された音声出力部と電気的に又は公知の通信手段によって接続することで、当該音声出力部から音声を出力させてもよい。この場合、音声出力部は、車両Ｖｅに備えられたスピーカであってもよい。さらに別の例では、音声出力装置１００は、表示部１１６を備えなくともよい。この場合、音声出力装置１００は、表示に関する制御を全く行わなくともよく、有線又は無線により、車両Ｖｅ等に備えられた表示部と電気的に接続することで、当該表示部に所定の表示を実行させてもよい。同様に、音声出力装置１００は、センサ群１１５を備える代わりに、車両Ｖｅに備え付けられたセンサが出力する情報を、車両ＶｅからＣＡＮ（Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などの通信プロトコルに基づき取得してもよい。

　音声出力装置１００は、センサ群１１５の出力に基づいて車両Ｖｅの運転状況を示す運転状況情報を取得し、サーバ装置２００へ送信する。

　運転状況情報には、マイク１１７により得られた音声が少なくとも含まれている。なお、運転状況情報には、車内カメラ１２０により撮影された画像、または、車両Ｖｅの電源状態を示す情報のいずれかが含まれていてもよい。また、運転状況情報には、例えば、車外カメラ１１９により撮影された画像、車両Ｖｅの位置、当該車両の方位、当該車両Ｖｅの位置の周辺の交通情報（速度規制及び渋滞情報等を含む）、現在時刻、目的地等のような、音声出力装置１００の各部の機能に基づいて取得可能な情報が含まれていてもよい。また、運転状況情報には、通信部１１１を通じてサーバ装置２００から受信した情報が含まれていてもよい。

　（サーバ装置）
　サーバ装置２００は、音声出力装置１００から受信する目的地等を含むアップロード信号Ｓ１に基づき、車両Ｖｅが走行すべき案内経路を示す経路情報を生成する。そして、サーバ装置２００は、その後に音声出力装置１００が送信するアップロード信号Ｓ１が示すユーザの情報要求及び車両Ｖｅの走行状態に基づき、ユーザの情報要求に対する情報出力に関する制御信号Ｓ２を生成する。そして、サーバ装置２００は、生成した制御信号Ｓ２を、音声出力装置１００に送信する。

　さらに、サーバ装置２００は、車両Ｖｅのユーザに対する情報提供やユーザとの対話を行うためのコンテンツを生成し、音声出力装置１００に送信する。ユーザとの対話は、基本的にユーザからの質問や問いかけから開始するプル型の対話である。但し、ユーザとの対話は、プッシュ型のコンテンツ提供から開始する場合もある。

　図３は、サーバ装置２００の概略構成の一例を示す図である。サーバ装置２００は、主に、通信部２１１と、記憶部２１２と、制御部２１４とを有する。サーバ装置２００内の各要素は、バスライン２１０を介して相互に接続されている。

　通信部２１１は、制御部２１４の制御に基づき、音声出力装置１００などの外部装置とのデータ通信を行う。記憶部２１２は、ＲＡＭ、ＲＯＭ、不揮発性メモリ（ハードディスクドライブ、フラッシュメモリなどを含む）などの各種のメモリにより構成される。記憶部２１２は、サーバ装置２００が所定の処理を実行するためのプログラムが記憶される。また、記憶部２１２は、地図ＤＢ４を含んでいる。

　制御部２１４は、ＣＰＵ、ＧＰＵなどを含み、サーバ装置２００の全体を制御する。また、制御部２１４は、記憶部２１２に記憶されたプログラムを実行することで、音声出力装置１００とともに動作し、ユーザに対する経路案内処理や情報提供処理などを実行する。例えば、制御部２１４は、音声出力装置１００から通信部２１１を介して受信するアップロード信号Ｓ１に基づき、案内経路を示す経路情報、又は、ユーザの情報要求に対する情報出力に関する制御信号Ｓ２を生成する。そして、制御部２１４は、生成した制御信号Ｓ２を、通信部２１１により音声出力装置１００に送信する。

　制御部２１４は、通信部２１１を通じて音声出力装置１００から受信した運転状況情報に含まれる音声に基づき、車両Ｖｅの搭乗者による発話内容を認識するための音声認識エンジン２１４ａを有している。また、制御部２１４は、音声認識エンジン２１４ａを起動させるために設定された所定の文言に相当するウェイクワードを認識したとの認識結果が音声認識エンジン２１４ａにより得られた場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。また、制御部２１４は、音声出力装置１００から受信した運転状況情報に基づき、車両Ｖｅの運転状況が所定の状況に該当することを検知した場合に、ウェイクワードを認識したとの認識結果が得られずとも、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。また、制御部２１４は、音声認識エンジン２１４ａが待機状態から起動状態に移行した際に、音声認識エンジン２１４ａが起動状態であることを車両Ｖｅの搭乗者に知らせるための制御信号を音声出力装置１００へ送信する。また、制御部２１４は、音声認識エンジン２１４ａが起動状態である場合に、音声出力装置１００から受信した運転状況情報に含まれる音声に基づき、車両Ｖｅの搭乗者による発話内容の認識結果に応じた様々な処理を行う。また、制御部２１４は、車両Ｖｅの搭乗者による発話内容の認識結果に応じた処理を行った後、音声認識エンジン２１４ａを起動状態から待機状態に移行させる。

　［音声認識エンジンの起動に係る具体例］
　ここで、ウェイクワードの発声以外の方法で音声認識エンジン２１４ａを待機状態から起動状態に移行させる場合の具体例について説明する。

　制御部２１４は、例えば、音声出力装置１００から受信した運転状況情報に含まれる、車内カメラ１２０により撮影された画像に基づき、車両Ｖｅの搭乗者が１人であることを検知した場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。換言すると、制御部２１４は、車両Ｖｅの車内において、搭乗者と音声出力装置１００との間のみでコミュニケーションが行われると推定した場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。

　制御部２１４は、例えば、音声出力装置１００から受信した運転状況情報に含まれる、車内カメラ１２０により撮影された画像に基づき、車両Ｖｅの搭乗者の視線または顔がマイク１１７に向けられたことを検知した場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。換言すると、制御部２１４は、車両Ｖｅの搭乗者が音声出力装置１００を意識していると推定した場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。

　制御部２１４は、例えば、音声出力装置１００から受信した運転状況情報に含まれる、車両Ｖｅの電源状態を示す情報に基づき、当該車両Ｖｅの電源が投入されたことを検知した場合に、当該車両Ｖｅの電源投入時から所定時間ＴＡが経過するまでの間において、音声認識エンジン２１４ａを起動状態とする。換言すると、制御部２１４は、車両Ｖｅの搭乗者が当該車両Ｖｅに乗車した直後から所定時間が経過するまでの間において、音声認識エンジン２１４ａを起動状態とする。なお、前述の所定時間ＴＡは、例えば、１分間として設定されればよい。

　制御部２１４は、例えば、音声出力装置１００から受信した運転状況情報に含まれる、マイク１１７により得られた音声に基づき、車両Ｖｅの搭乗者の発話音量が所定の閾値を超えたことを検知した場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。換言すると、制御部２１４は、人に対する発話とは異なる発話が行われたと推定した場合に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる。

　制御部２１４は、例えば、音声出力装置１００から受信した運転状況情報に含まれる、マイク１１７により得られた音声に基づき、音声出力装置１００によりプッシュ型の発話が行われたことを検知した場合に、当該発話が終了した直後から所定時間ＴＢが経過するまでの間において、音声認識エンジン２１４ａを起動状態とする。換言すると、制御部２１４は、車両Ｖｅの搭乗者が音声出力装置１００によるプッシュ型の発話の内容を聞き返すと推定される期間において、音声認識エンジン２１４ａを起動状態とする。なお、前述の所定時間ＴＢは、例えば、５秒間として設定されればよい。

　本実施例によれば、制御部２１４は、例えば、プッシュ型の発話を行わせるための制御を音声出力装置１００に対して行った直後から所定時間ＴＢが経過するまでの間において、音声認識エンジン２１４ａを起動状態とするようにしてもよい。

　制御部２１４は、音声認識エンジン２１４ａを待機状態から起動状態に移行させた際に、音声認識エンジン２１４ａが起動状態であることを、発光部１３０の発光状態により車両Ｖｅの搭乗者に知らせるための制御信号を音声出力装置１００へ送信する。音声出力装置１００の制御部１１４は、サーバ装置２００から受信した制御信号に基づき、例えば、発光部１３０を点灯または点滅させるための制御を行う。

　または、制御部２１４は、音声認識エンジン２１４ａを待機状態から起動状態に移行させた際に、音声認識エンジン２１４ａが起動状態であることを、スピーカ１１８からの音声出力により車両Ｖｅの搭乗者に知らせるための制御信号を音声出力装置１００へ送信する。音声出力装置１００の制御部１１４は、サーバ装置２００から受信した制御信号に基づき、例えば、「音声認識が使用可能です。」等のようなスクリプトをスピーカ１１８から音声出力させるための制御を行う。

　［処理フロー］
　図４は、サーバ装置において行われる処理を説明するためのフローチャートである。

　まず、音声出力装置１００の制御部１１４は、車両Ｖｅの現在の運転状況に係る運転状況情報を取得し、サーバ装置２００へ送信する。サーバ装置２００は、音声出力装置１００から、運転状況情報を取得する（ステップＳ１１）。

　次に、制御部２１４は、ステップＳ１１により得られた運転状況情報に基づき、車両Ｖｅの運転状況が所定の状況に該当するか否かを判定する（ステップＳ１２）。

　制御部２１４は、車両Ｖｅの運転状況が所定の状況に該当すると判定した場合（ステップＳ１２：ＹＥＳ）に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる（ステップＳ１４）。

　一方、制御部２１４は、車両Ｖｅの運転状況が所定の状況に該当しないと判定した場合（ステップＳ１２：ＮＯ）に、音声認識エンジン２１４ａがウェイクワードを認識したか否かを判定する（ステップＳ１３）。

　制御部２１４は、音声認識エンジン２１４ａがウェイクワードを認識した場合（ステップＳ１３：ＹＥＳ）に、音声認識エンジン２１４ａを待機状態から起動状態に移行させる（ステップＳ１４）。また、制御部２１４は、音声認識エンジン２１４ａがウェイクワードを認識しなかった場合（ステップＳ１３：ＮＯ）には、音声認識エンジン２１４ａを待機状態に維持したまま、図４の一連の処理を終了する。

　制御部２１４は、ステップＳ１４により音声認識エンジン２１４ａを待機状態から起動状態に移行させた際に、音声認識エンジン２１４ａが起動状態であることを車両Ｖｅの搭乗者に報知するための制御信号を音声出力装置１００へ送信する（ステップＳ１５）。

　そして、制御部２１４は、音声認識エンジン２１４ａが起動状態になっている期間中に得られた運転状況情報に含まれる音声に基づき、車両Ｖｅの搭乗者による発話内容の認識結果に応じた処理を行う（ステップＳ１６）。その後、制御部２１４は、音声認識エンジン２１４ａを起動状態から待機状態へ移行させ、図４の一連の処理を終了する。

　本実施例によれば、サーバ装置２００が音声認識装置としての機能を有し、制御部２１４が情報取得部及び音声認識部としての機能を有する。

　以上に述べたように、本実施例に係る音声認識装置によれば、車両Ｖｅの運転状況が所定の状況に該当する場合に、ウェイクワードを発声せずとも、音声認識エンジンを起動状態に設定することができる。そのため、本実施例に係る音声認識装置によれば、音声認識を利用するユーザの精神的負担を軽減することができる。

　なお、上述した実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータである制御部等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記憶媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。

　１００　音声出力装置
　２００　サーバ装置
　１１１、２１１　通信部
　１１２、２１２　記憶部
　１１３　入力部
　１１４、２１４　制御部
　１１５　センサ群
　１１６　表示部
　１１７　マイク
　１１８　スピーカ
　１１９　車外カメラ
　１２０　車内カメラ

Claims

　車両の運転状況に係る情報である運転状況情報を取得する情報取得部と、
　前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部と、
　前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部と、
　を備える音声認識装置。
　前記制御部は、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動させるために設定された所定の文言を認識したとの認識結果が得られずとも、前記音声認識エンジンを起動状態とする請求項１に記載の音声認識装置。
　前記制御部は、前記運転状況情報に基づき、前記搭乗者が１人であることを検知した場合に、前記音声認識エンジンを起動状態とする請求項１に記載の音声認識装置。
　前記制御部は、前記運転状況情報に基づき、前記搭乗者の視線または顔が前記搭乗者の発話内容を取得するための集音装置に向けられたことを検知した場合に、前記音声認識エンジンを起動状態とする請求項１に記載の音声認識装置。
　前記制御部は、前記運転状況情報に基づき、前記車両の電源が投入されたことを検知した場合に、前記車両の電源投入時から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする請求項１に記載の音声認識装置。
　前記制御部は、前記運転状況情報に基づき、前記搭乗者の発話音量が所定の閾値を超えたことを検知した場合に、前記音声認識エンジンを起動状態とする請求項１に記載の音声認識装置。
　前記制御部は、前記運転状況情報に基づき、前記車両に設けられた音声出力装置によりプッシュ型の発話が行われたことを検知した場合に、当該発話が終了した直後から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする請求項１に記載の音声認識装置。
　前記制御部は、さらに、前記音声認識エンジンが起動状態になっていることを前記搭乗者に対して知らせるための制御を行う請求項１乃至７のいずれか一項に記載の音声認識装置。
　車両の運転状況に係る情報である運転状況情報を取得し、
　前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを起動状態とする制御方法。
　コンピュータを備える音声認識装置により実行されるプログラムであって、
　車両の運転状況に係る情報である運転状況情報を取得する情報取得部、
　前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部、及び、
　前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部として前記コンピュータを機能させるプログラム。
　請求項１０に記載のプログラムを記憶した記憶媒体。