WO2024029192A1

WO2024029192A1 - 音声コマンド受付装置、および音声コマンド受付方法

Info

Publication number: WO2024029192A1
Application number: PCT/JP2023/021310
Authority: WO
Inventors: 領平須永
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2022-08-03
Filing date: 2023-06-08
Publication date: 2024-02-08

Abstract

音声コマンド受付装置は、音声コマンドを受け付ける音声コマンド受付部と、音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、を備え、音声コマンド受付部は、音声コマンドを発話する人物が使用する言語が音声コマンドとして使用可能な言語であると判断した場合は、音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、音声コマンドを発話する人物が使用する言語が音声コマンドとして使用可能な言語ではないと判断した場合は、音声コマンド受付部が取得した音声コマンドの認識率が、第一閾値より低い第二閾値以上で音声コマンドを受け付ける。

Description

音声コマンド受付装置、および音声コマンド受付方法

　本開示は、音声コマンド受付装置、および音声コマンド受付方法に関する。

　音声コマンドによって操作を行う装置が多様化している。例えば、車両用記録装置、いわゆるドライブレコーダにおいては、加速度センサによる衝撃検出に加え、音声コマンドによってイベント記録を行うものもある（例えば、非特許文献１）。音声コマンドによるイベント記録は、自らが事故の当事者ではない場合の事故を記録する場合など、運転中にタッチパネル等の操作を必要とせず、安全にイベント記録を行うことができる。特許文献１には、加速度によるイベント検出に対して音声による指示を行うことで、イベント記録を行うドライブレコーダが開示されている。

特開２０２０－１５４９０４号公報

ＤＲＶ－ＭＲ７６０[令和３年１２月２０日検索]、インターネット（ＵＲＬ：https://www.kenwood.com/jp/car/drive-recorders/products/drv-mr760/）

　ドライブレコーダにイベント記録を指示する音声コマンドは、例えば「ろくがかいし」のような音声コマンドが受け付けられるよう予め設定されている。音声コマンドは、他の音声による誤検出を防止するため、ある程度の音節数で構成されることが要求される。例えば「ろくがかいし」は６音節からなる。このため、音声コマンドを正確に認識させるために、発話者はドライブレコーダの方向など、音声コマンドの発話音声を入力するマイクロフォンの方向を向いて発話することが多い。一般的なドライブレコーダは、発話者である搭乗者から見て車両の前方に設置されていることから、車両の前方である進行方向を向いた状態での音声コマンド入力は、適切に認識される。

　しかし、音声コマンドが適切に認識されないような状況において音声コマンドが発話された場合、音声コマンドの認識率が低くなることから、音声コマンドによる指示が受け付けられない場合が生じる。このような場合、例えば、ドライブレコーダにおけるイベント記録を行う場合の音声コマンドなど、緊急性や即時性を要する操作を指示するための音声コマンドは、音声コマンドの言い直しなどによって、操作に遅れが生じてしまう。音声コマンドが適切に認識されないような状況とは、例えば、音声コマンドを発話する人物が、音声コマンドを適切に発話できる人物ではない場合に生じる可能性がある。

　本開示は、音声コマンドによる操作を適切に行うことができる音声コマンド受付装置、および音声コマンド受付方法を提供することを目的とする。

　本開示の音声コマンド受付装置は、音声コマンドを受け付ける音声コマンド受付部と、前記音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、前記音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、を備え、前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける。

　本開示の音声コマンド受付方法は、音声コマンドを発話する人物が使用する言語に関する情報を取得するステップと、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付けるステップと、前記音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させるステップと、を音声コマンド受付装置が実行する。

　本開示によれば、音声コマンドによる操作を適切に行うことができる。

図１は、第一実施形態に係る記録装置の構成例を示すブロック図である。図２は、第一実施形態に係る制御部の処理の流れを示すフローチャートである。図３は、第二実施形態に係る音声コマンド受付装置の構成例を示すブロック図である。図４は、第二実施形態に係る音声コマンド受付装置の処理の流れを示すフローチャートである。図５は、第三実施形態に係る記録装置の構成例を示すブロック図である。図６は、第三実施形態に係る制御部の処理の流れを示すフローチャートである。図７は、第四実施形態に係る音声コマンド受付装置の構成例を示すブロック図である。図８は、第四実施形態に係る音声コマンド受付装置の処理の流れを示すフローチャートである。

　以下、添付図面を参照して、本開示に係る実施形態を詳細に説明する。なお、この実施形態により本開示が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。また、本開示に係る音声コマンド受付装置は、音声コマンドを用いて操作を行う様々な装置を想定しており、以下の実施の形態により、適用される装置が限定されるものではない。

　［第一実施形態］
　第一実施形態においては、音声コマンド受付装置の例として、車両において用いられる記録装置について説明する。

　（記録装置）
　図１を用いて、第一実施形態に係る記録装置の構成例を説明する。図１は、第一実施形態に係る記録装置の構成例を示すブロック図である。

　記録装置１は、車両に対して発生したイベントの検出や、ユーザの指示によって映像などを記録する、いわゆるドライブレコーダである。記録装置１は、車両に載置されている装置であってもよいし、可搬型で車両において利用可能な装置であってもよい。記録装置１は、映像の再生機能を備えることから、記録再生装置と言い換えてもよい。記録装置１は、車両にあらかじめ設置されている装置やナビゲーション装置等の機能または構成を含んで実現されてもよい。記録装置１は、車両の運転者を含む搭乗者が使用する言語が音声コマンドとして登録されていることによって、音声コマンドに使用可能な言語であるか否かに応じて、受け付ける音声コマンドに認識率を変更する処理を実行する。

　図１に示すように、記録装置１は、カメラ１０と、記録部１４と、表示部１６と、マイクロフォン１８と、加速度センサ２０と、操作部２２と、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）受信部２４と、制御部（記録制御装置）２６と、を備える。記録装置１は、カメラ１０と、マイクロフォン１８とを一体的に含む装置であってもよく、カメラ１０と、マイクロフォン１８とが別体で構成された装置であってもよい。

　カメラ１０は、車両の周辺を撮影するカメラである。カメラ１０は、一例としては、記録装置１に固有のカメラ、または、車両の前後方向などをそれぞれ撮影する複数のカメラである。第一実施形態では、カメラ１０は、例えば、車両の前方および後方を向いて配置される複数のカメラで構成され、車両の前方および後方を中心とした周辺を撮影する。カメラ１０は、例えば、全天周や半天周を撮影可能な単一のカメラであってもよい。カメラ１０は、撮影した映像データを制御部２６の映像データ取得部３０へ出力する。映像データは、例えば毎秒３０フレームの画像から構成される動画像である。

　記録部１４は、記録装置１におけるデータの一時記憶などに用いられる。記録部１４は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、フラッシュメモリ（Ｆｌａｓｈ　Ｍｅｍｏｒｙ）などの半導体メモリ素子、または、メモリカードなどの記録媒体である。または、図示しない通信装置を介して無線接続される外部記録部であってもよい。記録部１４は、制御部２６の記録制御部３６から出力された制御信号に基づいて、ループ記録映像データまたはイベントデータを記録する。

　表示部１６は、例えば、記録装置１に固有の表示装置、または、ナビゲーションシステムを含む他のシステムと共用した表示装置などである。表示部１６は、カメラ１０と一体に形成されていてもよい。表示部１６、例えば、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）または有機ＥＬ（Ｏｒｇａｎｉｃ　Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを含むディスプレイである。第一実施形態では、表示部１６は、車両の運転者前方の、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。表示部１６は、制御部２６の記録制御部３６から出力された映像信号に基づいて、映像を表示する。表示部１６は、カメラ１０が撮影している映像、または、記録部１４に記録された映像を表示する。

　マイクロフォン１８は、車両の車室内の音声の音声データを収音する。第一実施形態では、マイクロフォン１８は、運転者を含む車両の搭乗者が発話する音声を取得可能な位置に配置される。マイクロフォン１８は、例えば、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。マイクロフォン１８は、車両の車室内における搭乗者の発話や会話に関する音声データを収音し、検出部４２に出力する。マイクロフォン１８は、記録装置１に対する音声コマンドに関する音声を収音し、音声コマンド受付部４４に出力する。マイクロフォン１８は、収音した音声を、映像データ取得部３０に出力することで、記録制御部３６は、音声を含むループ記録映像データまたはイベントデータを記録してもよい。

　加速度センサ２０は、車両に対して生じる加速度を検出するセンサである。加速度センサ２０は、検出結果を制御部２６のイベント検出部４６に出力する。加速度センサ２０は、例えば３軸方向の加速度を検出するセンサである。３軸方向とは、車両の前後方向、左右方向、および上下方向である。

　操作部２２は、記録装置１に対する各種操作を受付可能である。例えば、操作部２２は、撮影した映像データを記録部１４にイベントデータとして手動で保存する操作を受付可能である。例えば、操作部２２は、記録部１４に記録したループ記録映像データまたはイベントデータを再生する操作を受付可能である。例えば、操作部２２は、記録部１４に記録したイベントデータを消去する操作を受付可能である。例えば、操作部２２は、ループ記録を終了する操作を受付可能である。操作部２２は、操作情報を制御部２６の操作制御部４８に出力する。

　ＧＮＳＳ受信部２４は、ＧＮＳＳ衛星からのＧＮＳＳ信号を受信するＧＮＳＳ受信機なで構成される。ＧＮＳＳ受信部２４は、受信したＧＮＳＳ信号を制御部２６の位置情報取得部５０へ出力する。

　制御部２６は、記録装置１の各部を制御する、記録制御装置である。制御部２６は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などの情報処理装置と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）又はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などの記憶装置とを有する。制御部２６は、本開示に係る記録装置１の動作を制御するプログラムを実行する。制御部２６は、例えば、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の集積回路により実現されてもよい。制御部２６は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。

　制御部２６は、映像データ取得部３０と、バッファメモリ３２と、映像データ処理部３４と、記録制御部３６と、再生制御部３８と、表示制御部４０と、検出部４２と、音声コマンド受付部４４と、イベント検出部４６と、操作制御部４８と、位置情報取得部５０と、を制御部２６の構成またはプログラムの実行によって実現される機能ブロックとして備える。

　映像データ取得部３０は、車両の周辺を撮影した映像データを取得する。具体的には、映像データ取得部３０は、カメラ１０が撮影した映像データを取得する。映像データ取得部３０は、取得した映像データを、バッファメモリ３２に出力する。映像データ取得部３０が取得する映像データは、映像のみのデータに限らず、映像と音声とを含む映像データであってもよい。映像データ取得部３０は、映像データとして、全天周や半天周を撮影した映像データを取得してもよい。

　バッファメモリ３２は、記録装置１が備える内部メモリであり、映像データ取得部３０が取得した一定時間分の映像データを、更新しながら一時的に記録するメモリである。

　映像データ処理部３４は、バッファメモリ３２が一時的に記憶している映像データを、例えばＨ．２６４やＭＰＥＧ－４（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）などの任意の方式のコーデックで符号化された、例えばＭＰ４形式などの任意のファイル形式に変換する。映像データ処理部３４は、バッファメモリ３２が一時的に記憶している映像データから、一定時間分のファイルとした映像データを生成する。具体例として、映像データ処理部３４は、バッファメモリ３２が一時的に記憶している映像データを、記録順に６０秒間の映像データをファイルとして生成する。映像データ処理部３４は、生成した映像データを記録制御部３６へ出力する。映像データ処理部３４は、生成した映像データを表示制御部４０へ出力する。ファイルとして生成される映像データの期間は、一例として６０秒としたが、これには限定されない。

　記録制御部３６は、映像データ処理部３４でファイル化された映像データを、記録部１４に記録させる制御を行う。記録制御部３６は、車両のアクセサリ電源がＯＮであるときなど、ループ記録処理を実行する期間は、映像データ処理部３４でファイル化された映像データを、上書き可能な映像データとして、記録部１４に記録する。記録制御部３６は、ループ記録処理を実行する期間は、映像データ処理部３４が生成した映像データを記録部１４に記録し続け、記録部１４の容量が一杯になった場合、最も古い映像データに新しい映像データを上書きして記録する。

　記録制御部３６は、音声コマンド受付部４４が音声コマンドによるイベント検出を受け付けた場合に、イベント検出を受け付けた時点を含む映像データをイベントデータとして保存する。記録制御部３６は、イベントデータを上書きが禁止されたデータとして記録部１４に保存する。例えば、記録制御部３６は、音声コマンド受付部４４が音声コマンドによるイベント検出を受け付けた時点の前後１０秒程度の所定の期間の映像データをバッファメモリ３２からコピーして、イベントデータとして保存する。

　記録制御部３６は、イベント検出部４６が、加速度センサ２０の出力値に基づきイベントの発生を検出した場合に、イベントを検出した時点を含む映像データをイベントデータとして保存する。記録制御部３６は、イベントデータを上書きが禁止されたデータとして記録部１４に保存する。例えば、記録制御部３６は、イベント検出部４６がイベントを検出した時点の前後１０秒程度の所定の期間の映像データをバッファメモリ３２からコピーして、イベントデータとして保存する。

　再生制御部３８は、操作制御部４８から出力された再生操作の制御信号に基づいて、記録部１４に記録されたループ記録映像データまたはイベントデータを再生し、再生した映像などを表示制御部４０によって表示部１６に出力させる制御を行う。

　表示制御部４０は、表示部１６における映像データの表示を制御する。表示制御部４０は、映像データを表示部１６に出力させる映像信号を出力する。より詳しくは、表示制御部４０は、カメラ１０が撮影している映像、または、記録部１４に記録されたループ記録映像データまたはイベントデータの再生によって表示する映像信号を出力する。

　検出部４２は、音声コマンドを発話する環境における、音声コマンドが適切に認識されない状況となる条件を検出する。本実施形態においては、検出部４２は、音声コマンドを発話する人物が使用する言語に関する情報を取得する。検出部４２は、音声コマンドを発話する人物が使用する言語として、音声コマンドを発話する人物が通常使用する言語、言い換えると、母国語など日常的に使用している言語に関する情報を取得する。音声コマンドを発話する人物は、車両において用いられる記録装置１の場合は、車両の搭乗者、車両の運転者である。

　検出部４２は、例えば、車両が動作している期間、マイクロフォン１８が集音した音声に対して、車両の搭乗者による発話や会話の音声を取得し、車両の搭乗者が使用している言語を特定する。検出部４２は、複数の言語毎に特徴量等を機械学習させた学習モデルを参照し、車両の搭乗者が使用している言語を特定する。検出部４２は、車両の搭乗者による発話や会話の音声に基づき、車両の搭乗者が使用している単数または複数の言語を特定する。検出部４２は、車両の搭乗者が操作部２２を操作することで、使用している言語を特定してもよい。

　本実施形態では、検出部４２は、車両の搭乗者が使用している言語と、音声コマンドとして登録されている言語が一致するか否かを判断することによって、音声コマンドに使用可能な言語であるか否かを判断する。音声コマンドとして登録されている言語とは、記録装置１において、音声コマンドを示す単語や語句が登録されている言語である。記録装置１に、例えば、日本語による音声コマンドが登録されている場合とは、日本語による「録画開始（ろくがかいし）」のような音声コマンドが登録されていることである。音声コマンドとして登録されている言語ではない言語、つまり、音声コマンドとして登録されていない言語とは、記録装置１において、音声コマンドが登録されていない言語である。

　検出部４２は、車両の搭乗者が使用している言語が複数検出された場合であって、検出された複数の言語が、音声コマンドとして登録されている言語と登録されていない言語である場合、車両の搭乗者が使用している言語は、音声コマンドとして登録されていない言語とみなす。その理由としては、音声コマンドとして登録されていない言語を使用する搭乗者が、音声コマンドを発話する可能性があることによる。

　音声コマンド受付部４４は、マイクロフォン１８が集音した音声を認識することで、音声コマンドを受け付ける。音声コマンド受付部４４は、例えば、マイクロフォン１８が集音した音声に対して、音源分離処理および音声認識処理を実行し、イベント記録を開始するための音声コマンドを認識する。イベント記録を開始するための音声コマンドは、音声コマンドとして日本語が登録されている場合、例えば、「録画開始（ろくがかいし）」である。音声コマンド受付部４４は、マイクロフォン１８が集音した音声において「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節を認識した場合に、イベント記録処理を開始するための制御信号を記録制御部３６に出力する。または、音声コマンド受付部４４は、マイクロフォン１８が集音した音声において「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声を認識した場合に、イベント記録処理を開始するための制御信号を記録制御部３６に出力する。音声コマンド受付部４４は、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であるか否かを判断し、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であるか否かに応じて、音声コマンドを取得した否かを判定するための音声の認識率を変更する。

　音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合には、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節のうち、全ての音節が一致した場合に、音声コマンドを取得したと判定する。音声コマンド受付部４４は、例えば、音声コマンドを取得した判定する認識率の第一閾値として、９０％に設定する。この場合、音声コマンド受付部４４は、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の６音節のうち、９０％以上認識できた場合には、音声コマンドを取得したと判定する。

　音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節のうち、５音節以上が一致した場合に、音声コマンドを取得したと判定する。この場合、音声コマンド受付部４４は、音声コマンドを取得したと判定する認識率を第一閾値よりも低い第二閾値に設定する。音声コマンド受付部４４は、例えば、第二閾値を８０％に設定する。この場合、音声コマンド受付部４４は、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節のうち、８０％以上認識できた場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合のように、音声コマンドを発話する人物が、適切な発音や適切なイントネーションなどによる音声コマンドの発話に慣れていない状態や、適切な発話を咄嗟に行うことができない状態などにおいては、搭乗者の発話が完全に認識できなくとも、音声コマンドが発話されたと判定することで、適切に音声コマンドが認識される。

　また、音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合には、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値として、例えば、９０％に設定する。この場合、音声コマンド受付部４４は、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が９０％以上である場合には、音声コマンドを取得したと判定する。

　また、音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値よりも低い第二閾値として、例えば８０％に設定する。この場合、音声コマンド受付部４４は、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が８０％以上である場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、搭乗者の音声が音声コマンドとして認識されやすくなる。

　イベント検出部４６は、車両に加わる加速度に基づくイベントを検出する。イベント検出部４６は、加速度センサ２０の検出結果に基づいて、イベントを検出する。イベント検出部４６は、加速度情報が、車両の衝突に該当するような予め設定された閾値以上である場合、イベントが発生したことを検出する。

　操作制御部４８は、操作部２２が受け付けた操作の操作情報を取得する。例えば、操作制御部４８は、映像データの手動保存操作を示す保存操作情報、再生操作を示す再生操作情報、または、映像データの消去操作を示す消去操作情報を取得して制御信号を出力する。例えば、操作制御部４８は、ループ記録を終了する操作を示す終了操作情報を取得して制御信号を出力する。操作制御部４８は、操作部２２が受け付けた、車両の搭乗者が使用している言語を設定する操作情報を取得してもよい。操作制御部４８は、車両の搭乗者が使用している言語を設定する操作情報を取得する場合は、検出部４２の機能を代替する。

　操作制御部４８は、音声コマンド受付部４４が認識した音声コマンドによるイベント記録操作を受け付ける。

　位置情報取得部５０は、車両の現在位置を示す位置情報を取得する。位置情報取得部５０は、ＧＮＳＳ受信部２４が受信したＧＮＳＳ信号に基づいて、車両の現在位置の位置情報を公知の方法によって算出する。

　（制御部の処理）
　図２を用いて、第一実施形態に係る制御部の処理の流れを説明する。図２は、第一実施形態に係る制御部２６の処理の流れを示すフローチャートである。図２に示すフローチャートは、記録装置１が装着されている車両のエンジンなどの動力が始動することや、記録装置１に電力が供給されることで開始される。

　処理の開始に伴い、制御部２６は、通常記録、いわゆるループ記録を開始する（ステップＳ１０）。具体的には、記録制御部３６は、カメラ１０が撮影した映像データをバッファメモリ３２に送信し、例えば、６０秒ごとのような所定期間の映像ごとに映像ファイルを生成し、記録部１４に記録させる処理を開始し、ステップＳ１２に進む。

　ステップＳ１０の開始とともに、検出部４２は、車両の搭乗者が使用している言語の特定を開始してもよい。検出部４２による車両の搭乗者が使用している言語の特定は、図２に示すフローチャートの開始によって車両内の発話が取得されることで特定されてもよい。または、図２に示すフローチャートの開始によって、車両の搭乗者に対して、表示部１６の表示や、音声によって使用言語を問い合わせる案内を行ってもよい。または、図示しない車室内カメラや、スマートキーに対応付けられた車両の搭乗者や運転者の情報に基づいて、過去に特定された言語が設定されてもよい。また、記録装置１が搭載されている車両がレンタカーなどであれば、車両の貸与者が、利用者の国籍や会話の結果などに基づき、予め設定してもよい。例えば、記録装置１において日本語による音声コマンドのみが登録されている場合、車室内での発話や会話が日本語以外の言語で行われていることを検出する。このような搭乗者は、適切な発音の日本語による音声コマンドを発話することができない場合や、適切な発音の日本語による音声コマンドを咄嗟に発話することができない場合などが生じるためである。

　音声コマンド受付部４４は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語であるか否かを判定する（ステップＳ１２）。音声コマンドを発話する人物とは、車両の運転者に限定してもよく、車両の運転者以外の搭乗者であってもよい。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であると判定された場合（ステップＳ１２；Ｙｅｓ）、ステップＳ１４に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではないと判定された場合（ステップＳ１２；Ｎｏ）、ステップＳ１８に進む。

　ステップＳ１２でＹｅｓと判定された場合、音声コマンド受付部４４は、マイクロフォン１８により車両の搭乗者から音声コマンドを取得したか否かを判定する（ステップＳ１４）。音声コマンドを取得したと判定された場合（ステップＳ１４；Ｙｅｓ）、ステップＳ１６に進む。音声コマンドを取得したと判定されない場合（ステップＳ１４；Ｎｏ）、ステップＳ２４に進む。

　ステップＳ１４でＹｅｓと判定された場合、音声コマンド受付部４４は、取得した音声コマンドの認識率は第一閾値以上であるか否かを判定する（ステップＳ１６）。音声コマンドの認識率が第一閾値以上であると判定された場合（ステップＳ１６；Ｙｅｓ）、ステップＳ２２に進む。音声コマンドの認識率が第一閾値以上であると判定されない場合（ステップＳ１６；Ｎｏ）、ステップＳ２４に進む。

　ステップＳ１２でＮｏと判定された場合、音声コマンド受付部４４は、マイクロフォン１８により車両の搭乗者から音声コマンドを取得したか否かを判定する（ステップＳ１８）。音声コマンドを取得したと判定された場合（ステップＳ１８；Ｙｅｓ）、ステップＳ２０に進む。音声コマンドを取得したと判定されない場合（ステップＳ１８；Ｎｏ）、ステップＳ２４に進む。

　ステップＳ１８でＹｅｓと判定された場合、音声コマンド受付部４４は、取得した音声コマンドの認識率は第二閾値以上であるか否かを判定する（ステップＳ２０）。音声コマンドの認識率が第二閾値以上であると判定された場合（ステップＳ２０；Ｙｅｓ）、ステップＳ２２に進む。音声コマンドの認識率が第二閾値以上であると判定されない場合（ステップＳ２０；Ｎｏ）、ステップＳ２４に進む。

　ステップＳ１４およびステップＳ１８においては、音声コマンドを取得したか否かの判断に加えて、取得した音声コマンドが、緊急性または即時性の高い音声コマンドであるか否かを判断してもよい。言い換えると、ステップＳ１４およびステップＳ１８においては、緊急性または即時性の高い音声コマンドを取得したか否かを判定する。緊急性または即時性の高い音声コマンドとは、音声コマンドが受け付けられることで、遅延なく動作開始することが要求される機能に対する操作を要求する音声コマンドである。例えば、記録装置１における緊急性または即時性の高い音声コマンドとは、イベント記録を指示する音声コマンドである。

　ステップＳ１６でＹｅｓまたはステップＳ２０でＹｅｓと判定された場合、記録制御部３６は、イベントデータを記録部１４に保存する（ステップＳ２２）。具体的には、記録制御部３６は、音声コマンド受付部４４が音声コマンドを取得した時点の前後の第一映像データをイベントデータとして記録部１４に保存し、ステップＳ２４に進む。

　ステップＳ１４からステップＳ２０でＮｏと判定された場合、またはステップＳ２２の後、制御部２６は、処理を終了するか否かを判定する（ステップＳ２４）。具体的には、制御部２６は、操作部２２が電源をオフにする操作や、処理を終了する旨の操作を受け付けた場合、または、記録装置１が装着されている車両のエンジンなどの動力がＯＦＦとなることで、処理を終了すると判定する。処理を終了すると判定された場合（ステップＳ２４；Ｙｅｓ）、図２の処理を終了する。処理を終了すると判定されない場合（ステップＳ２４；Ｎｏ）、ステップＳ１２に進む。

　上述のとおり、第一実施形態は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合と、音声コマンドとして登録されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付ける。記録装置１が受け付ける音声コマンドは、例えば、イベント記録指示を行う音声コマンドである。また、記録装置１は、イベント記録指示を行う音声コマンドを受け付けることで、イベントデータの保存を行う。第一実施形態では、車両の搭乗者、つまり音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではない場合には、音声コマンドとして登録されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、イベントデータの保存処理を実行する。これにより、第一実施形態は、搭乗者が音声コマンドを適切に発話できる状態ではない場合であっても、音声コマンドによる操作指示、例えば音声コマンドによるイベント記録指示を行うことで、イベントデータの保存を適切に行うことができる。

　［第二実施形態］
　第二実施形態について説明する。第二実施形態における音声コマンド受付装置は、音声コマンドを用いて操作を行う汎用的な装置であり、例えば、スマートスピーカーやテレビジョン受信器などの家庭用装置、スマートフォン、タブレット端末、ＰＣなどの情報装置、車両において用いられるナビゲーション装置やインフォテインメントシステムなどに適用可能である。

　図３を用いて、第二実施形態に係る音声コマンド受付装置の構成例について説明する。図３は、第二実施形態に係る音声コマンド受付装置１００の構成例を示すブロック図である。

　図３に示すように、音声コマンド受付装置１００は、音声コマンド受付部１４４と、検出部１４２と、実行制御部１５０と、を備える。音声コマンド受付装置１００は、例えば、ＣＰＵやＭＰＵなどの情報処理装置と、ＲＡＭ又はＲＯＭなどの記憶装置とを有する。音声コマンド受付装置１００は、本開示に係るプログラムを実行する。音声コマンド受付装置１００は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。音声コマンド受付装置１００は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。音声コマンド受付装置１００は、第一実施形態における制御部２６のように、音声コマンドを用いる装置を制御する制御部である。このため、音声コマンド受付装置１００は、受け付けた音声コマンドに基づいて動作または機能するための構成要素が付加されていてもよい。

　音声コマンド受付装置１００は、マイクロフォン１１８から音声を取得する。マイクロフォン１１８は、音声コマンド受付装置１００の構成要素としてもよい。

　マイクロフォン１１８は、発話者が発話した音声を収音する。マイクロフォン１１８は、収音した音声に関する音声を音声コマンド受付装置１００に出力する。マイクロフォン１１８は、音声コマンド受付装置１００と一体に構成されていてもよいし、別体に構成されていてもよい。

　音声コマンド受付部１４４は、音声コマンドを受け付ける。音声コマンド受付部１４４は、例えば、マイクロフォン１１８が収音した音声を認識することで、音声コマンドを受け付ける。音声コマンド受付部１４４は、第一実施形態における音声コマンド受付部４４と同様の機能を備える。

　検出部１４２は、音声コマンドを発話する環境における、音声コマンドが適切に認識されない状況となる条件を検出する。本実施形態においては、検出部１４２は、音声コマンドを発話する人物が使用する言語に関する情報を取得する。検出部１４２は、音声コマンドを発話する人物が使用する言語として、音声コマンドが発話する人物が通常使用する言語、言い換えると、母国後など日常的に使用している言語に関する情報を取得する。検出部１４２は、第一実施形態における検出部４２と同様の機能を備える。

　実行制御部１５０は、音声コマンド受付部１４４が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる。

　音声コマンド受付部１４４は、検出部１４２の検出結果に基づき、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されていることによって使用可能な言語であるか否かに応じて音声コマンドの認識率を変化させて音声コマンドを受け付ける。音声コマンド受付部１４４は、例えば、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であると判断した場合には、第一閾値以上の認識率で音声コマンドを受け付ける。音声コマンド受付部１４４は、例えば、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語ではないと判断した場合には、第一閾値よりも低い第二閾値以上で音声コマンドを受け付ける。

　音声コマンド受付部１４４は、緊急性または即時性の高い音声コマンドに対しては、第二閾値以上の認識率で音声コマンドを受け付けることとしてもよい。第二実施形態において、緊急性または即時性の高い音声コマンドとは、緊急通話、緊急通信、放送コンテンツの記録開始指示、継続リスクの高い機能の停止指示など、機能の実行開始や実行終了に対して、操作時点からの遅延が好ましくない、または遅延によって悪影響やリスクのある機能に対する音声コマンドである。

（音声コマンド受付装置の処理）
　図４を用いて、第二実施形態に係る音声コマンド受付装置の処理の流れを説明する。図４は、第二実施形態に係る音声コマンド受付装置１００の処理の流れを示すフローチャートである。

　検出部１４２は、音声コマンドを発話する人物が使用する言語を抽出し（ステップＳ４０）、ステップＳ４２に進む。具体的には、検出部１４２は、音声コマンド受付装置１００の近傍で発話されている発話内容などに基づき、音声コマンドを発話する人物が使用する言語を抽出する。

　音声コマンド受付部１４４は、音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であるか否かを判定する（ステップＳ４２）。具体的には、音声コマンド受付部１４４は、検出部１４２が音声コマンドを発話する人物が使用する言語を検出した結果に基づいて、音声コマンド受付装置１００の音声コマンドとして登録されている言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であると判定された場合（ステップＳ４２；Ｙｅｓ）、ステップＳ４４に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではないと判定される場合（ステップＳ４２；Ｎｏ）、ステップＳ４８に進む。

　ステップＳ４２でＹｅｓと判定された場合、音声コマンド受付部１４４は、マイクロフォン１１８により音声コマンドを取得したか否かを判定する（ステップＳ４４）。音声コマンドを取得したと判定された場合（ステップＳ４４；Ｙｅｓ）、ステップＳ４６に進む。音声コマンドを取得したと判定されない場合（ステップＳ４４；Ｎｏ）、ステップＳ５４に進む。

　ステップＳ４４でＹｅｓと判定された場合、音声コマンド受付部１４４は、取得した音声コマンドの認識率は第一閾値以上であるか否かを判定する（ステップＳ４６）。音声コマンドの認識率が第一閾値以上であると判定された場合（ステップＳ４６；Ｙｅｓ）、ステップＳ５２に進む。音声コマンドの認識率が第一閾値以上であると判定されない場合（ステップＳ４６；Ｎｏ）、ステップＳ５４に進む。

　ステップＳ４２でＮｏと判定された場合、音声コマンド受付部１４４は、マイクロフォン１１８により音声コマンドを取得したか否かを判定する（ステップＳ４８）。音声コマンドを取得したと判定された場合（ステップＳ４８；Ｙｅｓ）、ステップＳ５０に進む。音声コマンドを取得したと判定されない場合（ステップＳ４８；Ｎｏ）、ステップＳ５４に進む。

　ステップＳ４８でＹｅｓと判定された場合、音声コマンド受付部１４４は、取得した音声コマンドの認識率は第二閾値以上であるか否かを判定する（ステップＳ５０）。音声コマンドの認識率が第二閾値以上であると判定された場合（ステップＳ５０；Ｙｅｓ）、ステップＳ５２に進む。音声コマンドの認識率が第二閾値以上であると判定されない場合（ステップＳ５０；Ｎｏ）、ステップＳ５４に進む。

　ステップＳ４４およびステップＳ４８においては、音声コマンドを取得したか否かの判断に加えて、取得した音声コマンドが、緊急性または即時性の高い音声コマンドであるか否かを判断してもよい。

　ステップＳ４６でＹｅｓまたはステップＳ５０でＹｅｓと判定された場合、実行制御部１５０は、音声コマンドに対する機能を実行する（ステップＳ５２）。そして、ステップＳ５４に進む。

　ステップＳ４４からステップＳ５０でＮｏと判定された場合、またはステップＳ５２の後、音声コマンド受付装置１００は、処理を終了するか否かを判定する（ステップＳ５４）。具体的には、音声コマンド受付装置１００は、電源をオフにする操作や、処理を終了する旨の操作を受け付けた場合などに、処理を終了すると判定する。処理を終了すると判定された場合（ステップＳ５４；Ｙｅｓ）、図４の処理を終了する。処理を終了すると判定されない場合（ステップＳ５４；Ｎｏ）、ステップＳ４２に進む。

　上述のとおり、第二実施形態は、音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語である場合と、音声コマンドとして登録されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付け、音声コマンドに対する機能を実行する。第二実施形態では、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語ではない場合には、音声コマンドとして登録されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、音声コマンドに対する機能を実行する。これにより、第二実施形態は、音声コマンドを発話する人物が音声コマンドとして登録されている言語ではない言語を使用している人物であり、音声コマンドを適切に発話できる状態ではない状況であっても、音声コマンドに対する機能を適切に実行することができる。

　［第三実施形態］
　第三実施形態について説明する。第三実施形態は、音声コマンド受付装置の例として、車両において用いられる記録装置について説明する。

　（記録装置）
　図５を用いて、第三実施形態に係る記録装置の構成例を説明する。図５は、第三実施形態に係る記録装置の構成例を示すブロック図である。第三実施形態に係る記録装置１Ａは、第一実施形態に係る記録装置１と構成と機能が共通するため、以下の説明においては、記録装置１と同一の構成要素には同一の符号を付し、その詳細な説明は省略する。第三実施形態に係る記録装置１Ａは、複数の言語による音声コマンドに対応している装置、言い換えると、複数の言語による音声コマンドが登録されている装置であり、対応している複数の言語から、音声コマンドを受け付ける言語を選択して用いる装置である。

　図５に示すように、記録装置１Ａは、記録装置１と同一の構成に加えて、制御部２６Ａを備える。制御部２６Ａは、制御部２６と同一の構成に加えて、設定部５２をさらに備える。

　設定部５２は、音声コマンド受付部４４が音声コマンドを受け付ける言語を設定する。設定部５２は、例えば、操作部２２による操作によって、音声コマンドが対応する複数の言語から、少なくとも１つの言語を設定する。設定部５２は、言い換えると、記録装置１Ａにおいて複数の言語に対応する音声コマンドから、少なくとも１つの言語を選択して使用可能とする。

　設定部５２は、記録装置１Ａのユーザなどが、操作部２２を操作することによって、記録装置１Ａが対応している複数の言語から、音声コマンドを受け付ける言語を選択して設定する。

　本実施形態では、検出部４２は、車両の搭乗者が使用している言語と、音声コマンドを受け付ける言語として設定されている言語が一致するか否かを判断することによって、音声コマンドに使用可能な言語であるか否かを判断する。音声コマンドを受け付ける言語として設定されている言語とは、記録装置１Ａにおいて、音声コマンドを示す単語や語句が登録されている複数の言語から選択された言語である。記録装置１Ａに、例えば、日本語、英語、中国語、韓国語の音声コマンドが登録されており、音声コマンドを受け付ける言語として日本語が選択されている場合、日本語による「録画開始（ろくがかいし）」のような音声コマンドが使用可能である。また、音声コマンドを受け付ける言語として設定されている言語ではない言語とは、記録装置１Ａに登録されており、音声コマンドを受け付ける言語として設定されていない言語に加えて、記録装置１Ａに登録されていない言語も含まれる。

　音声コマンド受付部４４は、マイクロフォン１８が集音した音声を認識することで、音声コマンドを受け付ける。音声コマンドを受け付ける言語として日本語が設定されている場合、例えば、イベント記録を開始するための音声コマンドは、「録画開始（ろくがかいし）」である。音声コマンド受付部４４は、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語であるか否かを判断し、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語であるか否かに応じて、音声コマンドを取得した否かを判定するための音声の認識率を変更する。

　音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合には、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節のうち、全ての音節が一致した場合に、音声コマンドを取得したと判定する。音声コマンド受付部４４は、例えば、音声コマンドを取得した判定する認識率の第一閾値として、９０％に設定する。この場合、音声コマンド受付部４４は、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の６音節のうち、９０％以上認識できた場合には、音声コマンドを取得したと判定する。

　音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節のうち、５音節以上が一致した場合に、音声コマンドを取得したと判定する。この場合、音声コマンド受付部４４は、音声コマンドを取得したと判定する認識率を第一閾値よりも低い第二閾値に設定する。音声コマンド受付部４４は、例えば、第二閾値を８０％に設定する。この場合、音声コマンド受付部４４は、「Ｒｏ・Ｋｕ・Ｇａ・Ｋａ・Ｉ・Ｓｈｉ」の連続した６音節のうち、８０％以上認識できた場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合のように、音声コマンドを発話する人物が、適切な発音や適切なイントネーションなどによる音声コマンドの発話に慣れていない状態や、適切な発話を咄嗟に行うことができない状態などにおいては、搭乗者の発話が完全に認識できなくとも、音声コマンドが発話されたと判定することで、適切に音声コマンドが認識される。

　また、音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合には、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値として、例えば、９０％に設定する。この場合、音声コマンド受付部４４は、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が９０％以上である場合には、音声コマンドを取得したと判定する。

　また、音声コマンド受付部４４は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値よりも低い第二閾値として、例えば８０％に設定する。この場合、音声コマンド受付部４４は、「ＲｏＫｕＧａＫａＩＳｈｉ」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が８０％以上である場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンド受け付ける言語として設定されている言語ではない場合には、搭乗者の音声が音声コマンドとして認識されやすくなる。

　（制御部の処理）
　図６を用いて、第三実施形態に係る制御部の処理の流れを説明する。図６は、第三実施形態に係る制御部２６Ａの処理の流れを示すフローチャートである。図６に示すステップＳ６０、ステップＳ６４からステップＳ７４の処理は、図２に示すステップＳ１０、ステップＳ１４からステップＳ２４の処理と同一であるため、説明を省略する。

　音声コマンド受付部４４は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する（ステップＳ６２）。言い換えると、音声コマンド受付部４４は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、設定部５２で設定された言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であると判定された場合（ステップＳ６２；Ｙｅｓ）、ステップＳ６４に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではないと判定された場合（ステップＳ６２；Ｎｏ）、ステップＳ６８に進む。

　上述のとおり、第三実施形態は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合と、音声コマンドを受け付ける言語として設定されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付ける。第三実施形態では、車両の搭乗者、つまり音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、音声コマンドを受け付ける言語として設定されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、イベントデータの保存処理を実行する。これにより、第三実施形態は、搭乗者が音声コマンドを適切に発話できる状態ではない場合であっても、音声コマンドによる操作指示、例えばイベントデータの保存を適切に行うことができる。

　［第四実施形態］
　第四実施形態について説明する。第四実施形態における音声コマンド受付装置は、第二実施形態における音声コマンド受付装置と同様に、音声コマンドを用いて操作を行う様々な装置に適用される。

　図７を用いて、第四実施形態に係る音声コマンド受付装置の構成例を説明する。図７は、第四実施形態に係る音声コマンド受付装置１００Ａの構成例を示すブロック図である。第四実施形態に係る音声コマンド受付装置１００Ａは、第二実施形態に係る音声コマンド受付装置１００と構成が共通するため、以下の説明においては、音声コマンド受付装置１００と同一の構成要素には同一の符号を付し、その詳細な説明は省略する。

　図７に示すように、音声コマンド受付装置１００Ａは、音声コマンド受付装置１００と同一の構成に加えて、操作部１２２、操作制御部１４８および設定部１５２をさらに備える。操作部１２２は、音声コマンド受付装置１００Ａの構成要素としてもよい。

　操作部１２２は、音声コマンド受付装置１００Ａに対する各種操作を受付可能である。操作部１２２は、音声コマンド受付装置１００Ａが対応している複数の言語から、音声コマンドを受け付ける言語を設定する操作を受け付け可能である。操作部１２２は、操作情報を操作制御部１４８に出力する。

　操作制御部１４８は、操作部１２２が受け付けた操作の操作情報を取得する。例えば、操作制御部１４８は、音声コマンドを受け付ける言語を設定する操作情報を取得する。

　設定部１５２は、音声コマンド受付部１４４が音声コマンドを受け付ける言語を設定する。設定部１５２は、第三実施形態における設定部５２と同様の機能を備える。

（音声コマンド受付装置の処理）
　図８を用いて、第四実施形態に係る音声コマンド受付装置の処理の流れを説明する。図８は、第四実施形態に係る音声コマンド受付装置１００Ａの処理の流れを示すフローチャートである。図８に示すステップＳ８０、ステップＳ８４からステップＳ９４の処理は、図４に示すステップＳ４０、ステップＳ４４からステップＳ５４の処理と同一であるため、説明を省略する。

　ステップＳ８２においては、音声コマンド受付部１４４は、音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する。具体的には、音声コマンド受付部１４４は、検出部１４２が音声コマンドを発話する人物が使用する言語を検出した結果に基づいて、音声コマンド受付装置１００Ａが音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であると判定された場合（ステップＳ８２；Ｙｅｓ）、ステップＳ８４に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではないと判定される場合（ステップＳ８２；Ｎｏ）、ステップＳ８８に進む。

　上述のとおり、第四実施形態は、音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合と、音声コマンドとして設定されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付け、音声コマンドに対する機能を実行する。第四実施形態では、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語ではない場合には、音声コマンドを受け付ける言語として設定されている場合と比較して、認識率を低くして音声コマンドを受け付け、音声コマンドに対する機能を実行する。これにより、第四実施形態は、音声コマンドを発話する人物が音声コマンドを受け付ける言語として設定されている言語ではない言語を使用している人物であり、音声コマンドを適切に発話できる状態ではない状況であっても、音声コマンドに対する機能を適切に実行することができる。

　以上、本開示の実施形態を説明したが、これら実施形態の内容により本開示が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。

　本開示に係る音声コマンド受付装置、音声コマンド受付方法は、スマートスピーカーやテレビジョン受信器などの家庭用装置、スマートフォン、タブレット端末、ＰＣなどの情報装置、車両において用いられるナビゲーション装置やインフォテインメントシステムなどに適用可能である。

　１、１Ａ　記録装置
　１０　カメラ
　１４　記録部
　１６　表示部
　１８、１１８　マイクロフォン
　２０　加速度センサ
　２２、１２２　操作部
　２４　ＧＮＳＳ受信部
　２６　制御部（記録制御装置）
　３０　映像データ取得部
　３２　バッファメモリ
　３４　映像データ処理部
　３６　記録制御部
　３８　再生制御部
　４０　表示制御部
　４２、１４２　検出部
　４４、１４４　音声コマンド受付部
　４６　イベント検出部
　４８、１４８　操作制御部
　５０　位置情報取得部
　５２、１５２　設定部
　１００、１００Ａ　音声コマンド受付装置
　１５０　実行制御部

Claims

　音声コマンドを受け付ける音声コマンド受付部と、
　前記音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、
　前記音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンド
に対する機能を実行させる実行制御部と、
　を備え、
　前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
　音声コマンド受付装置。
　前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
　請求項１に記載の音声コマンド受付装置。
　前記音声コマンド受付部が音声コマンドを受け付ける言語を設定する設定部をさらに備え、
　前記音声コマンド受付部は、前記人物が使用する言語が、前記設定部で前記音声コマンドを受け付ける言語として設定されていることによって使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が、前記設定部で前記音声コマンドを受け付ける言語として設定されていることによって使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
　請求項１に記載の音声コマンド受付装置。
　前記検出部は、前記人物の発話に基づいて、前記人物が使用する言語に関する情報を取得する、
　請求項１から３のいずれか１項に記載の音声コマンド受付装置。
　前記音声コマンド受付部は、緊急性または即時性の高い音声コマンドに対して、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
　請求項１から３のいずれか１項に記載の音声コマンド受付装置。
　前記音声コマンド受付装置は、車両において用いられる車両用記録制御装置であり、
　車両の周辺を撮影する第一撮影部が撮影した第一映像データを取得する映像データ取得部を備え、
　前記音声コマンド受付部は、音声コマンドによるイベント記録指示を受け付け、
　前記実行制御部は、前記音声コマンド受付部が音声コマンドによるイベント記録指示を受け付けた場合に、イベント記録指示を受け付けた時点を含む前記第一映像データをイベントデータとして保存する、
　請求項１から３のいずれか１項に記載の音声コマンド受付装置。
　音声コマンドを発話する人物が使用する言語に関する情報を取得するステップと、
　前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付けるステップと、
　前記音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させるステップと、
　を音声コマンド受付装置が実行する音声コマンド受付方法。