WO2023145405A1

WO2023145405A1 - 音声操作制御装置および音声操作方法

Info

Publication number: WO2023145405A1
Application number: PCT/JP2023/000167
Authority: WO
Inventors: 真聖坂野
Original assignee: 株式会社Ｊｖｃケンウッド
Priority date: 2022-01-27
Filing date: 2023-01-06
Publication date: 2023-08-03

Abstract

制御装置１００は、ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する音声コマンド判断部１１６と、音声コマンド判断部１１６が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付部１１７とを備え、音声コマンド判断部１１６は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、第１閾値より低い一致度を示す第２閾値以上かつ第１閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する。

Description

音声操作制御装置および音声操作方法

　本発明は、音声操作制御装置および音声操作方法に関する。

　スマートフォンアプリや、ビデオカメラなど、様々な装置が音声コマンドによる操作に対応している。このような装置は、物理的な操作を行うことなく操作が可能であることに加えて、近距離であれば遠隔操作も可能である。特許文献１には、音声コマンドで操作可能な撮像装置が開示されている。また、車両用記録装置、いわゆるドライブレコーダにおいては、加速度センサによる衝撃検出に加え、音声コマンドによってイベント記録を行うものがある。音声コマンドによる記録指示は、運転中にタッチパネル等の操作を必要とせず、安全にイベントデータや静止画像の記録を行うことができる。特許文献２には、イベント記録に加えて、静止画を保存することが開示されている。

特開２０２０－２０５６３７号公報特開２０２０－１５４９０４号公報

　例えば、スマートフォンやアクションカムなどのビデオカメラを用いて、音声コマンドによって映像または静止画の記録を制御する場合とは、例えば、自転車での走行中、スノーボードでの滑走中など、ユーザが物理的操作を行うことが困難であることが多い。このような状態においては、音声コマンドを正確に発話できない場合や、正確に発話を行った場合であっても、周囲の音による影響で、音声コマンドを適切に認識できない場合もある。このような場合、映像または静止画の記録のタイミングが遅れてしまうことがある。

　また、ドライブレコーダにおいては、運転中に、気になった施設や景色などを撮影したいときや、イベント記録を行いたいときに、車両の運転者は、運転中であるため、音声コマンドを用いて映像または静止画の記録を指示する場合がある。しかし、映像または静止画の記録を行う音声コマンドは、機種によって異なる音声コマンドが用いられていること、誤作動防止のために冗長性が求められること、利用頻度が低いことなどから、咄嗟に正確な音声コマンドを発話できないことがある。このため、音声コマンドを用いて映像または静止画の記録を行う場合に、咄嗟に正確な音声コマンドを発話できないことにより、映像または静止画の記録のタイミングが遅れてしまうことがある。

　本開示は、上記に鑑みてなされたものであって、音声コマンドによる映像または静止画の記録を適切に行うことを目的とする。

　上述した課題を解決し、目的を達成するために、本開示に係る音声操作制御装置は、ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する音声コマンド判断部と、前記音声コマンド判断部が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付部と、を備え、前記音声コマンド判断部は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第１閾値より低い一致度を示す第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する。

　本開示に係る音声操作方法は、ユーザによる発話を認識し、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第１閾値より低い一致度を示す第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する、音声コマンド判断ステップと、前記音声コマンド判断ステップで、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付ステップと、を音声操作制御装置が実行する。

　本開示によれば、音声コマンドによる映像または静止画の記録を適切に行うことができるという効果を奏する。

図１は、第一実施形態に係る制御装置を有する車両用記録装置の構成例を示すブロック図である。図２は、イベントデータの記録期間の一例を示す図である。図３は、第一実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。図４は、静止画像の記録時点の一例を示す図である。図５は、第二実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。図６は、第三実施形態に係る制御装置を有する映像記録装置の構成例を示すブロック図である。図７は、映像の撮影開始時点の一例を示す図である。図８は、第三実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。

　以下に添付図面を参照して、本開示に係る音声操作制御装置および音声操作方法の実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。

［第一実施形態］
＜車両用記録装置＞
　図１は、第一実施形態に係る音声操作制御装置（以下、「制御装置」という。）１００を有する車両用記録装置（音声操作装置）１０の構成例を示すブロック図である。音声操作装置の一例である車両用記録装置１０は、車両に対して発生したイベントに基づく映像などを記録する、いわゆるドライブレコーダである。車両用記録装置１０は、例えば、咄嗟に正確な音声コマンドを発話できないような場合でも、一致度の低い発話が複数回、検出された場合に、音声コマンドとして判断してイベントデータを記録する。

　車両用記録装置１０は、車両において用いられる。車両用記録装置１０は、車両に載置されているものに加えて、可搬型で車両において利用可能な装置であってもよい。また、車両用記録装置１０は、車両にあらかじめ設置されている装置やナビゲーション装置等の機能または構成を含んで実現されてもよい。車両用記録装置１０は、カメラ２１１と、マイクロフォン２１２と、記録部２１３と、操作部２１４と、加速度センサ２１５と、ＧＮＳＳ（Ｇｌｏｂａｌ　Ｎａｖｉｇａｔｉｏｎ　Ｓａｔｅｌｌｉｔｅ　Ｓｙｓｔｅｍ）受信部２１６と、表示部２１７と、制御装置１００とを有する。車両用記録装置１０は、カメラ２１１と、マイクロフォン２１２とを一体的に含む装置であってもよく、カメラ２１１と、マイクロフォン２１２とが別体で構成された装置であってもよい。

　カメラ２１１は、車両の周辺を撮影する。カメラ２１１は、複数のカメラ群であってもよい。カメラ２１１は、例えば、車両の車室内前方における車両の前方を撮影可能な位置に配置されている。本実施形態では、カメラ２１１は、車両のアクセサリ電源がＯＮである間、映像を常時撮影する。カメラ２１１は、撮影した撮影データを制御装置１００の撮影データ取得部１１１に出力する。撮影データは、例えば毎秒２７．５フレームの画像から構成される動画像である。

　マイクロフォン２１２は、車両用記録装置１０に対する各種操作を示す音声コマンドを収音するマイクロフォンである。マイクロフォン２１２は、撮影データ取得部１１１にカメラ２１１からの映像に加えて音声を入力するマイクロフォンと共用されてもよい。例えば、マイクロフォン２１２は、撮影した撮影データを記録部２１３にイベントデータとして保存する操作を受付可能である。マイクロフォン２１２は、収音した音声データを制御装置１００の音声コマンド判断部１１６に出力する。

　記録部２１３は、車両用記録装置１０におけるデータの一時記憶などに用いられる。記録部２１３は、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、フラッシュメモリなどの半導体メモリ素子、または、メモリカードなどの記録媒体である。記録部２１３は、図示しない通信装置を介して無線接続される外部記録部であってもよい。記録部２１３は、制御装置１００の記録制御部１２２から出力された制御信号に基づいて、ループ記録映像データまたはイベントデータを記録する。

　操作部２１４は、車両用記録装置１０に対する各種操作を受付可能である。操作部２１４は、例えば、表示部２１７の表示画面上に重ねて配置されたタッチパネルである。例えば、操作部２１４は、撮影した撮影データを記録部２１３にイベントデータとして手動で保存する操作を受付可能である。例えば、操作部２１４は、記録部２１３に記録したループ記録映像データまたはイベントデータを再生する操作を受付可能である。例えば、操作部２１４は、記録部２１３に記録したイベントデータを消去する操作を受付可能である。例えば、操作部２１４は、ループ記録を終了する操作を受付可能である。操作部２１４は、操作情報を制御装置１００の操作制御部１１８に出力する。

　加速度センサ２１５は、車両に対して生じる加速度を検出するセンサである。加速度センサ２１５は、検出結果を制御装置１００のイベント検出部１１４に出力する。加速度センサ２１５は、例えば３軸方向の加速度を検出するセンサである。３軸方向とは、車両の前後方向、左右方向、および上下方向である。

　ＧＮＳＳ受信部２１６は、ＧＮＳＳ衛星からのＧＮＳＳ信号を受信するＧＮＳＳ受信機などで構成される。ＧＮＳＳ受信部２１６は、受信した位置情報信号を制御装置１００の位置情報取得部１１５に出力する。

　表示部２１７は、一例としては、車両用記録装置１０に固有の表示装置、または、ナビゲーションシステムを含む他のシステムと共用した表示装置などである。表示部２１７は、カメラ２１１と一体に形成されていてもよい。表示部２１７は、例えば、液晶ディスプレイまたは有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイなどを含むディスプレイである。本実施形態では、表示部２１７は、車両の運転者前方の、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。表示部２１７は、制御装置１００の表示制御部１１９から出力された映像信号に基づいて、映像を表示する。表示部２１７は、カメラ２１１が撮影している映像、または、記録部２１３に記録された映像を表示する。

＜音声操作制御装置＞
　制御装置１００は、車両用記録装置１０の各部を制御する。制御装置１００は、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）やＭＰＵ（Ｍｉｃｒｏ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などで構成された演算処理装置（制御装置）であり、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）又はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などの記憶装置を有する。制御装置１００は、記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。制御装置１００には上述したＲＡＭなどの内部メモリが含まれ、内部メモリは制御装置１００におけるデータの一時記憶などに用いられる。制御装置１００は、プログラムの実行によって実現される機能ブロックなどの構成要素として、撮影データ取得部１１１と、バッファメモリ１１２と、撮影データ処理部１１３と、イベント検出部１１４と、位置情報取得部１１５と、音声コマンド判断部１１６と、音声コマンド受付部１１７と、操作制御部１１８と、表示制御部１１９と、再生制御部１２１と、動作制御部（記録制御部）１２２とを有する。

　撮影データ取得部１１１は、車両の周辺を撮影するカメラ２１１が撮影した周辺の撮影データを取得する。撮影データ取得部１１１は、取得した撮影データをバッファメモリ１１２に出力する。

　バッファメモリ１１２は、制御装置１００が備えるＲＡＭなどの内部メモリであり、撮影データ取得部１１１が取得した一定時間分の撮影データを、更新しながら一時的に記録するメモリである。

　撮影データ処理部１１３は、バッファメモリ１１２が一時的に記憶している撮影データを、例えばＨ．２６４やＭＰＥＧ－４（Ｍｏｖｉｎｇ　Ｐｉｃｔｕｒｅ　Ｅｘｐｅｒｔｓ　Ｇｒｏｕｐ）などの任意の方式のコーデックで符号化された、例えばＭＰ４形式などの任意のファイル形式に変換する。撮影データ処理部１１３は、バッファメモリ１１２が一時的に記憶している撮影データから、一定時間分のファイルとした撮影データを生成する。具体例として、撮影データ処理部１１３は、バッファメモリ１１２が一時的に記憶している撮影データを、記録順に６０秒間の撮影データをファイルとして生成する。撮影データ処理部１１３は、生成した撮影データを動作制御部（記録制御部）１２２へ出力する。また、撮影データ処理部１１３は生成した撮影データを、再生制御部１２１を通して画像をデコード後、表示制御部１１９へ出力する。ファイルとして生成される撮影データの期間は、一例として６０秒としたが、これには限定されない。ここで言う撮影データとは、カメラ２１１が撮影した映像に加えて音声が含まれたデータであってもよい。

　イベント検出部１１４は、車両に加わった加速度に基づき、イベントを検出する。より詳しくは、イベント検出部１１４は、加速度センサ２１５の検出結果に基づいて、イベントを検出する。イベント検出部１１４は、イベント検出部１１４が加速度センサ２１５から取得した加速度情報が閾値以上である場合、イベントが発生したことを検出する。

　位置情報取得部１１５は、車両の現在位置を示す位置情報を取得する。位置情報取得部１１５は、ＧＮＳＳ受信部２１６が受信したＧＮＳＳ信号に基づいて、車両の現在位置の位置情報を公知の方法によって算出する。位置情報取得部１１５は、算出した位置情報を、記録制御部１２２に出力する。

　音声コマンド判断部１１６は、ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する。音声コマンド判断部１１６は、マイクロフォン２１２から入力された音声を分析し、音声に含まれる発話内容を認識する。音声コマンド判断部１１６は、マイクロフォン２１２から入力された音声に対して、音素毎または単語毎の音響モデル分析を行い、音素モデルや言語モデルとの対比を行うことで、発話内容を認識する。音声コマンド判断部１１６は、車両用記録装置１００に対する音声コマンドを認識する。音声コマンド判断部１１６は、車両用記録装置１００に対するイベント記録を指示する音声コマンドなどの音声コマンドを認識した場合、認識した結果を音声コマンド受付部１１７に出力する。

　本実施形態では、音声コマンド判断部１１６は、認識した発話が撮影データの記録を行うための音声コマンドであるか否かを判断する。本実施形態では、音声コマンド判断部１１６は、認識した発話が撮影データのイベント記録を行うための音声コマンドであるか否かを判断する。

　本実施形態では、音声コマンド判断部１１６は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断する。

　音声コマンドは、誤動作防止のため、例えば４～５音節以上で構成される。例えば、イベント記録を行う音声コマンドは、６音節からなる「ろくがかいし」などが設定されている。音声コマンド判断部１１６は、音声コマンドの認識率が第１閾値以上である場合、音声コマンドであると判断する。音声コマンド判断部１１６は、音声コマンドの認識率が第１閾値未満である場合、音声コマンドであると判断しない。例えば、第１閾値を７０％とする。音声コマンド判断部１１６は、音声コマンドの認識率が、例えば、７０％以上である場合、音声コマンドであると判断する。音声コマンド判断部１１６は、音声コマンドの認識率が、例えば、７０％未満である場合、音声コマンドであると判断しない。音声コマンドの認識率とは、予め設定された音声コマンドに対して、認識された音声が一致する割合である。認識された音声が一致する割合とは、予め設定された音声コマンドを構成する音節に対する一致した音節の割合、または予め設定された音声コマンド全体に対する原義モデルとの一致度などである。

　予め設定された音声コマンドが「ろくがかいし」である場合について説明する。音声コマンド判断部１１６は、例えば、認識した発話が、「ろくがかいし」に対して音声認識率が７０％以上である場合、「ろくがかいし」と音声入力されたと判断し、音声コマンドによる音声操作を受け付ける。

　ドライブレコーダの音声コマンドは、誤作動防止のために冗長性が求められ、かつ、利用頻度が低いことからユーザが覚えにくく、咄嗟に正確な発話ができないことが予測される。一方で、事故などのイベントを記録するためのドライブレコーダの音声コマンドは、緊急性や迅速性が求められることもある。そこで、音声コマンド判断部１１６は、次のような機能を有する。

　音声コマンド判断部１１６は、受け付けた発話の認識結果が、第１閾値より低い一致度を示す第２閾値以上かつ第１閾値未満である発話が、所定期間Ｔ１内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する。

　所定期間Ｔ１は、例えば、５秒間である。

　例えば、第２閾値を５０％とする。音声コマンド判断部１１６は、認識された音声の音声コマンドに対する認識率が、例えば、５０％以上７０％未満であり、かつ、所定期間Ｔ１内に、認識率が５０％以上７０％未満の音声が複数回検出された場合、音声コマンドである、つまり、音声コマンドが発話されたと判断する。音声コマンド判断部１１６は、認識された音声の音声コマンドに対する認識率が、例えば、５０％未満である場合、または、認識率が５０％以上７０％未満の音声が所定期間Ｔ１内に複数回検出されなかった場合、認識された音声は音声コマンドであると判断しない、つまり、認識された音声は音声コマンドではないと判断する。

　予め設定された音声コマンドが「ろくがかいし」である場合について説明する。音声コマンド判断部１１６は、例えば、認識された音声が「ろくがかいし」に対して音声認識率が５０％以上７０％未満であり、音声認識率が５０％以上７０％未満の音声が、所定期間Ｔ１内に複数回検出された場合、「ろくがかいし」と音声入力されたと判断する。例えば、所定期間Ｔ１内に２回「ろくが」と発話された場合、「ろくがかいし」と音声入力されたと判断する。例えば、所定期間Ｔ１内に「かいし」、「ろくが」と発話された場合、「ろくがかいし」と音声入力されたと判断する。音声コマンド判断部１１６は、例えば、「ろくがかいし」の音声認識率が５０％未満である場合、または、音声認識率が５０％以上７０％未満の音声が、所定期間Ｔ１内に複数回検出されなかった場合、「ろくがかいし」と音声入力されたと判断しない。例えば、所定期間Ｔ１内に１回「ろくが」と発話された場合、「ろくがかいし」と音声入力されたと判断しない。例えば、所定期間Ｔ１内に２回「さつえい」と発話された場合、「ろくがかいし」と音声入力されたと判断しない。

　音声コマンド受付部１１７は、音声コマンド判断部１１６が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける。音声コマンド受付部１１７は、マイクロフォン２１２から入力された音声に対する音声コマンド判断部１１６の認識結果に基づき、マイクロフォン２１２から入力された音声を、各種操作を指示する音声コマンドとして受け付ける。例えば、音声コマンド受付部１１７は、再生操作を指示する音声コマンド、または、撮影データの消去操作を指示する音声コマンドを受け付けて制御信号を出力する。例えば、音声コマンド受付部１１７は、ループ記録の終了を指示する音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部１１７は、イベント記録を指示する音声コマンドを受け付けて制御信号を出力する。例えば、音声コマンド受付部１１７は、イベント記録を指示する音声コマンドとして、「ろくがかいし」の音声コマンドを受け付けて制御信号を出力する。

　音声コマンド受付部１１７は、音声コマンド判断部１１６からイベント記録を指示する発話を認識したことを取得した場合、イベント記録を指示する制御信号を記録制御部１２２に出力する。音声コマンド受付部１１７は、音声コマンド判断部１１６から再生操作を指示する発話を認識したことを取得した場合、再生操作を指示する制御信号を再生制御部１２１に出力する。

　操作制御部１１８は、操作部２１４が受け付けた各種操作の操作情報を取得する。より詳しくは、操作制御部１１８は、タッチパネルなどの物理的インターフェースの操作を受け付ける。例えば、操作制御部１１８は、再生操作を示す再生操作情報、または、撮影データの消去操作を示す消去操作情報を取得して制御信号を出力する。例えば、操作制御部１１８は、ループ記録を終了する操作を示す終了操作情報を取得して制御信号を出力する。

　表示制御部１１９は、表示部２１７における撮影データの表示を制御する。表示制御部１１９は、撮影データを表示部２１７に出力させる映像信号を出力する。より詳しくは、表示制御部１１９は、カメラ２１１が撮影している映像、または、記録部２１３に記録されたループ記録映像データまたはイベントデータの再生によって表示する映像信号を出力する。

　再生制御部１２１は、操作制御部１１８から出力された再生操作の制御信号に基づいて、記録部２１３に記録されたループ記録映像データまたはイベントデータを再生するよう制御する。再生制御部１２１は、図示しないデコーダを含み、供給された圧縮データをデコードすることで、各種データを再生する。

　動作制御部１２２は、音声コマンド受付部１１７が受け付けた音声コマンドに基づく動作を行う。本実施形態では、動作制御部１２２の一例として記録制御部１２２について説明する。記録制御部１２２は、撮影データ処理部１１３でファイル化された撮影データを、記録部２１３に記録させる制御を行う。記録制御部１２２は、車両のアクセサリ電源がＯＮであるときなど、ループ記録処理を実行する期間は、撮影データ処理部１１３でファイル化された撮影データを上書き可能な撮影データとして記録部２１３に記録する。より詳しくは、記録制御部１２２は、ループ記録処理を実行する期間は、撮影データ処理部１１３が生成した撮影データを記録部２１３に記録し続け、記録部２１３の容量が一杯になった場合、最も古い撮影データに新しい撮影データを上書きして記録する。

　記録制御部１２２は、イベント検出部１１４によってイベントが検出された場合、イベントの検出に対応する撮影データを保存する。イベントの検出に対応する撮影データとは、撮影データ処理部１１３が生成した撮影データにおける所定期間の撮影データである。記録制御部１２２は、イベントの検出に対応する撮影データを、上書きが禁止されたイベントデータとして記録部２１３に保存する。

　記録制御部１２２は、イベント検出部１１４によってイベントが検出された場合、イベント検出時点を起点として、前後所定期間の撮影データをイベントデータとして保存する。図２は、イベントデータの記録期間の一例を示す図である。図２に示すように、イベント検出部１１４によってイベントが検出された時点ｔ１より期間Ｐ１遡った時点から、ｔ１から期間Ｐ１経過した時点までの期間の撮影データをイベントデータとして保存する。記録制御部１２２は、イベント検出部１１４によってイベントが検出された場合、例えば、イベントが検出された時点ｔ１の前後１０秒程度など前後所定期間の撮影データをバッファメモリ１１２からコピーし、イベントデータとして保存する。

　前後所定期間とは、例えば、ある時点より前の期間Ｐ１（例えば５秒間）と、後の期間Ｐ１（例えば５秒間）を合わせた１０秒間である。ある時点より前の期間と後の期間は異なる期間であってもよい。

　本実施形態では、記録制御部１２２は、音声コマンド受付部１１７が受け付けた音声コマンドに基づき、撮影データ取得部１１１が取得した撮影データの保存を行う。

　本実施形態では、記録制御部１２２は、音声コマンド判断部１１６が、予め設定された音声コマンドに対して第１閾値以上一致する発話を検出することで音声コマンドを検出した場合は、音声コマンドが検出された時点を基準とした前後所定期間の撮影データをイベントデータとして保存する。図２に示すように、音声コマンド受付時点ｔ２より期間Ｐ１遡った時点から、音声コマンド受付時点ｔ２から期間Ｐ１経過した時点までの期間の撮影データをイベントデータとして保存する。例えば、音声コマンド受付時点の前後１０秒間の撮影データをイベントデータとして保存する。

　記録制御部１２２は、音声コマンド判断部１１６が、予め設定された音声コマンドに対して第２閾値以上かつ第１閾値未満の認識率である発話が、所定期間Ｔ１内に複数回検出されることで音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点（以下、「発話検出時点」という。）ｔ３を基準とした前後所定期間の撮影データをイベントデータとして保存する。本実施形態では、記録制御部１２２は、初回の発話検出時点を起点として、前後所定期間の撮影データをイベントデータとして保存する。図２に示すように、第２閾値以上かつ第１閾値未満である発話が、所定期間Ｔ１内に発話検出時点ｔ３およびｔ４のように複数回検出された場合、初回の発話検出時点ｔ３より期間Ｐ１遡った時点から、初回の発話検出時点ｔ３から期間Ｐ１経過した時点までの期間の撮影データをイベントデータとして保存する。例えば、発話検出時点ｔ３の前後１０秒間の撮影データをイベントデータとして保存する。

　緊急的にイベント記録を行いたい場合など、咄嗟の場合には音声コマンドを正確に発話できない可能性が高い。このような場合は、正確な音声コマンドが発話されずに、認識率が低い音声コマンドが複数回発話されることがある。そこで、認識率が低い音声コマンドを所定期間Ｔ１内に複数回受け付けた場合に、初回の発話検出時点を起点としてイベントデータを保存する。これにより、正確な音声コマンドが発話されなくとも、適切な期間のイベントデータが保存される。

＜音声操作制御装置における情報処理＞
　次に、図３を用いて、制御装置１００における処理の流れについて説明する。車両用記録装置１０が起動されることで、図３に示すフローチャートの処理が開始される。車両用記録装置１０が起動している間、制御装置１００では、設定された加速度の閾値での加速度センサ２１５による加速度の検出が行われる。制御装置１００は、イベント検出部１１４によって、検出された加速度に基づいて、イベント検出を開始する。加速度の検出によるイベント検出については、ここでの説明を省略する。また、車両用記録装置１０が起動している間、制御装置１００では、マイクロフォン２１２から入力された音声の認識処理が行われる。

　処理の開始に伴い、制御装置１００は、通常記録であるループ記録を開始する（ステップＳ１０１）。より詳しくは、記録制御部１２２は、撮影データ処理部１１３が生成したファイルを記録部２１３に上書可能に記録するループ記録を開始する。記録制御部１２２によるループ記録、及びイベント検出部１１４及び音声コマンド受付部１１７によるイベント検出は、処理が終了するまで継続される。制御装置１００は、ステップＳ１０２へ進む。

　制御装置１００は、イベント検出部１１４による検出結果に基づいて、イベントを検出したか否かを判定する（ステップＳ１０２）。制御装置１００は、イベント検出部１１４によって、検出された加速度が閾値以上である場合、イベントを検出したと判定して（ステップＳ１０２でＹｅｓ）、ステップＳ１０３に進む。制御装置１００は、イベント検出部１１４によって、検出された加速度が閾値以上ではないと判定する場合、イベントを検出しないと判定して（ステップＳ１０２でＮｏ）、ステップＳ１０４に進む。

　イベントを検出したと判定した場合（ステップＳ１０２でＹｅｓ）、制御装置１００は、記録制御部１２２によって、イベント検出時点から前後所定期間の撮影データをイベントデータとして保存する（ステップＳ１０３）。より詳しくは、制御装置１００は、記録制御部１２２によって、イベント検出時点から期間Ｐ１遡った時点から、イベント検出時点から期間Ｐ１後の時点の間に撮影された撮影データをイベントデータとして記録部２１３に上書きを禁止して保存させる。制御装置１００は、ステップＳ１０９に進む。

　イベントを検出しないと判定した場合（ステップＳ１０２でＮｏ）、制御装置１００は、イベント記録を指示する音声コマンドが受け付けされたか否かを判定する（ステップＳ１０４）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、イベント記録を指示する音声コマンドが受け付けされたと判断する。制御装置１００は、音声コマンド判断部１１６によって、イベント記録を指示する音声コマンドを受け付けたと判定する場合（ステップＳ１０４でＹｅｓ）、ステップＳ１０５に進む。または、制御装置１００は、音声コマンド判断部１１６によって、イベント記録を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ１０４でＮｏ）、ステップＳ１０９に進む。

　イベント記録を指示する音声コマンドを受け付けたと判定する場合（ステップＳ１０４でＹｅｓ）、制御装置１００は、記録制御部１２２によって、音声コマンド受付時点の前後所定期間の撮影データをイベントデータとして保存する（ステップＳ１０５）。より詳しくは、制御装置１００は、記録制御部１２２によって、音声コマンド受付時点から期間Ｐ１遡った時点から、音声コマンド受付時点から期間Ｐ１後の時点の間に撮影された撮影データをイベントデータとして記録部２１３に上書きを禁止して保存させる。制御装置１００は、ステップＳ１０９に進む。

　イベント記録を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ１０４でＮｏ）、制御装置１００は、イベント記録を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ１０６）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、第２閾値以上かつ第１閾値未満である発話が検出されたことを示す場合に、イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置１００は、イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ１０６でＹｅｓ）、ステップＳ１０７へ進む。制御装置１００は、イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合（ステップＳ１０６でＮｏ）、ステップＳ１０９へ進む。

　イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ１０６でＹｅｓ）、制御装置１００は、所定期間Ｔ１内にイベント記録の音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ１０７）。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ１０７でＹｅｓ）、ステップＳ１０８へ進む。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出されなかった場合（ステップＳ１０７でＮｏ）、ステップＳ１０９へ進む。

　一致度の低い発話が所定期間Ｔ１内に複数回検出されなかった場合（ステップＳ１０７でＮｏ）、制御装置１００は、記録制御部１２２によって、イベント記録を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点の前後所定期間の撮影データをイベントデータとして保存する（ステップＳ１０８）。より詳しくは、制御装置１００は、記録制御部１２２によって、初回の発話検出時点から期間Ｐ１遡った時点から、初回発話検出時点から期間Ｐ１後の時点の間に撮影された撮影データをイベントデータとして記録部２１３に上書きを禁止して保存させる。制御装置１００は、ステップＳ１０９に進む。

　制御装置１００は、処理を終了するか否かを判定する（ステップＳ１０９）。例えば、車両の電源や動力がＯＦＦにされたことや、操作部２１４の操作がされたことなどで、処理を終了することが判定される。制御装置１００は、処理を終了すると判定された場合（ステップＳ１０９でＹｅｓ）、本処理を終了する。制御装置１００は、処理を終了すると判定されない場合（ステップＳ１０９でＮｏ）、ステップＳ１０２の処理を再度実行する。

＜効果＞
　上述したように、本実施形態によれば、予め設定された音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断することができる。本実施形態によれば、咄嗟に音声コマンドを思い出すことができずに、一致度が低い発話を複数回行った場合に、音声コマンドとして判断することができる。

　本実施形態によれば、撮影データの記録を指示する音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断することができる。本実施形態によれば、撮影データを記録したい時に咄嗟に音声コマンドを思い出すことができずに、一致度が低い発話を複数回行った場合に、撮影データの記録を行うことができる。

　本実施形態によれば、イベント記録を指示する音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断することができる。本実施形態によれば、イベント発生時に咄嗟に音声コマンドを思い出すことができずに、一致度が低い発話を複数回行った場合に、撮影データをイベントデータとして記録を行うことができる。

　本実施形態によれば、冗長性が求められ、かつ、利用頻度が低くユーザが覚えにくく、咄嗟に正確に発話することが難しいドライブレコーダの音声コマンドを、一致度が低い発話から適切に判断できる。本実施形態によれば、緊急性や迅速性が求められることもある撮影データの記録を、記録するタイミングが遅れることなく、適切な期間の撮影データを記録することができる。

［第二実施形態］
　図４、図５を参照しながら、本実施形態に係る車両用記録装置１０について説明する。図４は、静止画像の記録時点の一例を示す図である。図５は、第二実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。車両用記録装置１０は、基本的な構成は第一実施形態の車両用記録装置１０と同様である。以下の説明においては、車両用記録装置１０と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態では、操作部２１４と、音声コマンド判断部１１６と、音声コマンド受付部１１７と、操作制御部１１８と、記録制御部１２２とにおける処理が第一実施形態と異なる。

　操作部２１４は、静止画像記録を行う操作を受付可能である。

　音声コマンド判断部１１６は、認識した発話が撮影データの静止画像の記録を行うための音声コマンドであるか否かを判断する。音声コマンド判断部１１６は、静止画像記録を指示する音声コマンドを認識した場合、認識した結果を音声コマンド受付部１１７に出力する。

　音声コマンド受付部１１７は、静止画像記録を指示する音声コマンドを受け付ける。例えば、音声コマンド受付部１１７は、静止画像記録を指示する音声コマンドとして、「しゃしんさつえい（写真撮影）」の音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部１１７は、音声コマンド判断部１１６から静止画像記録を指示する発話を認識したことを取得した場合、静止画像記録を指示する制御信号を記録制御部１２２に出力する。

　操作制御部１１８は、静止画像記録を示す操作情報を取得して制御信号を出力する。

　記録制御部１２２は、音声コマンド判断部１１６が、静止画像記録を示す予め設定された音声コマンドに対して第１閾値以上一致する発話を検出することで音声コマンドを検出した場合は、音声コマンド受付時点の静止画像を保存する。記録制御部１２２は、音声コマンド受付部１１７が静止画像記録を指示する音声コマンドを受け付けた場合、音声コマンド受付時点の静止画像を保存する。図４に示すように、例えば、音声コマンド受付時点ｔ６の静止画像を保存する。

　記録制御部１２２は、音声コマンド判断部１１６が、第２閾値以上かつ第１閾値未満である発話が、所定期間Ｔ１内に複数回検出された場合は、音声コマンドを検出したと判断し、初回の発話検出時点ｔ７の静止画像を保存する。図４に示すように、第２閾値以上かつ第１閾値未満である発話が、所定期間Ｔ１内に時点ｔ７と時点ｔ８とで検出された場合、初回の発話検出時点ｔ７の静止画像を保存する。記録制御部１２２は、予め設定された音声コマンドが例えば「しゃしんさつえい」である場合、音声認識率が第２閾値以上かつ第１閾値未満である発話として、例えば「しゃしん」「さつえいする」などの発話が所定期間Ｔ１内に複数回検出された場合は、音声コマンドを検出したと判断する。

　次に、図５を用いて、制御装置１００における処理の流れについて説明する。図５に示すステップＳ１１１、ステップＳ１１７の処理は、図３に示すフローチャートのステップＳ１０１、ステップＳ１０９と同様の処理を行う。

　制御装置１００は、静止画像記録を指示する音声コマンドが受け付けされたか否かを判定する（ステップＳ１１２）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、静止画像記録を指示する音声コマンドが受け付けされたと判断する。制御装置１００は、音声コマンド判断部１１６によって、静止画像記録を指示する音声コマンドを受け付けたと判定する場合（ステップＳ１１２でＹｅｓ）、ステップＳ１１３に進む。または、制御装置１００は、音声コマンド判断部１１６によって、静止画像記録を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ１１２でＮｏ）、ステップＳ１１４に進む。

　静止画像記録を指示する音声コマンドを受け付けたと判定する場合（ステップＳ１１２でＹｅｓ）、制御装置１００は、記録制御部１２２によって、音声コマンド受付時点の撮影データを静止画像として保存する（ステップＳ１１３）。制御装置１００は、ステップＳ１１７に進む。

　静止画像記録を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ１１２でＮｏ）、制御装置１００は、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ１１４）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、第２閾値以上かつ第１閾値未満である発話が検出されたことを示す場合に、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置１００は、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ１１４でＹｅｓ）、ステップＳ１１５へ進む。制御装置１００は、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合（ステップＳ１１４でＮｏ）、ステップＳ１１７へ進む。

　静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ１１４でＹｅｓ）、所定期間Ｔ１内に静止画像記録の音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ１１５）。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ１１５でＹｅｓ）、ステップＳ１１６へ進む。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出されなかった場合（ステップＳ１１５でＮｏ）、ステップＳ１１７へ進む。

　一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ１１５でＹｅｓ）、制御装置１００は、記録制御部１２２によって、静止画像記録を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点の撮影データを静止画像として保存する（ステップＳ１１６）。制御装置１００は、ステップＳ１１７に進む。

　上述したように、本実施形態によれば、静止画像記録を指示する音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断され、適切なタイミングの静止画像を記録することができる。

［第三実施形態］
＜映像記録装置＞
　図６ないし図８を参照しながら、本実施形態に係る音声操作制御装置（以下、「制御装置」という。）１００を有する映像記録装置（音声操作装置）２０について説明する。図６は、第三実施形態に係る制御装置１００を有する映像記録装置２０の構成例を示すブロック図である。図７は、映像の撮影開始時点の一例を示す図である。図８は、第三実施形態に係る制御装置１００における処理の流れの一例を示すフローチャートである。音声操作装置の一例である映像記録装置２０は、映像や音声を記録する、スマートフォンやビデオカメラなどの装置である。ビデオカメラには、いわゆるアクションカムも含まれる。映像記録装置２０は、例えば、音声コマンドを正確に発話できないような場合や、音声コマンドが適切に認識できなかった場合でも、一致度の低い発話が複数回、検出された場合に、音声コマンドとして判断して、撮影を開始、言い換えると、撮影した映像や音声の記録を開始する。第一実施形態の車両用記録装置１０と同様の構成には、同一または対応する符号を付して詳細な説明は省略する。

　図６に示すように、映像記録装置２０は、カメラ２１１と、マイクロフォン２１２と、記録部２１３と、操作部２１４と、表示部２１７と、制御装置１００とを有する。

　カメラ２１１は、映像を撮影する。本実施形態では、カメラ２１１は、音声コマンドによる撮影指示によって、映像を撮影する。

　マイクロフォン２１２は、映像記録装置２０に対する各種操作を示す音声コマンドを収音するマイクロフォンである。例えば、マイクロフォン２１２は、音声コマンドによる撮影指示を受付可能である。

　操作部２１４は、映像記録装置２０に対する各種操作を受付可能である。例えば、操作部２１４は、音声操作を受け付けるか否かを示す指示を受付可能である。音声操作を受け付ける指示が受け付けられると、後述する音声コマンド判断部１１６によって、音声操作受付がスタンバイされる。

　表示部２１７は、ユーザから視認可能な位置に配置されている。

＜音声操作制御装置＞
　制御装置１００は、プログラムの実行によって実現される機能ブロックなどの構成要素として、撮影データ取得部１１１と、バッファメモリ１１２と、撮影データ処理部１１３と、音声コマンド判断部１１６と、音声コマンド受付部１１７と、操作制御部１１８と、表示制御部１１９と、再生制御部１２１と、動作制御部（記録制御部）１２２とを有する。

　撮影データ取得部１１１は、カメラ２１１が撮影した撮影データを取得する。撮影データ取得部１１１は、取得した撮影データを、撮影データ処理部１１３またはバッファメモリ１１２に出力する。

　バッファメモリ１１２は、音声コマンドによる撮影指示の受付が可能となることで、撮影データ取得部１１１が取得した一定時間分の撮影データのバッファリングを開始する。

　撮影データ処理部１１３は、撮影データ取得部１１１が取得した撮影データ、またはバッファメモリ１１２が一時的に記憶している撮影データから、一定時間分のファイルとした撮影データを生成する。具体例として、撮影データ処理部１１３は、撮影データ取得部１１１が取得した撮影データ、またはバッファメモリ１１２が一時的に記憶している撮影データを、記録順に６０秒間の撮影データをファイルとして生成する。撮影データ処理部１１３は、生成した撮影データを動作制御部（記録制御部）１２２へ出力する。また、撮影データ処理部１１３は生成した撮影データを、再生制御部１２１を通して画像をデコード後、表示制御部１１９へ出力する。

　音声コマンド判断部１１６は、映像記録装置２０に対する撮影の開始を指示する音声コマンドまたは撮影の終了を指示する音声コマンドなどの音声コマンドを認識した場合、認識した結果を音声コマンド受付部１１７に出力する。

　本実施形態では、音声コマンド判断部１１６は、認識した発話が撮影の開始を行うための音声コマンドであるか否か、および撮影の終了を行うための音声コマンドであるか否かを判断する。

　撮影の開始を行う音声コマンドにおいても、誤動作防止のため、第一実施形態と同等に、例えば４～５音節以上で構成される。例えば、撮影の開始を行う音声コマンドは、６音節からなる「ろくがかいし」などが設定されている。

　映像記録装置２０の音声コマンドは、誤作動防止のために冗長性が求められ、かつ、利用形態によっては、正確な発話が困難な場合や、適切な認識が困難となることが予測される。一方で、撮影の開始指示は、撮影を開始したいタイミングで行われることが多いことから、撮影の開始指示を受け付けたときは、迅速に撮影が開始される必要がある。そこで、音声コマンド判断部１１６は、次のような機能を有する。

　音声コマンド受付部１１７は、撮影の開始を指示する音声コマンドおよび撮影の終了を指示する音声コマンドを受け付けて制御信号を出力する。例えば、音声コマンド受付部１１７は、撮影の開始を指示する音声コマンドとして、「ろくがかいし」の音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部１１７は、音声コマンド判断部１１６から撮影の開始を指示する発話を認識したことを取得した場合、撮影の開始を指示する制御信号を記録制御部１２２に出力する。例えば、音声コマンド受付部１１７は、撮影の終了を指示する音声コマンドとして、「ろくがしゅうりょう」の音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部１１７は、音声コマンド判断部１１６から撮影の終了を指示する発話を認識したことを取得した場合、撮影の終了を指示する制御信号を記録制御部１２２に出力する。

　操作制御部１１８は、操作部２１４に対する、音声操作を受け付けるか否かを示す操作を示す操作情報を取得して制御信号を出力する。

　動作制御部１２２は、音声コマンド受付部１１７が受け付けた音声コマンドに基づく動作を行う。本実施形態では、動作制御部１２２の一例として記録制御部１２２について説明する。記録制御部１２２は、撮影データ処理部１１３でファイル化された撮影データを、記録部２１３に記録させる制御を行う。記録制御部１２２は、映像記録装置２０において、撮影開始操作が行われたときから撮影終了操作が行われたときまでの期間は、撮影データ処理部１１３でファイル化された撮影データを記録部２１３に記録する。

　本実施形態では、記録制御部１２２は、音声コマンド判断部１１６が、予め設定された音声コマンドに対して第１閾値以上一致する発話を検出することで音声コマンドを検出した場合は、音声コマンドが検出された時点からの撮影データの記録を開始する。図７に示すように、音声コマンド受付時点ｔ２１から撮影データの記録を開始する。

　記録制御部１２２は、音声コマンド判断部１１６が、予め設定された音声コマンドに対して第２閾値以上かつ第１閾値未満の認識率である発話が、所定期間Ｔ１内に複数回検出されることで音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話検出時点を基準とした前後所定期間の撮影データをイベントデータとして保存する。図７に示すように、第２閾値以上かつ第１閾値未満である発話が、所定期間Ｔ１内に発話検出時点ｔ２２およびｔ２３のように複数回検出された場合、初回の発話検出時点ｔ２２から撮影データの記録を開始する。

＜音声操作制御装置における情報処理＞
　次に、図８を用いて、制御装置１００における処理の流れについて説明する。映像記録装置２０が起動されることで、図８に示すフローチャートの処理が開始される。映像記録装置２０が起動している間、制御装置１００では、マイクロフォン２１２から入力された音声の認識処理が行われる。

　処理の開始に伴い、制御装置１００は、撮影開始の音声操作受付をスタンバイするか否かを判定する（ステップＳ２０１）。より詳しくは、操作制御部１１８は、音声操作を受け付けるか否かを示す操作を示す操作情報を取得したか否かを判定する。音声操作を受け付けるか否かを示す操作を示す操作情報を取得した場合、撮影開始の音声操作受付をスタンバイすると判定する。制御装置１００は、撮影開始の音声操作受付をスタンバイすると判定する場合（ステップＳ２０１でＹｅｓ）、ステップＳ２０７へ進む。ステップＳ２０７ないしステップＳ２１８の処理は、音声コマンドに基づく処理である。制御装置１００は、撮影開始の音声操作受付をスタンバイすると判定しない場合（ステップＳ２０１でＮｏ）、ステップＳ２０２へ進む。ステップＳ２０２ないしステップＳ２０６の処理は、操作部２１４に対する各種操作に基づく処理である。

　撮影開始の音声操作受付をスタンバイすると判定しない場合（ステップＳ２０１でＮｏ）、制御装置１００は、撮影開始操作を受け付けたか否かを判定する（ステップＳ２０２）。より詳しくは、操作制御部１１８は、操作部２１４から撮影開始操作を示す操作情報を取得したか否かを判定する。撮影開始操作を示す操作情報を取得した場合、撮影開始操作を受け付けたと判定する。制御装置１００は、撮影開始操作を受け付けたと判定する場合（ステップＳ２０２でＹｅｓ）、ステップＳ２０３へ進む。制御装置１００は、撮影開始操作を受け付けたと判定しない場合（ステップＳ２０２でＮｏ）、ステップＳ２０６へ進む。

　撮影開始操作を受け付けたと判定する場合（ステップＳ２０２でＹｅｓ）、制御装置１００は、記録制御部１２２によって、撮影開始操作受付時点からの撮影データの記録を開始する（ステップＳ２０３）。制御装置１００は、ステップＳ２０４に進む。

　制御装置１００は、撮影終了操作を受け付けたか否かを判定する（ステップＳ２０４）。より詳しくは、操作制御部１１８は、操作部２１４から撮影終了操作を示す操作情報を取得したか否かを判定する。撮影終了操作を示す操作情報を取得した場合、撮影終了操作を受け付けたと判定する。制御装置１００は、撮影終了操作を受け付けたと判定する場合（ステップＳ２０４でＹｅｓ）、ステップＳ２０５へ進む。制御装置１００は、撮影終了操作を受け付けたと判定しない場合（ステップＳ２０４でＮｏ）、ステップＳ２０４の処理を再度実行する。

　撮影終了操作を受け付けたと判定する場合（ステップＳ２０４でＹｅｓ）、制御装置１００は、記録制御部１２２によって、撮影終了操作受付時点で撮影データの記録を終了する（ステップＳ２０５）。制御装置１００は、ステップＳ２０６に進む。

　制御装置１００は、処理を終了するか否かを判定する（ステップＳ２０６）。例えば、映像記録装置２０の電源や動力がＯＦＦにされたことや、操作部２１４の操作がされたことなどで、処理を終了することが判定される。制御装置１００は、処理を終了すると判定された場合（ステップＳ２０６でＹｅｓ）、本処理を終了する。制御装置１００は、処理を終了すると判定されない場合（ステップＳ２０６でＮｏ）、ステップＳ２０２の処理を再度実行する。

　撮影開始の音声操作受付をスタンバイすると判定する場合（ステップＳ２０１でＹｅｓ）、制御装置１００は、撮影データのバッファリングを開始する（ステップＳ２０７）。より詳しくは、記録制御部１２２は、バッファメモリ１１２に、撮影データ取得部１１１が取得した一定時間分の撮影データのバッファリングを開始する。制御装置１００は、ステップＳ２０８へ進む。

　制御装置１００は、撮影開始を指示する音声コマンドが受け付けされたか否かを判定する（ステップＳ２０８）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、撮影開始を指示する音声コマンドが受け付けされたと判断する。制御装置１００は、音声コマンド判断部１１６によって、撮影開始を指示する音声コマンドを受け付けたと判定する場合（ステップＳ２０８でＹｅｓ）、ステップＳ２０９に進む。または、制御装置１００は、音声コマンド判断部１１６によって、撮影開始を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ２０８でＮｏ）、ステップＳ２１０に進む。

　撮影開始を指示する音声コマンドを受け付けたと判定する場合（ステップＳ２０８でＹｅｓ）、制御装置１００は、記録制御部１２２によって、音声コマンド受付時点からの撮影データの記録を開始する（ステップＳ２０９）。より詳しくは、制御装置１００は、記録制御部１２２によって、音声コマンド受付時点から撮影された撮影データを記録部２１３に上書きを許可して保存させる。制御装置１００は、ステップＳ２１０に進む。

　撮影開始を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ２０８でＮｏ）、制御装置１００は、撮影開始を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ２１０）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、第２閾値以上かつ第１閾値未満である発話が検出されたことを示す場合に、撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置１００は、撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ２１０でＹｅｓ）、ステップＳ２１１へ進む。制御装置１００は、撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合（ステップＳ２１０でＮｏ）、ステップＳ２１３へ進む。

　撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ２１０でＹｅｓ）、制御装置１００は、所定期間Ｔ１内に撮影開始を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ２１１）。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ２１１でＹｅｓ）、ステップＳ２１２へ進む。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出されなかった場合（ステップＳ２１１でＮｏ）、ステップＳ２１３へ進む。

　一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ２１１でＹｅｓ）、制御装置１００は、記録制御部１２２によって、撮影開始を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点からの撮影データの記録を開始する（ステップＳ２１２）。より詳しくは、制御装置１００は、記録制御部１２２によって、初回の発話検出時点からの撮影データを記録部２１３に上書きを許可して保存させる。制御装置１００は、ステップＳ２１３に進む。

　制御装置１００は、撮影終了を指示する音声コマンドが受け付けされたか否かを判定する（ステップＳ２１３）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、撮影終了を指示する音声コマンドが受け付けされたと判断する。制御装置１００は、音声コマンド判断部１１６によって、撮影終了を指示する音声コマンドを受け付けたと判定する場合（ステップＳ２１３でＹｅｓ）、ステップＳ２１４に進む。または、制御装置１００は、音声コマンド判断部１１６によって、撮影終了を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ２１３でＮｏ）、ステップＳ２１５に進む。

　撮影終了を指示する音声コマンドを受け付けたと判定する場合（ステップＳ２１３でＹｅｓ）、制御装置１００は、記録制御部１２２によって音声コマンド受付時点で撮影データの記録を終了する（ステップＳ２１４）。制御装置１００は、ステップＳ２１８に進む。

　撮影終了を指示する音声コマンドを受け付けたと判定しない場合（ステップＳ２１３でＮｏ）、制御装置１００は、撮影終了を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ２１５）。より詳しくは、制御装置１００は、音声コマンド判断部１１６によって、受け付けた発話の認識結果が、第２閾値以上かつ第１閾値未満である発話が検出されたことを示す場合に、撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置１００は、撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ２１５でＹｅｓ）、ステップＳ２１６へ進む。制御装置１００は、撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合（ステップＳ２１５でＮｏ）、ステップＳ２１８へ進む。

　撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判定する場合（ステップＳ２１５でＹｅｓ）、制御装置１００は、所定期間Ｔ１内に撮影終了を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する（ステップＳ２１６）。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ２１６でＹｅｓ）、ステップＳ２１７へ進む。制御装置１００は、音声コマンド判断部１１６によって、一致度の低い発話が所定期間Ｔ１内に複数回検出されなかった場合（ステップＳ２１６でＮｏ）、ステップＳ２１８へ進む。

　一致度の低い発話が所定期間Ｔ１内に複数回検出された場合（ステップＳ２１６でＹｅｓ）、制御装置１００は、記録制御部１２２によって、撮影終了を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点で撮影データの記録を終了する（ステップＳ２１７）。より詳しくは、制御装置１００は、記録制御部１２２によって、初回の発話検出時点までの撮影データを記録部２１３に保存させる。制御装置１００は、ステップＳ２１８に進む。

　制御装置１００は、処理を終了するか否かを判定する（ステップＳ２１８）。例えば、車両の電源や動力がＯＦＦにされたことや、操作部２１４の操作がされたことなどで、処理を終了することが判定される。制御装置１００は、処理を終了すると判定された場合（ステップＳ２１８でＹｅｓ）、本処理を終了する。制御装置１００は、処理を終了すると判定されない場合（ステップＳ２１８でＮｏ）、ステップＳ２０８の処理を再度実行する。

＜効果＞
　上述したように、本実施形態によれば、音声コマンドを正確に発話できない場合、または、正確に発話を行った場合であっても、周囲の音による影響で、音声コマンドを適切に認識できない場合に、映像または静止画を適切なタイミングで記録することができる。

　本開示に係る車両用記録装置１０は、上述した実施形態以外にも種々の異なる形態にて実施されてもよい。上述した実施形態においては、音声操作制御装置１００を備える車両用記録装置１０の例を用いて説明したが、本開示の技術は、車両用記録装置１０以外へに適用も可能である。例えば、音声コマンドを用いて装置の制御を行う様々な装置に適用可能である。このため、上述した実施形態においては、動作制御部１２２の一例として記録制御部１２２として説明したが、動作制御部１２２は、映像の記録制御以外においても、音声の記録や、他の様々な制御に適用可能である。

　上述した実施形態においては、発話検出時点として検出対象となる発話に対する時間幅の概念を含まずに説明したが、発話検出時点ｔ３や発話検出時点ｔ７には、例えば「ろくが」のような音声の開始時点から終了時点までの発話が行われた時間幅が存在する。したがって、発話検出時点ｔ３や発話検出時点ｔ７は、このような発話の開始時点や終了時点などが設定されてもよく、発話の開始時点から終了時点までの期間においては、任意に設定可能である。

　図示した車両用記録装置１０の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。

　車両用記録装置１０の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。

　上記した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。

　本開示の音声操作制御装置および音声操作方法は、例えば、ドライブレコーダに使用することができる。

　１０　　　車両用記録装置（音声操作装置）
　１００　　制御装置（音声操作制御装置）
　１１１　　撮影データ取得部
　１１２　　バッファメモリ
　１１３　　撮影データ処理部
　１１４　　イベント検出部
　１１５　　位置情報取得部
　１１６　　音声コマンド判断部
　１１７　　音声コマンド受付部
　１１８　　操作制御部
　１１９　　表示制御部
　１２１　　再生制御部
　１２２　　記録制御部
　２１１　　カメラ
　２１２　　マイクロフォン
　２１３　　記録部
　２１４　　操作部
　２１５　　加速度センサ
　２１６　　ＧＮＳＳ受信部
　２１７　　表示部
　Ｐ１　　　期間
　Ｔ１　　　期間

Claims

　ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する音声コマンド判断部と、
　前記音声コマンド判断部が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付部と、
　を備え、
　前記音声コマンド判断部は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第１閾値より低い一致度を示す第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する、
　音声操作制御装置。
　映像を撮影するカメラが撮影した撮影データを取得する撮影データ取得部と、
　　前記音声コマンド受付部が受け付けた音声コマンドに基づく動作を行う動作制御部と、をさらに備え、
　前記音声コマンド判断部は、認識した発話が前記撮影データの記録を行うための音声コマンドであるか否かを判断し、
　前記動作制御部は、前記音声コマンド受付部が受け付けた音声コマンドに基づき、前記撮影データ取得部が取得した撮影データの保存を行う、
　請求項１に記載の音声操作制御装置。
　前記音声コマンド判断部は、認識した発話が前記撮影データのイベント記録を行うための音声コマンドであるか否かを判断し、
　前記動作制御部は、前記音声コマンド判断部が、予め設定された音声コマンドに対して第１閾値以上一致する発話を検出することで前記音声コマンドを検出した場合は、前記音声コマンドが検出された時点を基準とした前後所定期間の撮影データをイベントデータとして保存し、前記第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されることで前記音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点を基準とした前後所定期間の撮影データをイベントデータとして保存する、
　請求項２に記載の音声操作制御装置。
　前記音声コマンド判断部は、認識した発話が前記撮影データの静止画像の記録を行うための音声コマンドであるか否かを判断し、
　前記動作制御部は、前記音声コマンド判断部が、予め設定された音声コマンドに対して第１閾値以上一致する発話を検出することで前記音声コマンドを検出した場合は、前記音声コマンドが検出された時点の静止画像を保存し、前記第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されることで前記音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点の静止画像を保存する、
　請求項２に記載の音声操作制御装置。
　前記音声コマンド判断部は、認識した発話が撮影開始を行うための音声コマンドであるか否かを判断し、
　前記動作制御部は、前記音声コマンド判断部が、予め設定された音声コマンドに対して第１閾値以上一致する発話を検出することで前記音声コマンドを検出した場合は、前記音声コマンドが検出された時点を基準として前記撮影データの記録を開始し、前記第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されることで前記音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点を基準として前記撮影データの記録を開始する、
　請求項２に記載の音声操作制御装置。
　ユーザによる発話を認識し、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第１閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第１閾値より低い一致度を示す第２閾値以上かつ前記第１閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する、音声コマンド判断ステップと、
　前記音声コマンド判断ステップで、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付ステップと、
　を音声操作制御装置が実行する音声操作方法。