WO2023095187A1

WO2023095187A1 - 映像検索装置、映像検索システム、映像検索方法、及びプログラム

Info

Publication number: WO2023095187A1
Application number: PCT/JP2021/042875
Authority: WO
Inventors: 佑嗣小林; 純明榮; 裕樹多賀戸; 貴史小梨; 淳西岡; 純児玉; 悦子市原
Original assignee: 日本電気株式会社
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2023-06-01

Abstract

映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させる、との課題を解決するために、映像検索装置（１）は、映像記憶装置に記憶された映像ごとに説明情報を生成する生成部（１１）と、検索クエリを取得する取得部（１２）と、検索クエリおよび説明情報を用いて、映像記憶装置から映像を検索する検索部（１３）と、検索部（１３）による検索結果を出力する出力部（１４）と、検索結果に対する利用者の判定結果の入力を受け付ける入力部（１５）と、判定結果および検索クエリに基づいて、説明情報を更新する更新部（１６）と、を備える。

Description

映像検索装置、映像検索システム、映像検索方法、及びプログラム

　本発明は、映像を検索する技術に関する。

　特許文献１には、入力された検索条件に基づいて映像データベースを検索する映像検索システムが記載されている。この映像検索システムは、利用者に、検索して得られた映像集合から目的の映像に類似した映像を選択させて分類させ、分類された映像に関する映像情報を映像データベースから抽出する。また、この映像検索システムは、抽出した映像情報と分類情報とを用いて目的の映像に関する特徴量を判定し、判定した特徴量を用いて映像データベースを再検索する。

特開２０００－３３１００９号公報

　特許文献１に記載の映像検索システムにおいては、映像データベースに映像情報が充分に記憶されていない場合、分類された映像に関する映像情報を充分に抽出できない。また、映像データベースに記憶された映像情報の精度が充分でない場合、分類された映像に関して抽出した映像情報の精度も充分ではない。このため、目的の映像に関する特徴量を精度よく判定することができず、検索精度を向上できない可能性がある。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させる技術を提供することである。

　本発明の一側面に係る映像検索装置は、映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、検索クエリを取得する取得手段と、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、前記検索手段による検索結果を出力する出力手段と、前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、を備える。

　本発明の一側面に係る映像検索システムは、映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、検索クエリを取得する取得手段と、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、前記検索手段による検索結果を出力する出力手段と、前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、を備える。

　本発明の一側面に係る映像検索方法は、映像記憶装置に記憶された映像ごとに説明情報を生成し、検索クエリを取得し、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索し、検索結果を出力し、前記検索結果に対する利用者の判定結果の入力を受け付け、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する。

　本発明の一側面に係るプログラムは、コンピュータを映像検索装置として機能させるためのプログラムであって、前記コンピュータを、映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、検索クエリを取得する取得手段と、前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、前記検索手段による検索結果を出力する出力手段と、前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、として機能させる。

　本発明の一態様によれば、映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させることができる。

本発明の例示的実施形態１に係る映像検索装置の構成を示すブロック図である。本発明の例示的実施形態１に係る映像検索方法の流れを示すフロー図である。本発明の例示的実施形態１に係る映像検索システムの構成を示すブロック図である。本発明の例示的実施形態２に係る映像検索システムの構成を示すブロック図である。本発明の例示的実施形態２に係る動画像及びセンサ情報の詳細を説明する模式図である。本発明の例示的実施形態２に係る映像検索方法の流れを示すフロー図である。本発明の例示的実施形態２に係る説明情報の一例を示す図である。本発明の例示的実施形態２に係る映像検索方法の具体例を示す模式図である。本発明の例示的実施形態２に係る映像検索方法の他の具体例を示す模式図である。本発明の例示的実施形態２に係る映像検索方法のさらに他の具体例を示す模式図である。本発明の例示的実施形態３に係る映像検索システムの構成を示すブロック図である。本発明の例示的実施形態３に係る映像検索方法の流れを示すフロー図である。本発明の各例示的実施形態に係る映像検索装置のハードウェア構成の一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　＜映像検索装置１の構成＞
　本例示的実施形態に係る映像検索装置１の構成について、図１を参照して説明する。図１は、映像検索装置１の構成を示すブロック図である。

　図１に示すように、映像検索装置１は、生成部１１と、取得部１２と、検索部１３と、出力部１４と、入力部１５と、更新部１６とを含む。生成部１１は、請求の範囲に記載した生成手段を実現する構成の一例である。取得部１２は、請求の範囲に記載した取得手段を実現する構成の一例である。検索部１３は、請求の範囲に記載した検索手段を実現する構成の一例である。出力部１４は、請求の範囲に記載した出力手段を実現する構成の一例である。入力部１５は、請求の範囲に記載した入力手段を実現する構成の一例である。更新部１６は、請求の範囲に記載した更新手段を実現する構成の一例である。

　生成部１１は、映像記憶装置に記憶された映像ごとに説明情報を生成する。取得部１２は、検索クエリを取得する。検索部１３は、検索クエリおよび説明情報を用いて、映像記憶装置から映像を検索する。出力部１４は、検索部１３による検索結果を出力する。入力部１５は、検索結果に対する利用者の判定結果の入力を受け付ける。更新部１６は、判定結果および検索クエリに基づいて、説明情報を更新する。「説明情報」、「検索クエリ」、「判定結果」については、後述する映像検索方法Ｓ１の流れにおいて具体的に説明する。

　＜映像検索方法Ｓ１の流れ＞
　映像検索装置１は、本例示的実施形態に係る映像検索方法Ｓ１を実行する。映像検索方法Ｓ１の流れについて、図２を参照して説明する。図２は、映像検索方法Ｓ１の流れを示すフロー図である。図２に示すように、映像検索方法Ｓ１は、ステップＳ１１～Ｓ１６を含む。

　（ステップＳ１１）
　ステップＳ１１において、生成部１１は、映像記憶装置に記憶された映像ごとに説明情報を生成する。

　ここで、映像記憶装置は、検索対象となる複数の映像を記憶する装置である。映像検索装置１は、例えば、ネットワークを介して映像記憶装置と通信可能に接続される。検索対象となる映像は、静止画像であってもよいし、動画像であってもよい。また、動画像である場合、検索対象の単位は、動画像を時間軸に沿って分割した映像セグメントであってもよい。なお、映像記憶装置は、映像記憶部として映像検索装置１に備えられてもよい。

　また、説明情報は、検索対象となる各映像を説明する情報である。説明情報は、例えば、キー及びバリューの組であってもよいし、自然言語文であってもよい。ただし、説明情報の表現形式はこれに限られない。例えば、生成部１１は、各映像を解析することにより、解析結果に基づく説明情報を生成する。また、例えば、生成部１１は、各映像に関してユーザが入力した説明文を取得し、取得した説明文に基づき説明情報を生成してもよい。この場合、ユーザが入力した説明文は、入力装置又はネットワークを介して取得される。また、生成部１１は、生成した説明情報を、当該映像に紐づけてメモリに記憶する。生成部１１は、複数の映像それぞれについて説明情報を生成するので、生成部１１が生成する説明情報も複数となる。

　（ステップＳ１２）
　ステップＳ１２において、取得部１２は、検索クエリを取得する。

　検索クエリは、目的の映像を特定するための情報を含む。具体的には、検索クエリは、説明情報を検索するクエリである。検索クエリは、例えば、キー及びバリューの組であってもよいし、自然言語文であってもよい。ただし、検索クエリの表現形式はこれに限られない。

　本ステップにおいて、取得部１２は、利用者が入力する検索クエリを入力装置又はネットワークを介して取得してもよいし、メモリに記憶された検索クエリを読み込むことにより取得してもよい。また、取得部１２は、他の装置、又は、図示しない他の機能ブロックが生成した検索クエリを取得してもよい。

　（ステップＳ１３）
　ステップＳ１３において、検索部１３は、検索クエリおよび説明情報を用いて、映像記憶装置から映像を検索する。

　例えば、検索部１３は、生成部１１が生成した複数の説明情報のうち、検索クエリに少なくとも部分的に合致する説明情報を抽出する。また、検索部１３は、抽出した説明情報に紐づけられた映像を、検索結果とする。なお、検索部１３が検索結果として得る映像の個数は、１つであってもよいし、複数であってもよい。検索結果として得る映像の個数が複数となるのは、検索部１３が、検索クエリに少なくとも部分的に合致する複数の説明情報を抽出した場合である。この場合、検索部１３は、抽出した複数の説明情報のそれぞれに紐づけられた映像を、検索結果とする。

　（ステップＳ１４）
　ステップＳ１４において、出力部１４は、検索部１３による検索結果を出力する。検索結果には、１又は複数の映像が含まれる。ここで、出力部１４は、検索部１３による検索結果を、利用者の端末装置に送信することにより出力してもよい。この場合、当該端末装置は、受信した検索結果を、当該端末装置に接続されたディスプレイに表示する。また、出力部１４は、検索部１３による検索結果を、映像検索装置１に接続されたディスプレイに表示してもよい。このようにして検索結果を出力することにより、出力部１４は、検索結果を利用者に提示することができる。

　（ステップＳ１５）
　ステップＳ１５において、入力部１５は、検索結果に対する利用者の判定結果の入力を受け付ける。

　判定結果とは、検索結果に含まれる各映像が、目的の映像であるか否かを利用者が判定した結果である。具体例として、入力部１５は、検索結果として表示された各映像の近傍に、「適当（目的の映像である）」又は「不適当（目的の映像ではない）」を選択可能なユーザインタフェース部品を表示する。なお、ユーザインタフェース部品は、映像検索装置１に接続されたディスプレイに表示されてもよいし、利用者の端末装置に表示されてもよい。例えば、検索結果が利用者の端末装置に表示されている場合、入力部１５は、当該ユーザインタフェース部品を示す情報を当該端末装置に送信することにより、これらを各映像の近傍に表示する。また、入力部１５は、当該ユーザインタフェース部品に対して行われる利用者の選択操作に応じて、当該映像の判定結果の入力を受け付ける。例えば、利用者の選択操作は、映像検索装置１に接続された入力装置を使用して行われてもよいし、利用者の端末装置に対して行われてもよい。ユーザインタフェース部品が利用者の端末装置に表示されている場合、当該端末装置は、ユーザインタフェース部品に対する利用者の選択操作を受け付け、選択操作を示す情報を映像検索装置１に送信する。入力部１５は、選択操作を示す情報を当該端末装置から受信することにより、判定結果の入力を受け付ける。ただし、判定結果の入力を受け付ける手法は、この具体例に限定されない。

　なお、判定結果は、「目的の映像であるか否か」に限らず、「目的の映像との合致度」を示すものであってもよい。この場合、入力部１５は、３段階以上の選択肢、又は、所定範囲（一例として１から１００まで）に含まれる任意の数値等を選択可能なユーザインタフェース部品を表示してもよい。

　（ステップＳ１６）
　ステップＳ１６において、更新部１６は、判定結果および検索クエリに基づいて、説明情報を更新する。例えば、更新部１６は、検索クエリに部分的に合致した説明情報のうち検索クエリに合致しない部分を、判定結果に応じて更新する。例えば、当該説明情報に関する映像について「適当」との判定結果を得られた場合、当該説明情報のうち検索クエリに合致しない部分を、検索クエリに合致するよう更新する。

　＜本例示的実施形態の効果＞
　以上のように、本例示的実施形態に係る映像検索装置１、及び映像検索方法Ｓ１によれば、映像記憶装置に記憶された映像ごとに説明情報を生成し、検索クエリを取得し、検索クエリおよび説明情報を用いて、映像記憶装置から１又は複数の映像を検索し、検索結果を出力し、検索結果に対する利用者の判定結果の入力を受け付け、判定結果および検索クエリに基づいて、説明情報を更新する、との構成が採用されている。

　当該構成によれば、生成部１１が映像に関する説明情報を生成し、生成した説明情報を用いて検索を行うので、映像に事前に紐づけられた情報の量または精度が充分でない場合にも精度よく検索を行うことができる。また、当該構成によれば、検索結果に対する利用者のフィードバックにより説明情報を精度よく更新できる。その結果、更新した説明情報を用いて検索を行うことができるので、検索精度が向上する。このように、当該構成によれば、映像に関する情報の量または精度が充分でない場合であっても、映像の検索精度を向上させる技術を提供することができる。

　＜本例示的実施形態の他の態様＞
　本例示的実施形態の他の態様について、図３を参照して説明する。図３は、他の態様に係る映像検索システム１０の構成を示すブロック図である。図３に示すように、映像検索システム１０は、生成部１１と、取得部１２と、検索部１３と、出力部１４と、入力部１５と、更新部１６とを含む。映像検索システム１０は、物理的に異なる複数の装置を含み、これらの各部のうちの一つ又は複数の部が複数の装置に分散して配置される。各部の構成及び動作の詳細については、上述した通りである。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　＜映像検索システム２０の構成＞
　本例示的実施形態に係る映像検索システム２０の構成について、図４を参照して説明する。図４は、映像検索システム２０の構成を示すブロック図である。

　図４に示すように、映像検索システム２０は、映像検索装置２と、映像記憶装置９とを含む。映像検索装置２は、制御部２１０と、記憶部２２０と、入出力部２３０と、通信部２４０とを備える。

　（映像記憶装置９）
　映像記憶装置９は、１又は複数の動画像と、１又は複数種類のセンサ情報とを記憶する。動画像及びセンサ情報について、図５を参照して説明する。図５は、動画像及びセンサ情報の詳細を説明する模式図である。

　動画像は、移動体に搭載された撮影装置が撮影したものである。例えば、移動体及び撮影装置の一例として、自動車及びドライブレコーダが挙げられる。ただし、移動体及び撮影装置は、これらに限られない。図５に示すように、動画像には、移動体ＩＤが紐づけられる。移動体ＩＤは、当該動画像を撮影した撮影装置を搭載する移動体を識別する。また、各動画像を構成するフレームには、当該フレームが撮影された時間情報が紐づけられる。また、動画像は、時間軸にしたがって分割された複数の映像セグメントからなる。映像セグメントは、複数のフレームを含む。各映像セグメントの時間的な長さは、例えば、１０～２０秒間の長さであるが、これに限られない。動画像を構成する映像セグメントは、請求の範囲に記載された「映像」の一例であり、検索対象となる単位である。

　センサ情報は、移動体に搭載されたセンサが取得した情報である。センサの一例としては、車速センサ、操舵角センサ、エンジン回転数センサ、又は測位センサ等がある。図５に示す「車速の時系列データ」は、車速センサが取得したセンサ情報の一例である。また、「位置情報の時系列データ」は、測位センサが取得したセンサ情報の一例である。ただし、センサ及びセンサ情報の種類は、これらに限られない。また、センサ情報には、移動体ＩＤが紐づけられる。移動体ＩＤは、当該センサ情報を取得したセンサを搭載する移動体を識別する。また、センサ情報には、当該センサ情報が取得された時間情報が紐づけられる。

　また、図５に示すように、映像セグメントには、センサ情報が紐づけられる。映像セグメント及びセンサ情報は、それぞれに紐づけられた移動体ＩＤ及び時間情報を用いることにより紐づけが可能である。例えば、ある映像セグメントには、移動体ＩＤが同一であり、かつ、当該映像セグメントの撮影開始から終了までに取得されたセンサ情報の時系列データが紐づけられる。

　（記憶部２２０）
　記憶部２２０は、生成モデルと、説明情報と、検索クエリとを記憶する。

　生成モデルは、少なくとも映像を入力として説明情報を出力するよう生成されたモデルである。生成モデルは、機械学習モデルと、ルールベースモデルとを含む。

　機械学習モデルは、例えば、少なくとも映像セグメントを入力とし説明情報を出力するよう、教師データを用いて生成されたモデルである。機械学習モデルの一例としては、サポートベクタマシン、決定木、ランダムフォレスト、ニューラルネットワークモデル等があげられるが、これらに限られない。機械学習モデルは、後述する生成部２１が生成したものであってもよいし、外部の装置において生成されたものであってもよい。なお、機械学習モデルの入力は、映像セグメント自体に加えて、又は替えて、当該映像セグメントに紐づけられたセンサ情報を含んでいてもよい。

　ルールベースモデルは、例えば、１以上のルールを含む。各ルールは、センサ情報に関する条件と、当該条件が満たされた場合に採用される説明情報とを含む。なお、各ルールは、センサ情報に関する条件に加えて、又は替えて、映像セグメントを解析して得られる情報に関する条件を含んでいてもよい。映像セグメントを解析して得られる情報とは、例えば、被写体の種類、色等であってもよいが、これらに限られない。

　説明情報は、後述する生成部２１によって生成され、記憶される。検索クエリは、後述する取得部２２によって取得され、記憶される。説明情報及び検索クエリの詳細については後述する。

　（入出力部２３０）
　入出力部２３０は、映像検索装置２に対する入出力を制御する。入出力部２３０は、例えば、キーボード、マウス、タッチパッド、ディスプレイ等を含む。

　（通信部２４０）
　通信部２４０は、ネットワークに接続して映像記憶装置９との通信を制御する。接続するネットワークは、例えば、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、インターネット、モバイルデータ通信ネットワーク、またはこれらの組み合わせであってもよい。

　（制御部２１０）
　制御部２１０は、記憶部２２０、入出力部２３０及び、通信部２４０の各部を制御して、映像検索装置２全体の動作を制御する。制御部２１０は、生成部２１と、取得部２２と、検索部２３と、出力部２４と、入力部２５と、更新部２６とを含む。取得部２２、出力部２４、及び入力部２５は、例示的実施形態１における取得部１２、出力部１４、及び入力部１５と同様に構成されるため、詳細な説明を繰り返さない。

　生成部２１は、生成モデルを用いて、説明情報を生成する。また、生成部２１は、映像セグメント及びセンサ情報を用いて、説明情報を生成する。検索部２３は、説明情報が検索クエリに少なくとも部分的に合致する映像セグメントを映像記憶装置９から検索する。更新部２６は、検索された映像セグメントに関する説明情報のうち、検索クエリに合致しない部分を、判定結果に応じて更新する。「部分的に合致する映像セグメントを検索」すること、及び「合致しない部分を更新」すること等の詳細については、後述する映像検索方法Ｓ２の流れにおいて説明する。

　＜映像検索方法Ｓ２の流れ＞
　以上のように構成された映像検索装置２は、本例示的実施形態に係る映像検索方法Ｓ２を実行する。映像検索方法Ｓ２の流れについて、図６を参照して説明する。図６は、映像検索方法Ｓ２の流れを示すフロー図である。図６に示すように、映像検索方法Ｓ２は、ステップＳ２１～Ｓ２６を含む。

　（ステップＳ２１）
　ステップＳ２１において、生成部２１は、映像セグメント及びセンサ情報を用いて、生成モデルによって、映像セグメント毎に説明情報を生成する。具体的には、生成部２１は、映像セグメントを機械学習モデルに入力する。また、生成部２１は、当該映像セグメントに紐づけられたセンサ情報をルールベースモデルに入力する。そして、生成部２１は、機械学習モデル及びルールベースモデルからそれぞれ出力される説明情報を、映像セグメントに紐づけて記憶部２２０に記憶する。

　ここで、ステップＳ２１で生成される説明情報の具体例について、図７を参照して説明する。図７は、説明情報の具体例を説明する図である。この具体例では、説明情報は、キー及びバリューの組で表現される。なお、説明情報には、バリューが空値であるキーが含まれていてもよい。図７の例では、例えば、道路情報に含まれるキー「状態」のバリューは空値である。以下では、キー「ｘ」及びバリュー「ｙ」の組を、キー「ｘ」のバリュー「ｙ」、キー「ｘ」が有するバリュー「ｙ」等とも記載する。

　説明情報に含まれ得るキーの種別としては、例えば、（ｉ）「自車情報」、（ｉｉ）「交通参加者情報（単体）」、（ｉｉｉ）交通参加者情報（集合）、（ｉｖ）「自車他車相対情報」、（ｖ）「道路情報」、（ｖｉ）「イベント情報」、（ｖｉｉ）「メタ情報」等がある。

　（ｉ）「自車情報」には、自車自体に関係するキー「車種」、「車線種別」、「動作」等が含まれる。なお、「自車」とは、当該映像セグメントを含む動画像を撮影した撮像装置が搭載された移動体を指す。キー「車種」は、自車の属性を示し、この例ではそのバリューは「普通車」である。また、キー「車線種別」は、映像セグメント撮影中の自車の走行状態の１つを示し、この例ではそのバリューは「追い越し車線」である。自車の走行状態を示す他のキーの例としては、図示しないキー「位置」、「速度」、又は「加速度」等もある。また、キー「動作」は、映像セグメント撮影中の自車の動作の１つを示し、この例ではそのバリューは「ブレーキ操作」である。キー「動作」がとり得る他のバリューの例としては、図示しないバリュー「ステアリング（右旋回又は左旋回）」、「合分流／車線変更」、又は「追い越し／追い抜き」等もある。

　（ｉｉ）「交通参加者情報（単体）」には、映像セグメント撮影中における交通参加者の各々に関係するキー「ドライバー」、「種別」等が含まれる。なお、交通参加者とは、自車の内外で交通に参加している人、物又は車両である。キー「ドライバー」のバリューは、この例では「女性」である。また、キー「種別」は、ドライバー以外の交通参加者の種別を示し、この例ではそのバリューは「バイク」である。キー「種別」がとり得る他のバリューの例としては、「他車」、「バイク」、「自転車」、「歩行者」、「動物」等もある。

　（ｉｉｉ）交通参加者情報（集合）
　「交通参加者情報（集合）」には、映像セグメント撮影中における複数の交通参加者に関係するキー「重心」、「範囲」等が含まれる。キー「重心」は、複数の交通参加者の位置の重心を示し、この例ではそのバリューは空値である。キー「範囲」は、複数の交通参加者が含まれる範囲を示し、この例ではそのバリューは空値である。

　（ｉｖ）「自車他車相対情報」
　「自車他車相対情報」には、映像セグメント撮影中における自車及び他車の関係を示すキー「相対距離」、「相対動作」等が含まれる。キー「相対距離」は、自車及び他車の相対距離を示し、この例ではそのバリューは空値である。キー「相対動作」は、自車及び他車の相対動作を示し、この例ではそのバリューは「接近」である。自車及び他車の関係を示す他のキーの例としては、図示しないキー「相対速度」、「相対加速度」等もある。

　（ｖ）「道路情報」
　「道路情報」には、映像セグメント撮影中に自車が走行した道路に関係するキー「形状」、「エリア」、「状態」等が含まれる。キー「形状」は、道路の形状を示し、この例ではそのバリューは「分岐」である。キー「形状」がとり得る他のバリューの例としては、「車線増減」、「合流」、「交差点」等もある。キー「エリア」は、道路が存在するエリアを示し、この例ではそのバリューは「トンネル」である。キー「エリア」がとり得る他のバリューの例としては、「車線変更禁止」、「ゼブラゾーン」、「安全地帯」、「駐車場」、「高速道」、「市街地」、「地名」等もある。キー「状態」は、道路の状態を示し、この例ではそのバリューは空値である。キー「状態」がとり得るバリューの例としては、「降雨」、「降雪」等といった天候を示すもの、「舗装」等もある。

　（ｖｉ）「イベント情報」
　「イベント情報」には、映像セグメント撮影中に発生したイベントに関係するキー「ヒヤリハット」、「渋滞」等が含まれる。キー「ヒヤリハット」は、所謂ヒヤリハットの事象が発生したか否かを示し、この例ではそのバリューは「該当」である。キー「渋滞」は、渋滞が発生していたか否かを示し、この例ではそのバリューは「該当」である。「イベント情報」に含まれ得る他のキーの例としては、「事故」、「工事」、「見通しの良し悪し」、「視界の良し悪し（霧、逆光、豪雨）」、「もらい事故」等もある。

　（ｖｉｉ）「メタ情報」等
　「メタ情報」には、映像セグメントに対するメタな情報を示すキー「モーションブラー」、「コマーシャル（ＣＭ）に出てきそう」等が含まれる。これらのキーは、映像セグメントにどのような交通状況が映されているかに関わらず、映像セグメントの映像としての特徴を示す情報である。キー「モーションブラー」のバリューは、この例では「無し」である。また、キー「ＣＭに出てきそう」のバリューは、この例では空値である。

　なお、図７では、１つのキーが１つのバリューを有する例を挙げたが、１つのキーは複数のバリューを有してもよい。換言すると、説明情報は、１つのキー及び複数のバリューの組を含んでいてもよい。例えば、図７において、種別「自車情報」に含まれるキー「動作」（以降、「自車動作」とも記載する）は、複数のバリュー「ブレーキ操作」及び「左折」を有してもよい。また、１つのキーに対応するバリューは、範囲値で表されてもよい。例えば、種別「自車情報」に含まれる図示しないキー「速度」（以降、「車速」とも記載する）のバリューは、「１０～１５ｋｍ／ｈ」であってもよい。ここでは、「Ｘ～Ｙ」とは、Ｘ以上Ｙ以下との範囲を表し、「ｋｍ／ｈ」とは、キロメートル毎時を表す。

　（ステップＳ２２）
　ステップＳ２２において、取得部２２は、検索クエリを取得する。本ステップの動作は、例示的実施形態１で説明したステップＳ１２の動作とほぼ同様である。ただし、当該ステップで取得する検索クエリは、１又は複数のクエリを含む。説明情報が図７に示すキー及びバリューの組で表現される場合、検索クエリに含まれる各クエリは、キー及びバリューの組で表される。換言すると、検索クエリは、キー及びバリューの複数の組を含む。以下では、「検索クエリに含まれる各クエリを表すキー、バリュー」を、「検索クエリ（又はクエリ）で指定されたキー、バリュー」等とも記載する。

　（ステップＳ２３）
　ステップＳ２３において、検索部２３は、説明情報が検索クエリに少なくとも部分的に合致する映像セグメントを映像記憶装置９から検索する。例えば、検索部２３は、検索クエリに複数のクエリが含まれる場合に、少なくとも一部のクエリを満たす説明情報を、記憶部２２０から抽出する。また、検索部２３は、抽出した説明情報に紐づけられた映像セグメントを検索結果とする。例えば、検索クエリに第１のクエリと、第２のクエリとが含まれていたとする。第１のクエリは、第１のキー及び第１のバリューの組で表され、第２のクエリは、第２のキー及び第２のバリューの組で表される。このとき、検索部２３は、記憶部２２０に記憶された説明情報から、（ｉ）少なくとも第１のクエリに合致する（第１のキー及び第１のバリューの組を含む）説明情報と、（ｉｉ）少なくとも第２のクエリに合致する（第２のキー及び第２のバリューの組を含む）説明情報とを抽出する。（ｉ）の説明情報は、第２のクエリに合致するものと、第２のクエリに合致しないものとを含む。第１のクエリに合致するが第２のクエリに合致しない説明情報は、検索クエリに完全に合致しておらず、部分的に合致している。（ｉｉ）の説明情報は、第１のクエリに合致するものと、第１のクエリに合致しないものとを含む。第２のクエリに合致するが第１のクエリに合致しない説明情報は、検索クエリに完全に合致しておらず、部分的に合致している。なお、検索部２３は、説明情報に、検索クエリで指定されていないキー（第１のキー及び第２のキー以外のキー）が含まれる場合については、当該キーについてはどのようなバリューであってもよいものとして抽出を行う。

　ここで、検索クエリに含まれる各クエリに説明情報が合致するか否かの判断について、具体例を挙げて説明する。１つ目の具体例は、１つのバリューのみを有するキー（一例として、「車種」）を指定したクエリに関する。このようなクエリは一例として、キー「車種」及びバリュー「普通車」の組で表される。このとき、説明情報において、キー「車種」がバリュー「普通車」を有する場合、当該説明情報は当該クエリに合致する。一方、説明情報において、キー「車種」がバリュー「軽自動車」を有する場合、当該説明情報は、当該クエリに合致しない。

　２つ目の具体例は、複数のバリューを有し得るキー（一例として、「自車動作」）を指定したクエリに関する。このようなクエリは一例として、キー「自車動作」及びバリュー「ブレーキ動作」の組で表される。このとき、説明情報において、キー「自車動作」が複数のバリュー「ブレーキ動作」及び「左折」を有する場合、当該説明情報は、当該クエリに合致する。一方、説明情報において、キー「自車動作」が複数のバリュー「加速」及び「左折」を有する場合、当該説明情報は、当該クエリに合致しない。つまり、説明情報において、クエリで指定されたキーが、クエリで指定されたバリューを少なくとも有する場合、当該説明情報は、当該クエリに合致する。なお、クエリが、１つのキー及び複数のバリューの組で表される場合も考えられる。この場合、説明情報において、クエリで指定されたキーが、クエリで指定された全てのバリューを少なくとも有する場合、当該説明情報は、当該クエリに合致するとし、それ以外は合致しないとしてもよい。または、説明情報において、クエリで指定されたキーが、クエリで指定された複数のバリューの少なくとも１つを有する場合、当該説明情報は、当該クエリに合致するとしてもよい。この場合、説明情報において、クエリで指定されたキーが、クエリで指定された複数のバリューの何れも有していない場合、当該説明情報は、当該クエリに合致しないとしてもよい。

　また、３つ目の具体例は、バリューが範囲値で表されるキー（一例として、「車速」）を指定したクエリに関する。このようなクエリは一例として、キー「車速」及びバリュー「１０～３０ｋｍ／ｈ」の組で表される。このとき、説明情報において、キー「車速」がバリュー「１０～１５ｋｍ／ｈ」を有する場合、当該説明情報は、当該クエリに合致する。また、説明情報において、キー「車速」がバリュー「４０～５０ｋｍ／ｈ」を有する場合、当該説明情報は、当該クエリに合致しない。つまり、説明情報において、クエリで指定されたキーのバリューが示す範囲値（以下、説明情報の範囲値ともいう）が、クエリで指定された範囲値に含まれる場合、当該説明情報は、当該クエリに合致する。また、説明情報の範囲値と、クエリで指定された範囲値との間に重複する部分がない場合、当該説明情報は、当該クエリに合致しない。なお、説明情報の範囲値が、クエリで指定された範囲値に対して重複する部分及び重複しない部分の双方を含む場合がある。例えば、説明情報の範囲値が「０～１５ｋｍ／ｈ」であり、クエリで指定された範囲値が「１０～４０ｋｍ／ｈ」である場合が挙げられる。このような説明情報は、合致するとしてもよいし、合致しないとしてもよい。

　検索クエリに含まれる各クエリに説明情報が合致するか否かの判断については、上述の具体例に限られない。また、このような判断で用いる合致条件は、オプションとしてユーザが指定可能であってもよい。

　（ステップＳ２４）
　ステップＳ２４において、出力部２４は、検索部２３による検索結果を出力する。本ステップの動作は、例示的実施形態１で説明したステップＳ１４の動作とほぼ同様である。ただし、検索結果として出力する単位が映像セグメントである点が異なる。

　（ステップＳ２５）
　ステップＳ２５において、入力部２５は、検索結果に対する利用者の判定結果の入力を受け付ける。本ステップの動作は、例示的実施形態１で説明したステップＳ１５の動作とほぼ同様である。ただし、判定結果の入力を受け付ける単位が映像セグメントである点が異なる。

　（ステップＳ２６）
　ステップＳ２６において、更新部２６は、検索された映像セグメントに関する説明情報のうち、検索クエリに合致しない部分を、判定結果に応じて更新する。本ステップにおける更新処理の具体例について、図８～図１０を参照して説明する。

　（具体例１）
　図８は、映像検索方法Ｓ２の具体例１を説明する模式図である。図８に示すように、この具体例では、ステップＳ２２において取得された検索クエリは、「第１のキー「形状」のバリューが「合流」である」と、「第２のキー「状態」のバリュー「降雪」である」とを含む。

　ステップＳ２３において抽出された説明情報は、第１のキー「状態」のバリューは「合流」であるが、第２のキー「状態」のバリューは空値である。したがって、この説明情報は、第１のキーについて検索クエリを満たし、第２のキーについて検索クエリを満たしていないので、検索クエリに部分的に合致している。

　ステップＳ２４では、この説明情報に紐づけられた映像セグメントがディスプレイに表示される。また、ステップＳ２５で受け付けられた判定結果は、「適当」を示す。

　この場合、ステップＳ２６において、更新部２６は、当該説明情報において検索クエリに合致しない第２のキー「状態」のバリューを、検索クエリに合致するよう「降雪」に更新する。

　このように、更新部２６は、当該映像セグメントが適当であることを示す判定結果が得られた場合に、当該説明情報において検索クエリに合致していないキーのバリューを検索クエリに合致するよう更新する。

　（具体例２）
　図９は、映像検索方法Ｓ２の具体例２を説明する模式図である。図９に示すように、この具体例のステップＳ２２において取得された検索クエリは、具体例１と同様である。

　ステップＳ２３において抽出された説明情報は、第１のキー「状態」のバリューは「合流」であるが、第２のキーを含んでいない。したがって、この説明情報は、第１のクエリを満たし、第２のクエリを満たしていないので、検索クエリに部分的に合致している。

　ステップＳ２４では、このような説明情報に紐づけられた映像セグメントがディスプレイに表示される。また、ステップＳ２５で受け付けられた判定結果は、「適当」を示す。

　この場合、ステップＳ２６において、更新部２６は、当該説明情報に、第２のキー「状態」を追加するとともに、そのバリューを検索クエリに合致するよう「降雪」に更新する。

　このように、更新部２６は、当該映像セグメントが適当であることを示す判定結果が得られた場合に、当該説明情報において検索クエリに含まれていないキーを新たに追加し、そのバリューを検索クエリに合致するよう更新する。

　（具体例３）
　図１０は、映像検索方法Ｓ２の具体例３を説明する模式図である。図１０に示すように、この具体例のステップＳ２２において取得された検索クエリは、具体例１、２と同様である。

　ステップＳ２４では、このような説明情報に紐づけられた映像セグメントがディスプレイに表示される。また、ステップＳ２５で受け付けられた判定結果は、「不適当」を示す。

　この場合、ステップＳ２６において、更新部２６は、当該説明情報において検索クエリに合致しない第２のキー「状態」のバリューを、検索クエリを否定するよう「not 降雪」に更新する。

　このように、更新部２６は、当該映像セグメントが不適当であることを示す判定結果が得られた場合に、当該説明情報において検索クエリに合致していないキーのバリューを、検索クエリを否定するよう更新する。なお、この場合、検索部２３は、少なくとも一部の検索クエリを満たす説明情報を記憶部２２０から抽出する際に、検索クエリを否定する情報を含む説明情報は抽出しない。

　（検索クエリに完全に合致する場合）
　なお、ステップＳ２６において、更新部２６は、説明情報が検索クエリに完全に合致し、かつ、判定結果が「不適当」である場合、当該説明情報のうち検索クエリに合致する少なくとも一部分を、合致しないように更新してもよい。

　＜本例示的実施形態の効果＞
　以上のように、本例示的実施形態に係る映像検索装置２、及び映像検索方法Ｓ２が参照する映像記憶装置９には、移動体に搭載された撮影装置が撮影した動画像と、当該移動体に搭載されたセンサが取得したセンサ情報とが記憶されている。また、動画像を時間軸に沿って分割した映像セグメントに、当該センサ情報が紐づけられている。また、映像検索装置２、及び映像検索方法Ｓ２によれば、例示的実施形態と同様の構成に加えて、映像セグメント及びセンサ情報を入力として説明情報を出力するよう生成された生成モデルを用いて、説明情報を生成する、との構成が採用されている。

　当該構成によれば、生成モデルを用いて説明情報を生成するので、説明情報を精度よく生成できる。また、映像セグメントに加えてセンサ情報を用いて説明情報を生成するので、説明情報を精度よく生成できる。したがって、本例示的実施形態は、動画像に事前に紐づけられた情報が無い又は充分にない場合にも、精度よく生成した説明情報を用いて、より精度よく映像セグメントの検索を行うことができる。

　また、映像検索装置２、及び映像検索方法Ｓ２によれば、例示的実施形態と同様の構成に加えて、説明情報が検索クエリに部分的に合致する映像を映像記憶装置９から検索し、検索された映像に関する説明情報のうち、検索クエリに合致しない部分を判定結果に応じて更新する、との構成が採用されている。

　当該構成によれば、検索した映像に関する説明情報のうち検索クエリに合致しない部分を、精度よく更新することができる。

　＜本例示的実施形態の他の態様＞
　本例示的実施形態を変形した他の態様１～８について説明する。

　（態様１）
　態様１は、目的の映像セグメントを検索することを優先する態様である。態様１では、出力部２４及びステップＳ２４は、以下のように変形される。

　出力部２４は、ステップＳ２４において、検索結果に複数の映像セグメントが含まれる場合、検索部２３による検索精度が高い順に検索結果を出力する。

　ここで、検索精度が高いことの具体例について説明する。１つ目の具体例として、検索精度が高いとは、説明情報のうち検索クエリに合致した部分に関する信頼度が高いことであってもよい。このような信頼度としては、機械学習モデルから説明情報とともに出力される信頼度を採用可能である。例えば、生成部２１は、機械学習モデルから出力された説明情報及び信頼度を、映像セグメントに紐づけて記憶部２２０に記憶する。この場合、出力部２４は、説明情報のうち検索クエリに合致した部分に紐づけられた信頼度が高いものから順に、映像セグメントを出力する。

　２つ目の具体例として、検索精度が高いとは、説明情報において検索クエリに合致した部分が多いことであってもよい。例えば、検索クエリに３つのクエリが含まれる場合、３つのクエリすべてに合致する説明情報、２つのクエリに合致し１つのクエリに合致しない説明情報、１つのクエリに合致し２つのクエリに合致しない説明情報、の順に検索精度が高い。

　３つ目の具体例として、検索精度が高いとは、合致したクエリの重みが大きいことであってもよい。この場合、検索クエリに含まれる複数のクエリには、重みが付与されていることが前提である。この重みは、ユーザが指定するものであってもよい。また、この重みは、事前に指定されたものであってもよいし、検索クエリと共に指定されるものであってもよい。例えば、検索クエリに、キー「自車動作」を指定したクエリ、キー「車速」を指定したクエリの２つが含まれ、キー「自車動作」はキー「車速」より重みが大きいとする。この場合、キー「自車動作」が少なくとも合致した説明情報、キー「自車動作」が合致せずにキー「車速」が合致した説明情報、の順に検索精度が高い。

　なお、「出力する順序」は、例えば、ディスプレイ上の配列順序により実現してもよいし、時間的な順序により実現してもよい。例えば、出力部２４は、検索結果に含まれる複数の映像セグメントを、検索精度が高い順に所定方向に（例えば、上から下に）配列してディスプレイに表示する。また、出力部２４は、検索精度が高い順に所定数の映像セグメントをディスプレイに表示し、それらについて判定結果を受け付けると、次に検索精度が高い所定数の映像セグメントをディスプレイに表示することを繰り返す。ただし、「出力する順序」を実現する手法は、これらに限られない。

　態様１の構成によれば、検索精度が高い順に検索結果を出力するので、利用者には、出力される順に映像セグメントが提示される。これにより、利用者は、検索精度が高い順に映像セグメントを認識することができ、目的の映像セグメントを探しやすいというメリットを享受することができる。

　（態様２）
　態様２は、説明情報の精度向上を優先する態様である。態様２では、出力部２４及びステップＳ２４は、以下のように変形される。

　出力部２４は、ステップＳ２４において、検索結果に複数の映像セグメントが含まれる場合、検索部２３による検索精度が低い順に検索結果を出力する。

　ここで、検索精度が低いことの具体例について説明する。１つ目の具体例として、例えば、説明情報が検索クエリに合致している程度が低いことであってもよい。例えば、検索クエリに３つのクエリが含まれる場合、１つのみが合致、２つのみが合致、３つ全てが合致、の順に、検索精度が低いといえる。この場合、出力部２４は、説明情報が検索クエリに合致している程度が低いものから順に映像セグメントを出力する。

　２つ目の具体例として、検索精度が低いとは、説明情報において検索クエリに合致した部分が少ないことであってもよい。例えば、検索クエリに３つのクエリが含まれる場合、１つのクエリに合致し２つのクエリに合致しない説明情報、２つのクエリに合致し１つのクエリに合致しない説明情報、３つのクエリすべてに合致する説明情報、の順に検索精度が低い。

　３つ目の具体例として、検索精度が低いとは、合致したクエリの重みが小さいことであってもよい。重みについては、検索精度が高いことの３つ目の具体例で説明した通りである。例えば、検索クエリに、キー「自車動作」を指定したクエリ、キー「車速」を指定したクエリの２つが含まれ、キー「車速」はキー「自車動作」より重みが小さいとする。この場合、キー「車速」が少なくとも合致した説明情報、キー「車速」が合致せずにキー「自車動作」が合致した説明情報、の順に検索精度が低い。

　４つめの具体例として、検索精度が低いとは、説明情報に含まれる空値の個数が多いことであってもよい。この場合、出力部２４は、説明情報が空値を多く含むものから順に映像セグメントを出力する。

　なお、利用者に出力する順序の具体例については、態様１と同様であるため、詳細な説明を省略する。

　ここで、ステップＳ２５において、利用者は、検索結果に含まれる映像セグメントの全てについて判定結果を入力せず、出力される順序が早い一部について判定結果を入力する可能性がある。特に、検索結果に含まれる映像セグメントの個数が多い場合、このような傾向が高くなると考えられる。

　したがって、態様２の構成によれば、検索精度が低い順に検索結果を出力するので、利用者には、出力される順に映像セグメントが提示される。これにより、利用者は、検索精度が低い順に映像セグメントを認識するので、認識した順序が早いものほど判定結果を入力する可能性が高くなることが期待できる。その結果、検索精度がより低い映像セグメントに対する判定結果をより多く受け付けることができ、説明情報をより精度よく更新できる。

　（態様３）
　態様３は、態様１及び態様２のそれぞれをモードとして切り替え可能とする態様である。態様３では、映像検索装置２は、利用者によりいずれのモードを選択するかの入力を受け付けるよう変形される。映像検索装置２は、利用者により選択されたモードにしたがって、態様１又は態様２として動作する。

　態様３の構成によれば、利用者は、目的の映像セグメントを検索することを優先するか、説明情報の精度向上を優先するかを、状況に応じて切り替えられるというメリットを享受することができる。

　（態様４）
　態様４は、検索結果を分類する態様である。態様４では、出力部２４及びステップＳ２４、並びに、入力部２５及びステップＳ２５は、以下のように変形される。

　出力部２４は、ステップＳ２４において、検索結果に複数の映像セグメントが含まれる場合、検索結果を分類して出力する。例えば、出力部２４は、説明情報に応じて複数の映像セグメントを分類してもよい。例えば、検索結果に含まれる複数の映像セグメントを、キー「エリア」のバリューに応じて分類してもよい。この場合、分類に用いるキーは、検索クエリに含まれているキーであってもよいし、含まれていないキーであってもよい。そのほか、出力部２４は、映像セグメントの映像としての特徴（例えば、被写体の種別、色等）に応じて複数の映像セグメントを分類してもよい。また、出力部２４は、分類モデルを用いて複数の映像セグメントを分類してもよい。この場合、分類モデルは、映像セグメントを入力としてその分類を出力するよう機械学習を用いて生成されたものである。分類モデルは、映像検索装置２の記憶部２２０に記憶されていてもよいし、外部の装置に記憶されていてもよい。外部の装置に記憶されている場合、映像検索装置２は、外部の装置と通信することにより分類モデルを用いる。また、分類モデルは、映像検索装置２の図示しない機能ブロックが生成したものであってもよいし、他の装置が生成したものであってもよい。

　なお、「分類して出力」する手法としては、例えば、ディスプレイの表示領域を複数の領域に分割し、領域及び分類を対応させる手法がある。また、他の手法としては、例えば、分類ごとに異なる画面を生成し、画面を切り替えて表示する手法がある。なお、「分類して出力」する手法は、これらに限られない。

　入力部２５は、ステップＳ２５において、分類ごとに判定結果の入力を受け付ける。例えば、映像セグメントが複数の領域に分類されて表示されている場合、入力部２５は、判定結果を受け付けるユーザインタフェース部品を領域ごとに表示し、各ユーザインタフェース部品に対する入力操作を受け付けてもよい。ただし、「分類ごとに判定結果の入力を受け付ける」手法は、これに限られない。

　態様４の構成によれば、利用者は、検索結果に含まれる各映像セグメントについて個別に判定結果を入力する必要がなく、分類ごとに一括して判定結果を入力することができる。そのため、より多くの映像セグメントについて判定結果を受け付けることができ、説明情報をより精度よく更新することができる。

　（態様５）
　態様５は、複数の判定結果を用いる態様である。態様５では、入力部２５及びステップＳ２５、並びに更新部２６及びステップＳ２６は、以下のように変形される。

　入力部２５は、ステップＳ２５において、検索結果に対する複数の判定結果の入力を受け付ける。例えば、映像検索装置２は、ステップＳ２４からステップＳ２５までを繰り返すことにより、判定結果を受け付けた映像セグメントを再度出力して再度判定結果を受け付けてもよい。この場合、１人の利用者が複数の判定結果を入力する。また、例えば、映像検索装置２は、ステップＳ２４において検索結果を複数の端末に出力し、ステップＳ２５において複数の端末から判定結果の入力を受け付けてもよい。この場合、複数の利用者がそれぞれ判定結果を入力する。

　更新部２６は、ステップＳ２６において、複数の判定結果を用いて説明情報を更新する。例えば、更新部２６は、複数の判定結果のうち最も多い判定結果を用いてもよい。具体例として、５つの判定結果のうち３つが「適当」を示し２つが「不適当」を示す場合、更新部２６は、判定結果が多い方の「適当」を採用して説明情報を更新する。また、更新部２６は、複数の判定結果の各々に対して重みづけを行ってもよい。例えば、ステップＳ２４～Ｓ２５を繰り返すことにより複数の判定結果の入力を受け付けた場合、判定結果の入力を受け付けた順序が直近に近いほど重みを大きくしてもよい。

　例えば、１人の利用者から複数の判定結果を受け付ける場合、利用者は、出力された映像セグメントが目的のものであるかどうか判断に迷い、入力する度に判定結果を変更する可能性がある。また、複数の利用者から判定結果を受け付ける場合、ある利用者の判定結果は、他の利用者の判定結果とは異なる可能性がある。態様５の構成によれば、複数の判定結果を用いるので、１つの判定結果を用いる場合と比べて、説明情報を精度よく更新することができる。

　（態様６）
　態様６は、類似する映像セグメントに同一の補完を適用する態様である。態様６では、更新部２６及びステップＳ２６は、以下のように変形される。

　ここで、前述したように、映像記憶装置９に記憶された動画像の各映像セグメントには、時間情報及び位置情報が紐づけられている。この紐づけは、動画像の各フレームに付されたタイムスタンプ、及び、センサ情報に含まれる位置情報の時系列データを照合することにより可能である。

　更新部２６は、ステップＳ２６において、映像記憶装置９に記憶された映像のうち、説明情報の更新対象となる映像セグメントに対して、時間情報及び位置情報の一方又は両方が類似する他の映像セグメントを抽出する。また、更新部２６は、抽出した他の映像に関する説明情報をさらに更新する。より具体的には、更新部２６は、抽出した他の映像に関する説明情報を、更新対象の説明情報と同様に更新する。

　ここで、説明情報の更新対象となる映像セグメントとは、前述した通り、例えば、説明情報が検索クエリに少なくとも部分的に合致した映像セグメントである。

　例えば、図８を参照した説明情報の更新の具体例では、キー「状態」のバリューを空値から「降雪」に更新している。この具体例において、本態様では、更新部２６は、当該説明情報が紐づけられた映像セグメントに対して、時間的な距離及び空間的な距離がそれぞれ閾値以内の他の映像セグメントを抽出する。抽出される他の映像セグメントは、例えば、当該映像セグメントの撮影時に当該移動体の周辺を走行していた他の移動体で撮影された映像セグメントである。そして、更新部２６は、抽出した他の映像セグメントに紐づけられた説明情報についても、キー「状態」のバリューを「降雪」に更新する。

　なお、各映像セグメントには、時間情報及び位置情報の両方に限らず、何れか一方が紐づけられていてもよい。

　また、更新部２６は、ステップＳ２６において、時間情報及び位置情報が類似することに加えて、走行方向が類似する他の映像セグメントを抽出するようにしてもよい。例えば、類似する時間帯に同一の道路を走行する場合であっても、走行方向が上りであるか下りであるかに応じて、映像に付与すべき説明情報は異なる可能性がある。走行方向の条件を追加することにより、説明情報を同様に更新する他の映像セグメントをより精度よく抽出できる。

　具体的には、更新部２６は、ステップＳ２６において、説明情報の更新対象となる映像セグメントの撮影時における移動体の走行方向を特定する。例えば、更新部２６は、映像セグメントに紐づけられる位置情報の時系列データを用いることにより、走行方向を特定可能である。抽出される他の映像セグメントは、例えば、当該映像セグメントの撮影時に、当該移動体と同一の道路を、同じ方向（上り又は下り）に走行していた他の移動体で撮影された映像セグメントである。

　態様６の構成によれば、ある映像セグメントに対する利用者の判定結果に応じて、利用者の判定結果を受け付けていない他の映像セグメントについても説明情報を更新できる。そのため、より多くの映像セグメントについて、説明情報をより精度よく更新することができる。

　（態様７）
　態様７は、説明情報間の依存関係を考慮する態様である。態様７では、更新部２６及びステップＳ２６は、以下のように変形される。

　本態様では、説明情報は、第１説明情報及び第２説明情報を含む。第１説明情報及び第２説明情報は、依存関係を有する。記憶部２２０には、このような依存関係に関する情報が記憶されている。例えば、図７を参照して説明した説明情報では、第１説明情報の一例として、キー「エリア」が挙げられる。また、第２説明情報の一例として、キー「状態」が挙げられる。例えば、キー「エリア」のバリューが「トンネル」である場合には、キー「状態」のバリューは「降雨」、「降雪」ではあり得ない。つまり、キー「エリア」とキー「状態」との間には依存関係がある。

　更新部２６は、ステップＳ２６において、第１説明情報及び第２説明情報の依存関係を用いて説明情報を更新する。

　例えば、図８を参照した説明情報の更新の具体例では、キー「状態」のバリューを空値から「降雪」に更新していた。この具体例において、もし、キー「エリア」のバリューが「トンネル」であった場合、更新部２６は、キー「エリア」及びキー「状態」間の依存関係を考慮して、キー「状態」のバリューを「降雪」に更新しない。

　態様７の構成によれば、第１説明情報及び第２説明情報の依存関係を考慮して説明情報を更新するので、説明情報をより精度よく更新することができる。

　（態様８）
　態様８は、更新対象とする説明情報の種類を制限する態様である。態様４では、更新部２６及びステップＳ２６は、以下のように変形される。

　本態様では、説明情報には、第３説明情報と第４説明情報とが含まれる。また、生成部２１は、ルールベースモデルを用いて第３説明情報を生成する。また、生成部２１は、機械学習モデル又はユーザ入力に基づき第４説明情報を生成する。ルールベースモデル及び機械学習モデルは、記憶部２２０に記憶され、その詳細については上述した通りである。また、生成部２１は、各映像に関してユーザが入力した説明文を取得し、取得した説明文に基づき第４説明情報を生成してもよい。ユーザが入力した説明文に基づき説明情報を生成することの詳細については、例示的実施形態１で説明した通りである。記憶部２２０には、説明情報の種類（例えば、キー）に応じて、第３説明情報及び第４説明情報のいずれであるかを示す情報が記憶されている。

　更新部２６は、ステップＳ２６においては、第３説明情報を更新せず、第４説明情報を更新する。

　ここで、第３説明情報は、ルールベースモデルに基づいて導出されるため、客観性が高く、かつ、明確に定義される可能性が高い。このため、第３説明情報は、比較的高精度な情報であると言える。第４説明情報は、機械学習モデル又はユーザ入力に基づいて導出されるため、明確な定義が難しい可能性があったり、客観性が低い可能性があったりする。このため、第４説明情報は、判定結果のフィードバックにより精度向上の余地がある情報であると言える。

　態様８の構成によれば、高精度な第３説明情報を更新せず、精度向上の余地がある第４説明情報を更新するので、説明情報をより精度よく更新することができる。

　〔例示的実施形態３〕
　本発明の第３の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態２にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を適宜省略する。

　＜映像検索システム３０の構成＞
　本例示的実施形態に係る映像検索システム３０の構成について、図１１を参照して説明する。図１１は、映像検索システム３０の構成を示すブロック図である。

　図１１に示すように、映像検索システム３０は、映像検索装置３と、映像記憶装置９とを含む。映像検索装置３は、制御部３１０と、記憶部３２０と、入出力部３３０と、通信部３４０とを備える。映像記憶装置９については、例示的実施形態２において説明した通りである。また、記憶部３２０、入出力部３３０、及び通信部３４０については、例示的実施形態２において説明した記憶部２２０、入出力部２３０、及び通信部２４０と同様であるため、詳細な説明を繰り返さない。

　図１１に示すように、制御部３１０は、生成部３１と、取得部３２と、検索部３３と、出力部３４と、入力部３５と、更新部３６と、モデル更新部３７とを含む。ここでは、モデル更新部３７の構成について説明する。それ以外の各機能ブロックについては、例示的実施形態２と同様に構成されるため、詳細な説明を繰り返さない。

　モデル更新部３７は、更新部３６により更新された説明情報を用いて、生成モデルを更新する。生成モデルの更新の詳細については、後述する映像検索方法Ｓ３の流れにおいて説明する。

　＜映像検索方法Ｓ３の流れ＞
　以上のように構成された映像検索装置３は、本例示的実施形態に係る映像検索方法Ｓ３を実行する。映像検索方法Ｓ３の流れについて、図１２を参照して説明する。図１２は、映像検索方法Ｓ３の流れを示すフロー図である。図１２に示すように、映像検索方法Ｓ３は、ステップＳ３１～Ｓ３７を含む。ステップＳ３１～Ｓ３６の動作は、例示的実施形態２として説明したステップＳ２１～Ｓ２６の動作と同様である。ここでは、ステップＳ３７の動作について説明する。

　（ステップＳ３７）
　ステップＳ３７において、モデル更新部３７は、ステップＳ３６で更新された説明情報を用いて、生成モデルを更新する。

　例えば、モデル更新部３７は、更新された説明情報を教師データとして、生成モデルに含まれる機械学習モデルに対して追加学習を行う。具体例として、図８を参照して説明したように、キー「状態」のバリューが空値から「降雪」に更新された場合について説明する。この場合、モデル更新部３７は、機械学習モデルに対して、該当する映像セグメントを入力するとキー「状態」及びバリュー「降雪」の組を出力するよう、追加学習を行う。

　＜本例示的実施形態の効果＞
　本例示的実施形態に係る映像検索装置３及び映像検索方法Ｓ３は、更新部３６により更新された説明情報を用いて、生成モデルを更新する、との構成を採用している。

　当該構成によれば、利用者による判定結果に適合した説明情報を出力するよう生成モデルを更新するので、更新した生成モデルを用いて生成した説明情報を用いた検索を行うことができ、検索精度を向上させることができる。

　〔変形例〕
　例示的実施形態２～３の各々は、以下のように変形可能である。

　各例示的実施形態において、映像記憶装置９は静止画を記憶し、静止画を検索対象としてもよい。この場合、静止画は、請求の範囲に記載した映像の一例である。また、映像記憶装置９は動画像を記憶し、動画像を映像セグメント単位ではなくファイル単位で検索対象としてもよい。この場合、動画像のファイルは、請求の範囲に記載した映像の一例である。

　各例示的実施形態において、生成モデルは、機械学習モデル及びルールベースモデルの両方に限らず、どちらか一方のみを含んでいてもよい。

　各例示的実施形態において、生成部２１、３１は、映像セグメント及びセンサ情報に加えて、映像セグメントと紐づけ可能な各種情報を用いて説明情報を生成してもよい。そのような各種情報の一例としては、例えば、映像セグメントの撮影時に移動体の近傍で観測された気象情報があるが、これに限られない。

　各例示的実施形態において、説明情報及び検索クエリの一方又は両方は、自然文であってもよい。

　各例示的実施形態において、映像検索装置２、３の各機能ブロックは、物理的に単体で構成される装置に含まれていてもよいし、物理的に異なる複数の装置に分散して含まれていてもよい。

　〔ソフトウェアによる実現例〕
　映像検索装置１、２、３の一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、映像検索装置１、２、３は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１３に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを映像検索装置１、２、３として動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、映像検索装置１、２、３の各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。

　（付記１）
　映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
　検索クエリを取得する取得手段と、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
　前記検索手段による検索結果を出力する出力手段と、
　前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
を備える映像検索装置。

　上記の構成によれば、映像に関する情報の量または精度が充分でない場合であっても、生成した説明情報を精度よく更新することができ、更新した説明情報を用いた検索の精度を向上させることができる。

　（付記２）
　前記生成手段は、少なくとも映像を入力として説明情報を出力するよう生成された生成モデルを用いて、前記説明情報を生成する、
　付記１に記載の映像検索装置。

　上記の構成によれば、生成モデルを用いることにより、映像に関する情報が無い又は充分でない場合であっても、当該映像の説明情報を精度よく生成することができる。

　（付記３）
　前記更新手段により更新された説明情報を用いて、前記生成モデルを更新するモデル更新手段をさらに備える、
　付記２に記載の映像検索装置。

　上記の構成によれば、更新された生成モデルを用いることにより、説明情報をさらに精度よく生成することができる。

　（付記４）
　前記検索手段は、前記説明情報が前記検索クエリに少なくとも部分的に合致する映像を前記映像記憶装置から検索し、
　前記更新手段は、検索された映像に関する説明情報のうち、前記検索クエリに合致しない部分を、前記判定結果に応じて更新する、
　付記１から３の何れか１つに記載の映像検索装置。

　上記の構成によれば、検索された映像に関する説明情報のうち検索クエリに合致しない部分を精度よく更新することができる。

　（付記５）
　前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が高い順に前記検索結果を出力する、
　付記１から４の何れか１つに記載の映像検索装置。

　上記の構成によれば、利用者は、目的の映像セグメントを探しやすいというメリットを享受することができる。

　（付記６）
　前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が低い順に前記検索結果を出力する、
　付記１から４の何れか１つに記載の映像検索装置。

　上記の構成によれば、利用者は、検索精度の低いものから順に判定結果を入力することになる。これにより、検索精度の低い映像に関する説明情報をより精度よく更新することができる。

　（付記７）
　前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索結果を分類して出力し、
　前記入力手段は、前記分類ごとに前記判定結果の入力を受け付ける、
　付記１から６の何れか１つに記載の映像検索装置。

　上記の構成によれば、利用者は、検索結果に含まれる映像ごとに個別に判定結果を入力する必要がなく、分類ごとに一括して判定結果を入力することができ、判定結果を入力しやすくなる。このため、より多くの映像に対して判定結果が入力される可能性が高くなり、説明情報をより精度よく更新することができる。

　（付記８）
　前記入力手段は、前記検索結果に対する複数の前記判定結果の入力を受け付け、
　前記更新手段は、複数の前記判定結果を用いて前記説明情報を更新する、
　付記１から７の何れか１つに記載の映像検索装置。

　上記の構成によれば、１つの判定結果を用いる場合と比べてより確実な判定結果を得ることができる。これにより、より精度よく説明情報を更新することができる。

　（付記９）
　前記映像記憶装置に記憶された各映像には時間情報及び位置情報の一方又は両方が紐づけられ、
　前記更新手段は、前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して時間情報及び位置情報の一方又は両方が類似する他の映像に関する前記説明情報をさらに更新する、
　付記１から８の何れか１つに記載の映像検索装置。

　上記の構成によれば、判定結果の入力を受け付けていない映像についても、説明情報を精度よく更新することができる。

　（付記１０）
　前記説明情報は、第１説明情報及び第２説明情報を含み、
　前記更新手段は、前記第１説明情報及び前記第２説明情報の依存関係を用いて前記説明情報を更新する、
　付記１から９の何れか１つに記載の映像検索装置。

　上記の構成によれば、依存関係を有する第１説明情報及び前記第２説明情報をより精度よく更新することができる。

　（付記１１）
　前記映像記憶装置に記憶された各映像は、
　　移動体に搭載された撮影装置が撮影した映像であり、
　　各映像には、前記移動体に搭載されたセンサが取得したセンサ情報が紐づけられ、
　前記生成手段は、前記映像及び前記センサ情報を用いて、前記説明情報を生成する、
　付記１から１０の何れか１つに記載の映像検索装置。

　上記の構成によれば、移動体に搭載された撮影装置が撮影した映像に関する情報の量または精度が充分でない場合であっても、当該映像の検索精度を向上させることができる。

　（付記１２）
　前記更新手段は、
　　前記説明情報の更新対象となる映像について、当該映像の撮影時における前記移動体の走行方向を特定し、
　　前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して前記走行方向が類似する他の映像に関する前記説明情報をさらに更新する、
　付記１１に記載の映像検索装置。

　上記の構成によれば、移動体の走行方向を考慮することで、判定結果の入力を受け付けていない映像についても、説明情報を精度よく更新することができる。
ことができる。

　（付記１３）
　前記説明情報には、第３説明情報と第４説明情報とが含まれ、
　前記生成手段は、ルールベースモデルを用いて前記第３説明情報を生成するとともに、機械学習モデル又はユーザ入力に基づき前記第４説明情報を生成し、
　前記更新手段は、前記第３説明情報を更新せず、前記第４説明情報を更新する、
　付記１１又は１２に記載の映像検索装置。

　第３説明情報は、ルールベースモデルにより生成されるため、客観性が高く、かつ、明確に定義される可能性が高い。これに対して、第４説明情報は、機械学習モデル又はユーザ入力に基づき生成されるため、定義が難しい、または、客観性が低い可能性がある。上記構成によれば、客観性が高く明確に定義される第３説明情報については、生成部が生成したものを採用し、客観性が低い又は定義が難しい第４説明情報を更新することで、精度よく説明情報を更新することができる。

　（付記１４）
　映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
　検索クエリを取得する取得手段と、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
　前記検索手段による検索結果を出力する出力手段と、
　前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
を備える映像検索システム。

　上記の構成によれば、付記１と同様の効果を奏する。

　（付記１５）
　映像記憶装置に記憶された映像ごとに説明情報を生成し、
　検索クエリを取得し、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索し、
　検索結果を出力し、
　前記検索結果に対する利用者の判定結果の入力を受け付け、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する、映像検索方法。

　上記の構成によれば、付記１と同様の効果を奏する。

　（付記１６）
　コンピュータを映像検索装置として機能させるためのプログラムであって、前記コンピュータを、
　映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
　検索クエリを取得する取得手段と、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
　前記検索手段による検索結果を出力する出力手段と、
　前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
として機能させるプログラム。

　上記の構成によれば、付記１と同様の効果を奏する。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。

　少なくとも１つのプロセッサを備え、
　前記プロセッサは、
　　映像記憶装置に記憶された映像ごとに説明情報を生成する生成処理と、
　　検索クエリを取得する取得処理と、
　　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索処理と、
　　前記検索処理による検索結果を出力する出力処理と、
　　前記検索結果に対する利用者の判定結果の入力を受け付ける入力処理と、
　　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新処理と、
を実行する映像検索装置。

　なお、この映像検索装置は、更にメモリを備えていてもよく、このメモリには、前記生成処理と、前記取得処理と、前記検索処理と、出力処理と、入力処理と、更新処理と、を前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１０、２０、３０　映像検索システム
１、２、３　映像検索装置
９　映像記憶装置
１１、２１、３１　生成部
１２、２２、３２　取得部
１３、２３、３３　検索部
１４、２４、３４　出力部
１５、２５、３５　入力部
１６、２６、３６　更新部
３７　モデル更新部
２１０、３１０　制御部
２２０、３２０　記憶部
２３０、３３０　入出力部
２４０、３４０　通信部
Ｃ１　プロセッサ
Ｃ２　メモリ
Ｓ１、Ｓ２、Ｓ３　映像検索方法

Claims

　映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
　検索クエリを取得する取得手段と、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
　前記検索手段による検索結果を出力する出力手段と、
　前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
を備える映像検索装置。
　前記生成手段は、少なくとも映像を入力として説明情報を出力するよう生成された生成モデルを用いて、前記説明情報を生成する、
　請求項１に記載の映像検索装置。
　前記更新手段により更新された説明情報を用いて、前記生成モデルを更新するモデル更新手段をさらに備える、
　請求項２に記載の映像検索装置。
　前記検索手段は、前記説明情報が前記検索クエリに少なくとも部分的に合致する映像を前記映像記憶装置から検索し、
　前記更新手段は、検索された映像に関する説明情報のうち、前記検索クエリに合致しない部分を、前記判定結果に応じて更新する、
　請求項１から３の何れか１項に記載の映像検索装置。
　前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が高い順に前記検索結果を出力する、
　請求項１から４の何れか１項に記載の映像検索装置。
　前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索手段による検索精度が低い順に前記検索結果を出力する、
　請求項１から４の何れか１項に記載の映像検索装置。
　前記出力手段は、前記検索結果に複数の映像が含まれる場合、前記検索結果を分類して出力し、
　前記入力手段は、前記分類ごとに前記判定結果の入力を受け付ける、
　請求項１から６の何れか１項に記載の映像検索装置。
　前記入力手段は、前記検索結果に対する複数の前記判定結果の入力を受け付け、
　前記更新手段は、複数の前記判定結果を用いて前記説明情報を更新する、
　請求項１から７の何れか１項に記載の映像検索装置。
　前記映像記憶装置に記憶された各映像には時間情報及び位置情報の一方又は両方が紐づけられ、
　前記更新手段は、前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して時間情報及び位置情報の一方又は両方が類似する他の映像に関する前記説明情報をさらに更新する、
　請求項１から８の何れか１項に記載の映像検索装置。
　前記説明情報は、第１説明情報及び第２説明情報を含み、
　前記更新手段は、前記第１説明情報及び前記第２説明情報の依存関係を用いて前記説明情報を更新する、
　請求項１から９の何れか１項に記載の映像検索装置。
　前記映像記憶装置に記憶された各映像は、
　　移動体に搭載された撮影装置が撮影した映像であり、
　　各映像には、前記移動体に搭載されたセンサが取得したセンサ情報が紐づけられ、
　前記生成手段は、前記映像及び前記センサ情報を用いて、前記説明情報を生成する、
　請求項１から１０の何れか１項に記載の映像検索装置。
　前記更新手段は、
　　前記説明情報の更新対象となる映像について、当該映像の撮影時における前記移動体の走行方向を特定し、
　　前記映像記憶装置に記憶された映像のうち、前記説明情報の更新対象となる映像に対して前記走行方向が類似する他の映像に関する前記説明情報をさらに更新する、
　請求項１１に記載の映像検索装置。
　前記説明情報には、第３説明情報と第４説明情報とが含まれ、
　前記生成手段は、ルールベースモデルを用いて前記第３説明情報を生成するとともに、機械学習モデル又はユーザ入力に基づき前記第４説明情報を生成し、
　前記更新手段は、前記第３説明情報を更新せず、前記第４説明情報を更新する、
　請求項１１又は１２に記載の映像検索装置。
　映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
　検索クエリを取得する取得手段と、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
　前記検索手段による検索結果を出力する出力手段と、
　前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
を備える映像検索システム。
　映像記憶装置に記憶された映像ごとに説明情報を生成し、
　検索クエリを取得し、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索し、
　検索結果を出力し、
　前記検索結果に対する利用者の判定結果の入力を受け付け、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する、映像検索方法。
　コンピュータを映像検索装置として機能させるためのプログラムであって、前記コンピュータを、
　映像記憶装置に記憶された映像ごとに説明情報を生成する生成手段と、
　検索クエリを取得する取得手段と、
　前記検索クエリおよび前記説明情報を用いて、前記映像記憶装置から映像を検索する検索手段と、
　前記検索手段による検索結果を出力する出力手段と、
　前記検索結果に対する利用者の判定結果の入力を受け付ける入力手段と、
　前記判定結果および前記検索クエリに基づいて、前記説明情報を更新する更新手段と、
として機能させるプログラム。