WO2022070340A1

WO2022070340A1 - 映像検索システム、映像検索方法、及びコンピュータプログラム

Info

Publication number: WO2022070340A1
Application number: PCT/JP2020/037251
Authority: WO
Inventors: 洋介本橋
Original assignee: 日本電気株式会社
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-04-07
Also published as: JPWO2022070340A1; US20230297613A1

Abstract

映像検索システム（１０）は、映像のシーンを示すシーン情報を取得するシーン情報取得部（１１０）と、検索クエリを取得する検索クエリ取得部（１２０）と、シーン情報と検索クエリとの類似度を算出する類似度算出部（１３０）と、類似度に基づいて、検索クエリに対応した映像を検索する映像検索部（１４０）とを備える。このような映像検索システムによれば、例えば自然言語による検索クエリを用いて映像を適切に認識することが可能となる。

Description

映像検索システム、映像検索方法、及びコンピュータプログラム

　本発明は、映像を検索する映像検索システム、映像検索方法、及びコンピュータプログラムの技術分野に関する。

　この種のシステムとして、大量の映像データの中から所望の映像を検索するものが知られている。例えば特許文献１では、映像からフレームごとの画像特徴量を抽出して映像を検索する技術が開示されている。特許文献２では、検索クエリ用の静止画像を用いて映像を検索する技術が開示されている。

特開２０１５－１１４６８５号公報特開２０１３－９２９４１号公報

　検索方法の一例として、自然言語を用いるものが考えられる。しかしながら、上述した特許文献１及び２に記載されているような技術では、画像を用いた検索しか想定されておらず、自然言語を用いて映像を検索することができない。

　本発明は、上記問題点に鑑みてなされたものであり、所望の映像を適切に検索することが可能な映像検索システム、映像検索方法、及びコンピュータプログラムを提供することを課題とする。

　本発明の映像検索システムの一の態様は、前記映像のシーンを示すシーン情報を取得するシーン情報取得部と、検索クエリを取得する検索クエリ取得部と、前記シーン情報と前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備える。

　本発明の映像検索方法の一の態様は、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索する。

　本発明のコンピュータプログラムの一の態様は、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させる。

　上述した映像検索システム、映像検索方法、及びコンピュータプログラムのそれぞれの一の態様によれば、所望の映像を適切に検索することが可能であり、特に、自然言語を用いた映像検索を適切に実行することができる。

第１実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。第１実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。第１実施形態に係る映像検索システムの変形例の構成を示すブロック図である。第１実施形態に係る映像検索システムの動作の流れを示すフローチャートである。第２実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。クラスタに対応する単語の一例を示す表である。第２実施形態に係る映像検索システムの動作の流れを示すフローチャートである。第３実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。物体タグの一例を示す表である。第３実施形態に係る映像検索システムの変形例の構成を示すブロック図である。第３実施形態に係る映像検索システムの動作の流れを示すフローチャートである。第４実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。第４実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

　以下、図面を参照しながら、映像検索システム、映像検索方法、及びコンピュータプログラムの実施形態について説明する。

　＜第１実施形態＞
　まず、第１実施形態に係る映像検索システムについて、図１から図４を参照して説明する。

　（ハードウェア構成）
　図１を参照しながら、第１実施形態に係る映像検索システムのハードウェア構成について説明する。図１は、第１実施形態に係る映像検索システムのハードウェア構成を示すブロック図である。

　図１に示すように、第１実施形態に係る映像検索システム１０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３と、記憶装置１４とを備えている。映像検索システム１０は更に、入力装置１５と、出力装置１６とを備えていてもよい。ＣＰＵ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

　ＣＰＵ１１は、コンピュータプログラムを読み込む。例えば、ＣＰＵ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、ＣＰＵ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。ＣＰＵ１１は、ネットワークインタフェースを介して、映像検索システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。ＣＰＵ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、ＣＰＵ１１が読み込んだコンピュータプログラムを実行すると、ＣＰＵ１１内には、映像を検索するための機能ブロックが実現される。

　ＲＡＭ１２は、ＣＰＵ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、ＣＰＵ１１がコンピュータプログラムを実行している際にＣＰＵ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（Ｄｙｎａｍｉｃ　ＲＡＭ）であってもよい。

　ＲＯＭ１３は、ＣＰＵ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）であってもよい。

　記憶装置１４は、映像検索システム１０が長期的に保存するデータを記憶する。記憶装置１４は、ＣＰＵ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１５は、映像検索システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。

　出力装置１６は、映像検索システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、映像検索システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。

　（機能的構成）
　続いて、図２及び図３を参照しながら、第１実施形態に係る映像検索システム１０の機能的構成について説明する。図２は、第１実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図３は、第１実施形態に係る映像検索システムの変形例の構成を示すブロック図である。

　図２に示すように、第１実施形態に係る映像検索システム１０は、蓄積された映像から所望の映像（具体的には、ユーザによって入力される検索クエリに応じた映像）を検索可能に構成されている。検索対象となる映像には、例えば映像によるライフログが含まれるが、特に限定されない。なお、映像は、例えば記憶装置１４（図１参照）等に蓄積されていてもよいし、システム外部の記憶手段（例えば、サーバ等）に蓄積されていてもよい。映像検索システム１０は、その機能を実現するための機能ブロックとして、シーン情報取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０とを備えて構成されている。これらの機能ブロックは、例えばＣＰＵ１１（図１参照）において実現される。

　シーン情報取得部１１０は、映像のシーンを示すシーン情報を取得可能に構成されている。シーン情報は、例えば映像が撮像された場所情報、時間情報、映像が撮影された際の状況や雰囲気等を示す情報を含んでいる。シーン情報としては、映像のシーンと関係し得るその他の情報が含まれていてもよい。シーン情報のより具体的な例としては、位置情報は、例えばＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）等から得られる情報である。時間情報は、タイムスタンプ等から得られる日時に関する情報である。また、映像が撮影された際の状況や雰囲気等を示す情報としては、撮像者又は被撮像者の行動から得られる情報が含まれていてもよい。シーン情報は、１つの映像に１つずつ付与されたものであってもよいし、シーンが切り替わる映像については１つの映像に複数のシーン情報が付与されていてもよい。ある期間の映像に、複数のシーン情報が付与されていてもよい。例えば、ある期間の映像に、タイムスタンプから得られた時間情報と、ＧＰＳから得られた位置情報とがシーン情報として付与されてもよい。シーン情報取得部１１０は、取得したシーン情報を記憶する記憶部を備えていてもよい。シーン情報取得部１１０で取得されたシーン情報は、類似度算出部１３０に出力される構成となっている。

　検索クエリ取得部１２０は、ユーザが入力する検索クエリを取得可能に構成されている。検索クエリは、ユーザが所望する映像（即ち、検索しようとする映像）に関する情報を含むものである。検索クエリは、例えば自然言語として入力される。この場合の検索クエリは、例えば複数の単語や句を含んでいてもよい。自然言語である検索クエリの一例としては、「コンピュータを使いながら食べたサンドイッチ」、「見学した蒸留窯」、及び「北海道で食べた昼食」等が挙げられる。ユーザは、例えば入力装置１５（図１参照等）を用いて検索クエリを入力することができる。検索クエリ取得部１２０で取得された検索クエリは、類似度算出部１３０に出力される構成となっている。

　類似度算出部１３０は、シーン情報取得部１１０で取得された物体タグと、検索クエリ取得部１２０で取得された検索クエリとを比較して、これらの類似度を算出可能に構成されている。ここでの「類似度」は、シーン情報と検索クエリとが類似している程度を示す定量的なパラメータとして算出される。類似度は、複数の映像の各々について算出されてもよいし、映像の所定期間ごとに算出されてもよい。この場合の所定期間は、映像に応じて適宜定められればよく、可変であってもよい。類似度算出部１３０は、例えば辞書や形態素解析を用いて、検索クエリを複数の単語（検索語）に分解する機能を有していてもよい。この場合、類似度算出部１３０は、物体タグと検索語との一致件数を類似度として算出してもよい。物体タグと検索語との一致件数は、例えば予め設定された集計時間（例えば、１分や１時間等）単位で算出されてよい。類似度算出部１３０で算出された類似度は、映像検索部１４０に出力される構成となっている。

　また、類似度算出部１３０は、シーン情報に基づいて映像を複数のシーン範囲に区切り、シーン情報に基づいて映像を複数のシーン範囲に区切り、シーン範囲毎に類似度を算出してもよい。例えば、シーン範囲は、映像内のシーン情報の偏りを用いて設定されてよい。例えば、シーン情報として、映像を撮影した位置情報が取得されている場合、映像を所定時間（例えば、１０秒）で区切り、区切った各映像（以下、適宜「区切り映像」と称する）の位置情報に含まれる緯度経度情報の平均値を算出する。そして、隣接する区切り映像について、算出した平均値の差分が所定値未満である場合は同じ区切りとして統合する（例えば、１，２，３，４，・・・と区切り映像があり、３と４との差分が所定値未満であった場合には、３及び４を５に統合して、１，２、５・・・とする）。その後、統合した区切り映像についても再度平均値を算出し、差分が所定値未満となるものがなくなるまで同様の処理を繰り返す。このようにすれば、比較的近い場所で撮影された映像が１つのシーンとして設定されることになる。

　或いは、シーン範囲は、物体タグの偏りを用いて設定されてよい。或いは、シーン範囲は、映像に一定期間以上映り込んでいる情報を用いて設定されてよい。例えば、同じ物体が一定期間以上連続して映り込んでいる期間については、１つのシーン範囲として設定してもよい。この場合、映像に映り込んでいる物体を識別するために、物体タグを用いてもよい。

　映像検索部１４０は、類似度算出部１３０で算出された類似度に基づいて、検索クエリに応じた映像を検索する。映像検索部１４０は、例えば類似度が所定の条件を満たす映像を検索する。映像検索部１４０は、検索した映像を検索結果として出力してもよい。この場合、出力される映像は複数であってもよい。或いは、映像検索部１４０は、類似度が最も高い映像を出力してもよいし、類似度の高い複数個の映像を検索結果として出力してもよい。更に、映像検索部１４０は、検索結果として出力した映像を再生する機能を有していてもよい。また、映像検索部１４０は、サムネイルのように、検索結果として出力した映像を示す画像を表示する機能を有していてもよい。

　図３に示すように、映像検索システム１０は、シーン情報付与部１５０を備えて構成されてもよい。シーン情報付与部１５０は、例えば事前に機械学習されたシーン認識モデルを用いて、映像にシーン情報を付与する。なお、シーンを自動的に認識してシーン情報を付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム１０がシーン情報付与部１５０を備えている場合は、映像にシーン情報が付与されていない場合であっても映像検索を行うことができる。即ち、映像検索システム１０は、シーン情報付与部１５０が映像にシーン情報を付与した上で、映像検索を行うことができる。一方、映像検索システム１０がシーン情報付与部１５０を備えていない場合には、事前にシーン情報を付与した映像を用意すればよい。この場合、シーン情報は、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。

　（動作説明）
　次に、図４を参照しながら、第１実施形態に係る映像検索システム１０の動作の流れについて説明する。図４は、第１実施形態に係る映像検索システムの動作の流れを示すフローチャートである。

　図４に示すように、第１実施形態に係る映像検索システム１０が動作する際には、まずシーン情報取得部１１０が、蓄積された映像からシーン情報を取得する（ステップＳ１０１）。なお、上述したシーン情報付与部１５０が備えられる構成では、ステップＳ１０１が実行される前に、シーン情報付与部１５０によるシーン情報の付与が実行されてもよい。

　続いて、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。そして、類似度算出部１３０が、シーン情報取得部１１０で取得されたシーン情報と、検索クエリ取得部１２０で取得された検索クエリとの類似度を算出する（ステップＳ１０３）。

　最後に、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索する（ステップＳ１０４）。なお、映像検索システム１０は、検索結果の絞り込みを可能に構成されていてもよい。この場合、検索クエリ取得部１２０によって新たな検索クエリが取得された後に、上述したステップＳ１０３の処理（即ち、類似度の算出）、及びステップＳ１０４の処理（即ち、類似度に基づいた映像検索）が再び実行されればよい。

　（技術的効果）
　次に、第１実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

　図１から図４で説明したように、第１実施形態に係る映像検索システム１０では、シーン情報と検索クエリとの類似度に基づいて映像検索が行われる。よって、検索クエリに応じた映像を適切に検索することができる。そして、本実施形態に係る映像検索システム１０では特に、検索クエリが自然言語として入力された場合であっても、ユーザが所望する映像を適切に検索できる。

　なお、このような技術的効果は、例えばライフログ等の映像検索において顕著に発揮され得る。人はすべての行動や状況を明確に記憶することは難しく、断片的に且つ曖昧に記憶していることが多い。しかるに第１実施形態に係る映像検索システム１０によれば、自然言語による検索クエリを用いた映像検索が行えるため、検索クエリに一部情報が欠如していたとしても、大量の映像の中から所望する映像を検索することが可能である。言い換えれば、多少の曖昧さを許容した上で、精度の高い映像検索を実現することができる。

　＜第２実施形態＞
　次に、第２実施形態に係る映像検索システム１０について、図５から図７を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比べて一部の構成及び動作（具体的には、類似度の算出にクラスタを用いる点）が異なるのみであり、その他の部分については概ね同様である。このため、以下では第１実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図５及び図６を参照しながら、第２実施形態に係る映像検索システム１０の機能的構成について説明する。図５は、第２実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図６は、クラスタに対応する単語の一例を示す表である。なお、図５では、図２で示した構成要素と同様のものに同一の符号を付している。

　図５に示すように、第２実施形態に係る映像検索システム１０は、単語ベクトル解析部５０と、単語クラスタリング部６０と、単語クラスタ情報記憶部７０と、シーン情報取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０と、第１クラスタ取得部１６０と、第２クラスタ取得部１７０とを備えている。即ち、第２実施形態に係る映像検索システム１０は、第１実施形態の構成（図２参照）に加えて、単語ベクトル解析部５０、単語クラスタリング部６０、単語クラスタ情報記憶部７０、第１クラスタ取得部１６０及び第２クラスタ取得部１７０を更に備えて構成されている。

　単語ベクトル解析部５０は、文書データを解析して、文書に含まれる単語をベクトルデータ（以下、適宜「単語ベクトル」と称する）に変換可能に構成されている。文書データは、例えばｗｅｂサイトや時点などの一般的な文書であってもよいし、映像に関連する文書（例えば、映像の撮影者の業務やサービスに関する文書）等であってもよい。映像に関連する文書を用いた場合、一般的な単語の類似性ではなく、映像に関連する専門用語に基づいた類似性を解析することが可能となる。単語ベクトル解析部５０は、例えば、ｗｏｒｄ２ｖｅｃ等のｗｏｒｄＥｍｂｅｄｄｉｎｇ手法、又はｄｏｃ２ｖｅｃ等のｄｏｃＥｍｂｅｄｄｉｎｇ手法を用いて、単語ベクトルへの変換を行う。単語ベクトル解析部５０で生成された単語ベクトルは、単語クラスタリング部６０に出力される構成となっている。

　単語クラスタリング部６０は、単語ベクトル解析部５０で生成された単語ベクトルに基づいて、各単語をクラスタリング可能に構成されている。単語クラスタリング部６０は、単語同士のベクトルの類似性に基づいてクラスタリングを行えばよい。単語クラスタリング部６０は、例えば、単語ベクトル同士のｃｏｓ類似度やユークリッド距離に基づいて、k－ｍｅａｎｓによるクラスタリングを行う。ただし、クラスタリングの手法については、特に限定されない。単語クラスタリング部６０のクラスタリング結果は、単語クラスタ情報記憶部７０に出力される構成となっている。

　単語クラスタ情報記憶部７０は、単語クラスタリング部６０によるクラスタリングの結果を記憶可能に構成されている。単語クラスタ情報記憶部７０は、例えば図７に示すように、各クラスタのＩＤと、各クラスタに属する単語とを記憶する。単語クラスタ情報記憶部７０に記憶された情報は、第１クラスタ取得部１６０及び第２クラスタ取得部１７０により、適宜利用可能な状態で記憶されている。

　第１クラスタ取得部１６０は、単語クラスタ情報記憶部７０に記憶された情報（即ち、クラスタリングの結果）を用いて、シーン情報取得部１１０で取得されたシーン情報に含まれる情報を用いてクラスタリングを実行し、シーン情報に含まれる情報が属するクラスタ（以下、適宜「第１クラスタ」と称する）を取得可能に構成されている。物体タグに含まれる情報には、例えば物体タグに含まれる単語があるが、これには限られない。第１クラスタ取得部１６０で取得された第１クラスタに関する情報は、類似度算出部１３０に出力される構成となっている。

　第２クラスタ取得部１７０は、単語クラスタ情報記憶部７０に記憶された情報（即ち、クラスタリングの結果）を用いて、検索クエリ取得部１２０で取得された検索クエリに含まれる情報（典型的には、検索クエリに含まれる単語）が属するクラスタ（以下、適宜「第２クラスタ」と称する）を取得可能に構成されている。第２クラスタ取得部１７０で取得された第２クラスタに関する情報は、類似度算出部１３０に出力される構成となっている。

　（動作説明）
　次に、図７を参照しながら、第２実施形態に係る映像検索システム１０の動作の流れについて説明する。図７は、第２実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図７では、図４で示した処理と同様の処理に同一の符号を付している。

　図６に示すように、第２実施形態に係る映像検索システム１０が動作する際には、まずシーン情報取得部１１０が、蓄積された映像からシーン情報を取得する（ステップＳ１０１）。そして、第１クラスタ取得部１６０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、シーン情報に含まれる情報が属する第１クラスタを取得する（ステップＳ１０２）。第１クラスタ取得部１６０は、例えば、映像から取得したシーン情報に含まれる単語の各々について、単語クラスタ情報記憶部７０に対する問い合わせを行い、各単語に対応するクラスタＩＤを取得する。

　続いて、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。そして、第２クラスタ取得部１７０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第２クラスタを取得する（ステップＳ２０２）。第２クラスタ取得部１７０は、例えば、検索クエリに含まれる検索語の各々について、単語クラスタ情報記憶部７０に対して問い合わせを行い、各検索語に対応するクラスタＩＤを取得する。

　続いて、類似度算出部１３０が、第１クラスタと第２クラスタとを比較することで、物体タグと検索クエリとの類似度を算出する（ステップＳ１０３）。言い換えれば、第２実施形態における類似度は、第１クラスタ（即ち、シーン情報が属するクラスタ）と、第２クラスタ（即ち、検索クエリが属するクラスタ）との類似度として算出される。類似度が算出されると、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索する（ステップＳ１０４）。

　なお、第１クラスタと第２クラスタとの類似度は、第１クラスタのクラスタ情報及び第２クラスタのクラスタ情報をそれぞれベクトルに見立てた場合の、ｃｏｓ類似度として算出することができる。例えば、第１クラスタのクラスタ情報をＶａ、第２クラスタのクラスタ情報をＶｂとした場合、第１クラスタと第２クラスタとの類似度は、下記式（１）を用いて算出できる。
　　（Ｖａ／｜｜Ｖａ｜｜）・（Ｖｂ／｜｜Ｖｂ｜｜）　・・・（１）
　なお、｜｜Ｖａ｜｜及び｜｜Ｖｂ｜｜は、それぞれＶａ及びＶｂのノルムである。

　（技術的効果）
　次に、第２実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

　図５から図７で説明したように、第２実施形態に係る映像検索システム１０では、シーン情報及び検索クエリに含まれる単語が属するクラスタを用いて類似度の算出が行われる。このようにすれば、物体タグと検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。

　＜第３実施形態＞
　次に、第３実施形態に係る映像検索システム１０について、図８から図１１を参照して説明する。なお、第３実施形態は、上述した第１及び第２実施形態と比べて一部の構成及び動作（具体的には、物体タグを用いる点）が異なるのみであり、その他の部分については概ね同様である。このため、以下では第１及び第２実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図８から図１０を参照しながら、第３実施形態に係る映像検索システム１０の機能的構成について説明する。図８は、第３実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。図９は、物体タグの一例を示す表である。図１０は、第３実施形態に係る映像検索システムの変形例の構成を示すブロック図である。なお、図８及び図１０では、図２及び図３で示した構成要素と同様のものに同一の符号を付している。

　図８に示すように、第３実施形態に係る映像検索システム１０は、シーン情報取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０と、物体タグ取得部１８０とを備えている。即ち、第３実施形態に係る映像検索システム１０は、第１実施形態の構成（図２参照）に加えて、物体タグ取得部１８０を更に備えて構成されている。

　物体タグ取得部１８０は、蓄積された映像から物体タグを取得可能に構成されている。物体タグは、映像に映り込んでいる物体に関する情報であり、映像中の各物体に紐付けられている。ただし、１つの物体に対して複数の物体タグが紐付けられていてもよい。物体タグは、典型的には一般名詞であるが、例えば同一性検査等を行って固有名詞と紐付けられていてもよい。即ち、物体タグには、物体を個々に区別する固有識別情報が含まれてもよい）。また、物体タグは、物体の名称以外の情報（例えば、形状や性質等）を示す情報であってもよい。物体タグ取得部１８０は、例えば映像のフレーム単位で物体タグを取得してもよい。物体タグ取得部１８０は、取得した物体タグを記憶する記憶部を備えていてもよい。物体タグは、例えば図９に示すように、各映像の各フレーム単位で記憶部に記憶されてよい。物体タグ取得部１８０で取得された物体タグは、類似度算出部１３０に出力される構成となっている。

　図１０に示すように、映像検索システム１０は、シーン情報付与部１５０と、物体タグ付与部１９０とを備えていてもよい。即ち、図３に示した映像検索システムの変形例に、物体タグ付与部１９０を更に備えて構成されてもよい。

物体タグ付与部１９０は、例えば事前に機械学習された物体認識モデルを用いて、映像に映り込んでいる物体に物体タグを紐付ける。なお、物体を認識して物体タグを付与する具体的な手法については、適宜既存の技術を採用することが可能である。映像検索システム１０が物体タグ付与部１９０を備えている場合は、映像に物体タグが付与されていない場合であっても映像検索を行うことができる。即ち、映像検索システム１０は、物体タグ付与部１９０が映像に物体タグを付与した上で、映像検索を行うことができる。一方、映像検索システム１０が物体タグ付与部１９０を備えていない場合には、事前に物体タグを付与した映像を用意すればよい。この場合、物体タグは、映像分析によって自動的に付与されてもよいし、手作業によって付与されてもよい。

　（動作説明）
　次に、図１１を参照しながら、第３実施形態に係る映像検索システム１０の動作の流れについて説明する。図１１は、第３実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図１１では、図４で示した処理と同様の処理に同一の符号を付している。

　図１１に示すように、第３実施形態に係る映像検索システム１０が動作する際には、まずシーン情報取得部１１０が、蓄積された映像からシーン情報を取得する（ステップＳ１０１）。また、物体タグ取得部１８０が、蓄積された映像から物体タグを取得する（ステップＳ３０１）。更に、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。なお、上述した物体タグ付与部１９０が備えられる構成では、ステップＳ３０１が実行される前に、物体タグ付与部１９０による物体タグの付与が実行されてもよい。

　続いて、類似度算出部１３０は、シーン情報及び物体タグと、検索クエリとの類似度を算出する（ステップＳ１０３）。ここでの類似度は、シーン情報と検索クエリとの類似度、及び物体タグと検索クエリとの類似度として別々に算出されてもよい（即ち、シーン情報に関する類似度と、物体タグに関する類似度との２種類の類似度が算出されてもよい）。或いは、類似度は、シーン情報及び物体タグの両方と、検索クエリとの類似度としてまとめて算出されてもよい（即ち、シーン情報及び物体タグの両方を考慮した１種類の類似度が算出されてもよい）。

　類似度が算出されると、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索する（ステップＳ１０４）。なお、シーン情報との検索クエリとの類似度、及び物体タグと検索クエリとの類似度とが別々に算出されている場合、それら２つの類似度から算出される総合的な類似度（例えば、２つの類似度の平均値等）に基づいて、検索クエリに応じた映像を検索すればよい。

　（技術的効果）
　次に、第３実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

　図７から図９で説明したように、第３実施形態に係る映像検索システム１０では、更に物体タグを用いて類似度が算出される。このようにすれば、例えば、映像に映り込んでいる物体の名称等を考慮して、映像を検索することができる。この結果、ユーザが所望する映像をより適切に検索することが可能となる。

　＜第４実施形態＞
　次に、第４実施形態に係る映像検索システム１０について、図１２及び図１３を参照して説明する。なお、第４実施形態は、上述した第３実施形態と比べて一部の構成及び動作（具体的には、類似度の算出にクラスタを用いる点）が異なるのみであり、その他の部分については概ね同様である。このため、以下では第３実施形態と異なる部分について詳細に説明し、他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１２を参照しながら、第４実施形態に係る映像検索システム１０の機能的構成について説明する。図１２は、第４実施形態に係る映像検索システムが備える機能ブロックを示すブロック図である。なお、図１２では、図５及び８で示した構成要素と同様のものに同一の符号を付している。

　図１２に示すように、第４実施形態に係る映像検索システム１０は、単語ベクトル解析部５０と、単語クラスタリング部６０と、単語クラスタ情報記憶部７０と、シーン情報取得部１１０と、検索クエリ取得部１２０と、類似度算出部１３０と、映像検索部１４０と、第１クラスタ取得部１６０と、第２クラスタ取得部１７０と、物体タグ取得部１８０と、第３クラスタ取得部２００とを備えている。即ち、第４実施形態に係る映像検索システム１０は、第３実施形態の構成（図７参照）に加えて、単語ベクトル解析部５０と、単語クラスタリング部６０と、単語クラスタ情報記憶部７０と、第１クラスタ取得部１６０と、第２クラスタ取得部１７０と、第３クラスタ取得部２００とを更に備えて構成されている。なお、第１クラスタ取得部１６０及び第２クラスタ取得部１７０については、第２実施形態の構成（図５参照）と同様でよい。

　第３クラスタ取得部２００は、単語クラスタ情報記憶部７０に記憶された情報（即ち、クラスタリングの結果）を用いて、物体タグ取得部１８０で取得された物体タグに含まれる情報が属するクラスタ（以下、適宜「第３クラスタ」と称する）を取得可能に構成されている。第３クラスタ取得部２００で取得された第３クラスタに関する情報は、類似度算出部１３０に出力される構成となっている。

　（動作説明）
　次に、図１３を参照しながら、第４実施形態に係る映像検索システム１０の動作の流れについて説明する。図１３は、第４実施形態に係る映像検索システムの動作の流れを示すフローチャートである。なお、図１３では、図７及び図１１で示した処理と同様の処理に同一の符号を付している。

　図１３に示すように、第４実施形態に係る映像検索システム１０が動作する際には、まずシーン情報取得部１１０が、蓄積された映像からシーン情報を取得する（ステップＳ１０１）。そして、第１クラスタ取得部１６０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、シーン情報に含まれる情報が属する第１クラスタを取得する（ステップＳ１０２）。

　続いて、物体タグ取得部１８０が、蓄積された映像から物体タグを取得する（ステップＳ３０１）。そして、第３クラスタ取得部２００が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、物体タグに含まれる情報が属する第３クラスタを取得する（ステップＳ４０１）。

　続いて、検索クエリ取得部１２０が、ユーザが入力した検索クエリを取得する（ステップＳ１０２）。そして、第２クラスタ取得部１７０が、単語クラスタ情報記憶部７０に記憶されたクラスタリング結果を用いて、検索クエリに含まれる情報が属する第２クラスタを取得する（ステップＳ２０２）。

　続いて、類似度算出部１３０は、第１クラスタ及び第３クラスタと第２クラスタとを比較することで、シーン情報及び物体タグと、検索クエリとの類似度を算出する（ステップＳ１０３）。言い換えれば、第４実施形態における類似度は、第１クラスタ（即ち、シーン情報が属するクラスタ）及び第３クラスタ（即ち、物体タグが属するクラスタ）と、第２クラスタ（即ち、検索クエリが属するクラスタ）との類似度として算出される。類似度が算出されると、映像検索部１４０が、類似度に基づいて検索クエリに応じた映像を検索する（ステップＳ１０４）。

　（技術的効果）
　次に、第４実施形態に係る映像検索システム１０によって得られる技術的効果について説明する。

　図１２及び図１３で説明したように、第４実施形態に係る映像検索システム１０では、シーン情報、物体タグ、及び検索クエリに含まれる情報が属するクラスタに関する情報を用いて類似度の算出が行われる。このようにすれば、シーン情報及び物体タグと検索クエリとの類似度をより適切な値として算出することができる。よって、検索クエリに応じた映像をより適切に検索することが可能となる。

　＜付記＞
　以上説明した実施形態に関して、更に以下の付記を開示する。

　（付記１）
　付記１に記載の映像検索システムは、映像のシーンを示すシーン情報を取得するシーン情報取得部と、検索クエリを取得する検索クエリ取得部と、前記シーン情報と前記検索クエリとの類似度を算出する類似度算出部と、前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部とを備えることを特徴とする映像検索システムである。

　（付記２）
　付記２に記載の映像検索システムは、前記シーン情報に含まれる情報が属する第１クラスタを取得する第１クラスタ取得部と、前記検索クエリに含まれる情報が属する第２クラスタを取得する第２クラスタ取得部とを更に備え、前記類似度算出部は、前記第１クラスタと前記第２クラスタとを比較して、前記シーン情報と前記検索クエリとの類似度を算出することを特徴とする付記１に記載の映像検索システムである。

　（付記３）
　付記３に記載の映像検索システムは、前記シーン情報は、前記映像が撮影された場所に関する情報を含むことを特徴とする付記１又は２に記載の映像検索システムである。

　（付記４）
　付記４に記載の映像検索システムは、前記シーン情報は、前記映像が撮影された日時に関する情報を含むことを特徴とする付記１から３のいずれか一項に記載の映像検索システムである。

　（付記５）
　付記５に記載の映像検索システムは、前記シーン情報は、前記映像の撮像者又は前記映像に映り込んでいる被撮像者の行動に関する情報を含むことを特徴とする付記１から４のいずれか一項に記載の映像検索システムである。

　（付記６）
　付記６に記載の映像検索システムは、前記映像に前記シーン情報を付与するシーン情報付与部を更に備えることを特徴とする付記１から５のいずれか一項に記載の映像検索システムである。

　（付記７）
　付記７に記載の映像検索システムは、前記映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部を更に備え、前記類似度算出部は、前記シーン情報及び前記物体タグと、前記検索クエリとの類似度を算出することを特徴とする付記１から６のいずれか一項に記載の映像検索システムである。

　（付記８）
　付記８に記載の映像検索システムは、前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする付記７に記載の映像検索システムである。

　（付記９）
　付記９に記載の映像検索システムは、前記類似度算出部は、前記シーン情報に基づいて前記映像を複数のシーン範囲に区切り、前記シーン範囲毎に類似度を算出することを特徴とする付記１から８のいずれか一項に記載の映像検索システムである。

　（付記１０）
　付記１０に記載の映像検索システムは、前記検索クエリは自然言語であることを特徴とする付記１から９のいずれか一項に記載の映像検索システムである。

　（付記１１）
　付記１１に記載の映像検索方法は、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索することを特徴とする映像検索方法である。

　（付記１２）
　付記１２に記載のコンピュータプログラムは、映像のシーンを示すシーン情報を取得し、検索クエリを取得し、前記シーン情報と前記検索クエリとの類似度を算出し、前記類似度に基づいて、前記検索クエリに対応した映像を検索するようにコンピュータを動作させることを特徴とするコンピュータプログラムである。

　（付記１３）
　付記１３に記載の記録媒体は、付記１２に記載のコンピュータプログラムを記録していることを特徴とする記録媒体である。

　本発明は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う映像検索システム、映像検索方法、及びコンピュータプログラムもまた本発明の技術思想に含まれる。

　１０　映像検索システム
　１１０　シーン情報取得部
　１２０　検索クエリ取得部
　１３０　類似度算出部
　１４０　映像検索部
　１５０　シーン情報付与部
　１６０　第１クラスタ取得部
　１７０　第２クラスタ取得部
　１８０　物体タグ取得部
　１９０　物体タグ付与部
　２００　第３クラスタ取得部

Claims

　映像のシーンを示すシーン情報を取得するシーン情報取得部と、
　検索クエリを取得する検索クエリ取得部と、
　前記シーン情報と前記検索クエリとの類似度を算出する類似度算出部と、
　前記類似度に基づいて、前記検索クエリに対応した映像を検索する映像検索部と
　を備えることを特徴とする映像検索システム。
　前記シーン情報に含まれる情報が属する第１クラスタを取得する第１クラスタ取得部と、
　前記検索クエリに含まれる情報が属する第２クラスタを取得する第２クラスタ取得部と
　を更に備え、
　前記類似度算出部は、前記第１クラスタと前記第２クラスタとを比較して、前記シーン情報と前記検索クエリとの類似度を算出する
　ことを特徴とする請求項１に記載の映像検索システム。
　前記シーン情報は、前記映像が撮影された場所に関する情報を含むことを特徴とする請求項１又は２に記載の映像検索システム。
　前記シーン情報は、前記映像が撮影された日時に関する情報を含むことを特徴とする請求項１から３のいずれか一項に記載の映像検索システム。
　前記シーン情報は、前記映像の撮像者又は前記映像に映り込んでいる被撮像者の行動に関する情報を含むことを特徴とする請求項１から４のいずれか一項に記載の映像検索システム。
　前記映像に前記シーン情報を付与するシーン情報付与部を更に備えることを特徴とする請求項１から５のいずれか一項に記載の映像検索システム。
　前記映像に映り込んでいる物体に紐付けられた物体タグを取得する物体タグ取得部を更に備え、
　前記類似度算出部は、前記シーン情報及び前記物体タグと、前記検索クエリとの類似度を算出する
　ことを特徴とする請求項１から６のいずれか一項に記載の映像検索システム。
　前記映像に映り込んでいる物体に前記物体タグを紐付ける物体情報付与部を更に備えることを特徴とする請求項７に記載の映像検索システム。
　前記類似度算出部は、前記シーン情報に基づいて前記映像を複数のシーン範囲に区切り、前記シーン範囲毎に類似度を算出することを特徴とする請求項１から８のいずれか一項に記載の映像検索システム。
　前記検索クエリは自然言語であることを特徴とする請求項１から９のいずれか一項に記載の映像検索システム。
　映像のシーンを示すシーン情報を取得し、
　検索クエリを取得し、
　前記シーン情報と前記検索クエリとの類似度を算出し、
　前記類似度に基づいて、前記検索クエリに対応した映像を検索する
　ことを特徴とする映像検索方法。
　映像のシーンを示すシーン情報を取得し、
　検索クエリを取得し、
　前記シーン情報と前記検索クエリとの類似度を算出し、
　前記類似度に基づいて、前記検索クエリに対応した映像を検索する
　ようにコンピュータを動作させることを特徴とするコンピュータプログラム。