JPWO2020071216A1

JPWO2020071216A1 - 画像検索装置、画像検索方法及び画像検索用プログラム

Info

Publication number: JPWO2020071216A1
Application number: JP2020550342A
Authority: JP
Inventors: 美紀長谷山; 小川　貴弘
Original assignee: Hokkaido University NUC
Current assignee: Hokkaido University NUC
Priority date: 2018-10-03
Filing date: 2019-09-26
Publication date: 2021-10-28
Also published as: WO2020071216A1

Abstract

検索対象たる画像の特徴を示すラベルが予め付与されていない場合でも、所望される画像を高い精度で検索することが可能な画像検索装置を提供する。複数の単語からなる文章であって検索が所望される画像の内容を記述した文章に相当するテキストデータＴＤを取得し、複数のニューラルネットワークを用いた深層学習処理の結果が反映された学習テキストデータＳＴＤと、上記テキストデータＴＤと、を用いて、テキストデータＴＤに対応した画像検索用のクエリ画像を生成する画像生成部１と、クエリ画像の特徴量を算出する特徴量算出部４と、検索対象たる画像の特徴量を算出する特徴量算出部１２と、各特徴量間の類似度に基づいて、クエリ画像に対応した画像を検索し、ユーザに提示する検索画像出力部７と、を備える。

Description

本発明は、画像検索装置、画像検索方法及び画像検索用プログラムの技術分野に属する。より詳細には、複数の画像から所望される画像を検索する画像検索装置及び画像検索方法並びに当該画像検索装置用のプログラムの技術分野に属する。

近年、インターネット上の映像共有サイトにアップロードされる映像は爆発的に増加しており、ある映像共有サイトには１分間に７２時間分の長さの映像がアップロードされていることが報告されている。そのため、上記のような映像共有サイトにアップロードされている画像（動画及び静止画を含む。以下、同様。）から所望の画像を検索することが困難となってきつつあり、当該画像内から目的の画像やシーンを効率的に検索可能とする技術の確立が急務である。

このような要請に答える従来技術としては、例えば下記非特許文献１に開示されている技術がある。非特許文献１に開示されている技術では、検索対象の画像のシーンに予め付与された単語や文のラベルと、クエリである単語や文と、を比較することにより検索を実現しており、様々な検索エンジンで採用されている。

S. Schuster, R. Krishna, A. Chang, L. Fei-Fei, and C. D. Manning, "Generating semantically precise scene graphs from textual descriptions for improved image retrieval," in Proceedings of the Fourth Workshop on Vision and Language, 2015, pp. 70-80.

しかしながら、上記非特許文献１に開示されている技術のようなラベルに基づく検索手法では，検索が所望される画像に類似した画像を含むシーンが多数存在した場合、それらに同一のラベルが付与されてしまう可能性が存在し、結果的に検索精度に限界が存在する。従って、検索対象である画像に対するラベルの付与が不要となる検索手法が求められている。

そこで本発明は、上記の要請に鑑みて為されたもので、その課題の一例は、検索対象たる画像の特徴を示すラベルが予め付与されていない場合でも、所望される画像を高い精度で検索することが可能な画像検索装置及び画像検索方法並びに当該画像検索装置用のプログラムを提供することにある。

上記の課題を解決するために、請求項１に記載の発明は、複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得する画像生成部等のテキストデータ取得手段と、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成部等の画像生成手段と、前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出する特徴量算出部等のクエリ画像特徴量算出手段と、検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する特徴量算出部等の被検索画像特徴量算出手段と、各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索画像出力部等の検索出力手段と、を備える。

上記の課題を解決するために、請求項６に記載の発明は、画像生成部等のテキストデータ取得手段と、画像生成部等の画像生成手段と、特徴量算出部等のクエリ画像特徴量算出手段と、特徴量算出部等の被検索画像特徴量算出手段と、検索画像出力部等の検索出力手段と、を備える画像検索装置において実行される画像検索方法であって、複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを前記テキストデータ取得手段により少なくとも取得するテキストデータ取得工程と、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を前記画像生成手段により生成する画像生成工程と、前記生成されたクエリ画像の特徴量をクエリ画像特徴量として前記クエリ画像特徴量算出手段により算出するクエリ画像特徴量算出工程と、検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として前記被検索画像特徴量算出手段により算出する被検索画像特徴量算出工程と、各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から前記検索出力手段により検索し、前記検索所望画像として出力する検索出力工程と、を含む。

上記の課題を解決するために、請求項７に記載の発明は、コンピュータを、複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得するテキストデータ取得手段、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成手段、前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出するクエリ画像特徴量算出手段、検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する被検索画像特徴量算出手段、及び、各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索出力手段、として機能させる。

請求項１、請求項６又は請求項７のいずれか一項に記載の発明によれば、複数の単語からなり検索所望画像の内容を記述した文章に相当するテキストデータと、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、を用いて生成されたクエリ画像の特徴量と、複数の被検索画像それぞれの特徴量と、の間の類似度に基づいて、クエリ画像に対応した被検索画像を検索し、検索所望画像として出力する。よって、被検索画像の特徴を予め記述したラベルデータ等がない場合でも、複数の被検索画像から高い精度で検索所望画像を検索することができる。

上記の課題を解決するために、請求項２に記載の発明は、請求項１に記載の画像検索装置において、前記深層学習データは、複数の単語からなる文章に対して、当該各単語に注目しつつ前記複数のニューラルネットワークにより行われた前記深層学習処理の結果が反映された深層学習データであるように構成される。

請求項２に記載の発明によれば、請求項１に記載の発明の作用に加えて、深層学習データが、複数の単語からなる文章に対して、当該各単語に注目しつつ複数のニューラルネットワークにより行われた深層学習処理の結果が反映された深層学習データであるので、検索所望画像の内容を記述した文章により高精度に対応したクエリ画像を生成することができる。

上記の課題を解決するために、請求項３に記載の発明は、請求項１又は請求項２に記載の画像検索装置において、前記深層学習データは、前記複数のニューラルネットワークを含む注意型敵対的生成ネットワークによる深層学習の結果が反映された深層学習データであるように構成される。

請求項３に記載の発明によれば、請求項１又は請求項２に記載の発明の作用に加えて、深層学習データが、複数のニューラルネットワークを含む注意型敵対的生成ネットワークによる深層学習の結果が反映された深層学習データであるので、検索所望画像の内容を記述した文章に高精度に対応したクエリ画像を生成することができる。

上記の課題を解決するために、請求項４に記載の発明は、請求項１から請求項３のいずれか一項に記載の画像検索装置において、前記被検索画像特徴量及び前記クエリ画像特徴量は、それぞれ、前記深層学習処理に対応した特徴量であるように構成される。

請求項４に記載の発明によれば、請求項１から請求項３のいずれか一項に記載の発明の作用に加えて、被検索画像特徴量及びクエリ画像特徴量が、それぞれ深層学習処理に対応した特徴量であるので、高精度で検索所望画像を検索することができる。

上記の課題を解決するために、請求項５に記載の発明は、請求項１から請求項４のいずれか一項に記載の画像検索装置において、前記テキストデータ取得手段は、前記出力された検索所望画像に基づいて修正された前記文章に相当する前記テキストデータを再度取得し、前記画像生成手段は、前記深層学習データと、前記再度取得されたテキストデータと、を用いて前記クエリ画像を再度生成し、前記クエリ画像特徴量算出手段は、再度生成された前記クエリ画像の前記特徴量を前記クエリ画像特徴量として再度算出し、前記検索出力手段は、各前記算出された被検索画像特徴量と、前記再度算出されたクエリ画像特徴量と、の間の前記類似度に基づいて、前記再度生成されたクエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力するように構成される。

請求項５に記載の発明によれば、請求項１から請求項４のいずれか一項に記載の発明の作用に加えて、一旦出力された検索所望画像に基づいて修正された文章に相当するテキストデータに基づき、検索所望画像が改めて検索されるので、上記ラベルデータ等がない場合でも、より高い精度で検索所望画像を検索することができる。

本発明によれば、複数の単語からなり検索所望画像の内容を記述した文章に相当するテキストデータと、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、を用いて生成されたクエリ画像の特徴量と、複数の被検索画像それぞれの特徴量と、の間の類似度に基づいて、クエリ画像に対応した被検索画像を検索し、検索所望画像として出力する。

従って、被検索画像の特徴を予め記述したラベルデータ等がない場合でも、複数の被検索画像から高い精度で検索所望画像を検索することができる。

実施形態に係る画像検索システムの構成を示すブロック図である。実施形態に係る画像検索処理を示すフローチャートである。実施形態に係る画像検索処理におけるテキストデータ等をそれぞれ例示する図であり、（ａ）は当該テキストデータ等の第１例を示す図であり、（ｂ）は当該テキストデータ等の第２例を示す図である。実施形態に係る画像検索処理による効果を示すグラフ図等であり、（ａ）は当該グラフ図であり、（ｂ）は当該効果の一部を示す表である。

次に、本発明を実施するための形態について、図面に基づいて説明する。なお、以下に説明する実施形態は、動画に含まれる複数のシーン又は画像の中から、検索が所望されるシーン又は画像を検索する画像検索システムに対して本発明を適用した場合の実施の形態である。なお以下の説明においては、上記シーン又は画像を、単に「シーン」と称する。

また、図１は実施形態に係る画像検索システムの構成を示すブロック図であり、図２は実施形態に係る画像検索処理を示すフローチャートであり、図３は当該画像検索処理におけるテキストデータ等をそれぞれ例示する図であり、図４は当該画像検索処理による効果を示すグラフ図である。更に図１においては、実施形態に係る画像検索処理におけるデータの授受を実線で、後述する実施形態に係る画像再検索処理特有のデータの授受を破線で、それぞれ示している。

（Ｉ）実施形態に係る画像検索処理について
初めに、実施形態に係る画像検索処理について、図１乃至図３を用いて説明する。

図１に示すように、実施形態に係る画像検索システムＳＳは、検索が所望されているシーンを含む複数のシーンからそれぞれなる複数の動画が蓄積されている画像データベースＳ２と、検索が所望されているシーンを、画像テータベスＳ２に蓄積されている動画の中から実施形態に係る画像検索処理により検索する画像検索部Ｓ１と、により構成されている。

この構成において画像検索部Ｓ１は、深層学習用の一又は複数のニューラルネットワークをそれぞれに備えた画像生成部１及び識別部３と、学習データ蓄積部２と、特徴量算出部４と、類似度算出部５と、類似度ランキング部６と、検索画像出力部７と、により構成されている。また、画像データベースＳ２は、画像データ蓄積部１０と、シーン抽出部１１と、特徴量算出部１２と、により構成されている。このとき、画像生成部１が本願に係る「テキストデータ取得手段」の一例及び「画像生成手段」の一例に相当し、特徴量算出部４が本願に係る「クエリ画像特徴量算出手段」の一例に相当し、特徴量算出部１２が本願に係る「被検索画像特徴量算出手段」の一例に相当し、類似度算出部５、類似度ランキング部６及び検索画像出力部７が本願に係る「検索出力手段」の一例に相当する。

ここで、上記画像生成部１及び上記識別部３がそれぞれに備える上記深層学習用のニューラルネットワークは、いわゆる注意型敵対的生成ネットワーク（Attentional Generative Adversarial Network。以下、「Attn-GAN」と称する）を構成し且つ相互にAttn-GANとしての敵対的な関係を有するニューラルネットワークである。そして、上記学習データ蓄積部２に蓄積されている学習データは、画像生成部１と識別部３との間の上記敵対的な関係を用いた上記Attn-GANとしての深層学習処理により学習されたデータである。この学習データには、図１に示す学習テキストデータＳＴＤ及び学習画像データＳＧＤが含まれている。学習画像データＳＧＤは、実際に撮影された画像である。なお上記識別部３は、上記Attn-GANによる上記深層学習処理を画像検索部Ｓ１として行う際に用いられるものであり、実施形態に係る画像検索処理及び実施形態に係る画像再検索処理に対して直接的に関与するものではない。

次に、実施形態に係る画像検索システムＳＳの動作について、図１乃至図３を用いて説明する。

先ず、図１に示すように、実施形態に係る画像検索システムＳＳの画像データベースＳ２に含まれる画像データ蓄積部１０には、種々のシーンから構成される例えば映画等の動画データＧが複数蓄積されている。この複数のシーンから、所望されるシーンが検索される。そして画像データ蓄積部１０は、一の当該動画データＧをシーン抽出部１１に出力する。シーン抽出部１１は、画像データ蓄積部１０からの動画データＧをＮ個（Ｎは自然数。以下、同様。）のシーンＳ₁乃至シーンＳ_Nに分割し、分割後のシーンＳ₁乃至シーンＳ_NをそれぞれシーンデータＳＤとして特徴量算出部１２に出力する。なお以下の説明において、シーンＳ₁乃至シーンＳ_Nに共通の事項を説明する場合、これらを纏めて「シーンＳ」と称する。また以下の説明において、動画データＧに相当する動画を構成する各フレームをｆ_i,m（ｍ＝１，２，…，Ｍ_i；Ｍ_iはｉ番目のシーンのフレーム数）とする。これらにより特徴量算出部１２は、シーン抽出部１１から出力されたシーンデータＳＤから、上記Attn-GANの深層学習に対応した画像特徴量ＦＶ２をシーンごとに算出し、画像検索部Ｓ１の類似度算出部５に出力する。

一方図１に示すように、シーンの検索を所望するユーザは、例えば画像検索部Ｓ１の電源スイッチがオンとされた後、当該検索を所望するシーンの内容を記述した文章であって、複数の単語からなる文章に相当するテキストデータＴＤを作成し、画像検索部Ｓ１の画像生成部１に入力する。これにより画像生成部１は、図２に示すように、当該入力されたテキストデータＴＤを取得する（図２ステップＳ１）。このテキストデータＴＤの内容としては、例えば、複数の人が車に搭乗しているシーンの検索が所望される場合、「People are driving a car.」という文章に相当するテキストデータＴＤが画像生成部１に取得
される。この場合のテキストデータＴＤとしては、上記ユーザが例えば図示しないキーボード等を用いて直接入力する場合の他、ユーザの音声を図示しない音声読み取り装置により読み取った結果としてのテキストデータＴＤが入力されてもよいし、紙の上に記載された当該文章をＯＣＲ（Optical Character Reader）で読み取った結果としてのテキストデータＴＤが入力されてもよい。

これにより画像生成部１は、学習データ蓄積部２からの上記学習テキストデータＳＴＤと、上記取得されたテキストデータＴＤと、を用いて、テキストデータＴＤに対応した画像検索用のクエリ画像に相当するクエリ画像データＱＤを生成する（図２ステップＳ２）。このクエリ画像データＱＤは、特徴量算出部４に出力されると共に識別部３に出力される。

ここで、上記クエリ画像データＱＤに相当するクエリ画像の、画像生成部１による上記Attn-GANを用いた生成について、具体的に説明する。

初めに、実施形態に係る上記Attn-GANが、三つのニューラルネットワークＦ_i（ｉ＝０,１，２）、二つのワードと隠れ層の特徴を合算するAttention model F_i ^attn（ｉ＝１，２）及び三つの生成器Ｇ_j（ｊ＝０，１，２）から構成されているとする。先ず画像生成部１は、以下の式（１）を用いて、入力されたテキストデータＴＤに相当する文章の構造の特徴量y及びガウス雑音ｚから、当該文章全体の構造に着目したクリエ画像を生成するための特徴量ｈ₀を算出する。

但し、式（１）における関数Ｆ^caは、文献「H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. Metaxas, “StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks,” in Proceedings of the International Conference on Computer Vision, 2017, pp. 5907-5915.」により提案されたセンテンスベクトルを、過学習を抑制することが可能なコンディションベクトルに変換する関数である。次に画像生成部１は、上記式（１）の特徴量ｈ₀及びテキストデータＴＤに相当する文章に含まれる単語の特徴量の行列ｅを入力として、以下の式（２）により、当該単語にも着目したクエリ画像を生成するための特徴量ｈ_iを算出する。

そして画像生成部１は、上記式（１）の特徴量ｈ₀及び上記式（２）の特徴量ｈ_iから、それぞれテキストデータＴＤに相当する文章の構造にのみ着目したクエリ画像、及びそれに含まれる単語にも着目したクエリ画像を、以下の式（３）により生成する。

このとき、上記式（３）に示すように、文章の構造からそれに含まれる単語へと着目点を段階的に細分化していくことにより、画像生成部１及び識別部３それぞれに備えられたニューラルネットワークを含む実施形態に係る上記Attn-GANでは、高精度なクエリ画像が生成される（図２ステップＳ２）。

なお、本発明の発明者らによる実験結果によれば、上記「People are driving a car.」という文章に相当するテキストデータＴＤ（図３（ａ）上段参照）が画像生成部１により取得された場合に生成されるクエリ画像は、例えば図３（ａ）中段に示されているクエリ画像となる。また、例えば「The stuffed animal on the shelf.」という文章に相当するテキストデータＴＤ（図３（ｂ）上段参照）が画像生成部１により取得された場合に生成される実施形態に係るクエリ画像は、例えば図３（ｂ）中段に示されているクエリ画像となる。

一方、上記ステップＳ２により識別部３は、当該クエリ画像データＱＤと、学習データ蓄積部２から出力される学習画像データＳＧＤと、を用いて、上記Attn-GANとしての深層学習処理としての本物／偽物の識別を行う。この場合の本物／偽物の識別とは、その時点で当該識別部３に入力された画像データに相当する画像が、学習画像データＳＧＤに相当する、実際に撮影された学習画像であるか、識別部３により生成されたクエリ画像データＱＤに相当するクエリ画像であるか、の識別である。

そして特徴量算出部４は、画像生成部１から出力されたクエリ画像データＱＤから、上記Attn-GANの深層学習に対応した画像特徴量ＦＶ１を算出し、類似度算出部５に出力する（図２ステップＳ３）。他方、特徴量算出部１２は、シーン抽出部１１から出力されたシーンデータＳＤから、上記Attn-GANの深層学習に対応した画像特徴量ＦＶ２をシーンＳのフレームｆ_i,mから算出し、画像検索部Ｓ１の類似度算出部５に出力する（図２ステップＳ３）。

これらにより類似度算出部５は、画像特徴量ＦＶ１及び画像特徴量ＦＶ２を用いて、クエリ画像と各フレームｆ_i,mの類似度ｗ_i,mを算出し、当該算出された類似度ｗ_i,mを示す類似度データＷを類似度ランキング部６に出力する（図２ステップＳ４）。そして類似度ランキング部６は、各フレームｆ_i,mの類似度ｗ_i,mが高い順に各フレームｆ_i,mをランキングし（即ち並び替え）、クエリ画像に最も類似しているフレームｆ_iopt,moptを決定し、当該決定結果を示すフレーム情報Ｒを生成して検索画像出力部７に出力する（図２ステップＳ５）。これにより検索画像出力部７は、Ｎ個存在する複数のシーンＳ₁乃至シーンＳ_Nの中から「iopt」番目のシーンＳ_ioptを検索画像データＧＤとしてユーザに提示する（図２ステップＳ６）。このステップＳ６では、例えば図示しないディスプレイ上に上記シーンＳ_ioptが表示されることにより、当該シーンＳ_ioptのユーザへの提示が為される。

なお、本発明の発明者らによる実験結果によれば、上記「People are driving a car.」という文章に相当するテキストデータＴＤ（図３（ａ）上段参照）が画像生成部１により取得された場合に検索されたシーンＳ_ioptは、例えば図３（ａ）下段に示されているような、三人の人がドライブをしているシーンＳ_ioptが検索された。また、上記「The stuffed animal on the shelf.」という文章に相当するテキストデータＴＤ（図３（ｂ）上段参照）が画像生成部１により取得された場合に検索されたシーンＳ_ioptは、例えば図３（ａ）下段に示されているような、棚に入れられた複数の動物（象）の縫いぐるみが複数映されたシーンＳ_ioptが検索された。

ここで、人間の眼で見た場合は、図３（ａ）中段又は図３（ｂ）中段に例示されるクエリ画像を用いて図３（ａ）下段又は図３（ｂ）下段に示される検索画像データＧＤが検索されることが理解し難い場合もあるが、本発明の発明者らは、上記Attn-GANとしての深層学習処理に用いられる機械言語で比較した場合、図３（ａ）中段又は図３（ｂ）中段に例示されるクエリ画像を用いて図３（ａ）下段又は図３（ｂ）下段に示される検索画像データＧＤが検索されることになると推測している。即ち、機械言語で見た場合、図３（ａ）中段に例示されるクエリ画像は図３（ａ）下段に示される検索画像データＧＤに類似しており、また、図３（ｂ）中段に例示されるクエリ画像は図３（ｂ）下段に示される検索画像データＧＤに類似していると解釈されるものと推測している。

（II）実施形態に係る画像再検索処理について
次に、実施形態に係る画像再検索処理について、図１及び図２を用いて説明する。

図２ステップＳ６でユーザにシーンＳ_iopt（検索画像データＧＤ）を提示した後、画像検索部Ｓ１は、当該ユーザによる再検索指示操作が図示しない操作部において実行されたか否かを監視する（図２ステップＳ７）。この再検索指示操作は、図２ステップＳ６でシーンＳ_ioptを提示されたユーザ、即ち図２ステップＳ１でテキストデータＴＤを入力したユーザが、そのシーンＳ_ioptを見た結果、当該ユーザが所望するシーンＳでなかった場合に行う再検索指示操作である。この場合にユーザは、提示されたシーンＳ_ioptを主観的に評価し、検索を所望するシーンＳに対するそのユーザのイメージと、検索結果たるシーンＳ_ioptと、の差異を確認する。そして、当該イメージと検索結果たるシーンＳ_ioptとの差異があると確認した場合、ユーザは、上記再検索指示操作を行う。

図２ステップＳ７の監視において、上記再検索指示操作が実行されない場合（図２ステップＳ７：ＮＯ）、画像検索部Ｓ１は、後述するステップＳ９に移行する。一方図２ステップＳ７の監視において再検索指示操作が実行された場合（図２ステップＳ７：ＹＥＳ）、再検索指示操作を行ったユーザは、最初に入力したテキストデータＴＤに相当する文章において、その時点での検索結果であるシーンＳ_ioptにおいて不足又は過多であると考えられる単語それぞれの当該文章における重み付け（割合）の修正を、例えば数値の入力により行う。そして画像検索部Ｓ１は、当該修正後の文章に相当する修正テキストデータＲＴＤ（図１参照）を改めて取得する（図２ステップＳ８）。その後、画像生成部１は、修正テキストデータＲＴＤに対応した画像再検索用の画像の生成を改めて行う（図２ステップＳ８を経由したステップＳ２）。このとき画像生成部１は、ｋ（ｋ＝１，２，…，Ｋ；Ｋは元のテキストデータＴＤとして入力された単語の数）番目の単語の特徴量ｅ_kに対して上記修正後の重み付け（割合）α_kを乗算し、修正テキストデータＲＴＤに相当する文章に含まれる単語の特徴量の行列eを生成する。その後画像生成部１は、当該行列eに基づき、上記式（３）により、修正テキストデータＲＴＤに対応した画像再検索用のクエリ画像に相当するクエリ画像データＱＤを改めて生成する。

その後、再生成されたクエリ画像データＱＤに対して、ｉ）画像検索部Ｓ１の特徴量算出部４による画像特徴量ＦＶ１の再算出（図２ステップＳ８を経由したステップＳ３）、ii）類似度算出部５による画像特徴量ＦＶ２と再算出された画像特徴量ＦＶ１との間の類似度ｗ_i,mを示す類似度データＷの再算出（図２ステップＳ８を経由したステップＳ４）、iii）類似度ランキング部６によるランキング及び再生成されたクエリ画像に最も類似しているフレームｆ_iopt,moptを示すフレーム情報Ｒの再生成（図２ステップＳ８を経由したステップＳ５）、及び、iv）検索画像出力部７による再検索画像データＲＧＤの再提示（図２ステップＳ８を経由したステップＳ６）が、それぞれ実行される。

次に、実施形態に係る画像検索処理及び実施形態に係る画像再検索処理の効果をそれぞれ示すものとして本発明の発明者らが行った実験結果を、実施例として以下に示す。

（Ｉ）定量的実験結果
初めに、定量的な実験結果について、図４を用いて説明する。なお図４（ａ）では、原点付近の実験結果を一部拡大表示している。

実施形態に係る画像検索処理についての定量的な効果の確認として、本発明の発明者らは、学習データ蓄積部２に蓄積されている上記Attn-GANの学習用データセットとして、３３万枚の日常的な画像に対して一画像当たり五つのキャプション（上記ラベル。以下、同様。）が付与されているCommon Objects in Context （以下、単に「ＣＯＣＯ」と称する）データセットを用いた。このＣＯＣＯデータセットについては、文献「T. Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, “Microsoft COCO: Common objects in context,” in Proceeding of the European conference on computer vision, 2014, pp. 740-755.」に詳しい。一方、画像データ蓄積部１０に蓄積されている動画として、シーンごとにキャプションが付与されている映画データセットＭＰ２−ＭＤ（MP2 Movie Description）の中から、一つの映画を検索の対象として用いた。この映画は、４３２シーン及び４３，９４４フレームから構成されている。この映画データセットMP2-MDについては、文献「A. Rohrbach, M. Rohrbach, N. Tandon, and B. Schiele, “A dataset for Movie Description," in Proceedings of the Conference on Computer Vision and Pattern Recognition, 2015, pp. 3202-3212.」に詳しい。

また上記実験では、効果の評価指標として、ｋ位以上の再現率を測定することが可能な指標である「Recall@k」を用いた。なお今回の実験では、テキストデータＴＤに相当する文章の内容と、検索画像データＧＤに相当するシーンＳと、が同一のシーンのものであった場合を正解としている。このとき指標Recall@kは、以下の式（４）によって定義される。

ここで、ｔ_kは正解がｋ位以上に存在するテキストデータＴＤに相当する文章の個数を示し、ｓは入力されたテキストデータＴＤの総数（図４に示す実験に用いた映画の場合は４３２個）を示す。

一方上記実験では、画像特徴量ＦＶ１又は画像特徴量ＦＶ２の画像特徴量として、ImageNetにより学習済みのInception-v3の第３プーリング層の出力を用い、類似度としてコサイン類似度を用いた。このImageNetについては、文献「A. Krizhevsky, I. Sutskever, and H. Geoffrey E., “ImageNet classification with deep convolutional neural networks,” in Proceedings of the Advances in Neural Information Processing Systems 25 (NIPS2012), 2012, pp. 1-9.」に詳しい。またInception-v3については、文献「C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2818-2826.」に詳しい。

他方、今回の実験の比較対象として、画像と文章をそれぞれ同一な空間に射影し比較する二つの手法（以下、「ＣＭ１法」及び「ＣＭ２法」と称する）と、文章を画像空間に射影し比較する手法（以下「ＣＭ３法」と称する）用いた。このときＣＭ１法は、いわゆるLong Short Term Memory（LSTM）を用いた手法であり、ＣＭ２法は、いわゆるGated Recurrent Unit（GRU）を用いた手法である。但し、上記ＣＭ１法乃至上記ＣＭ３法のそれぞれは、上記ＣＯＣＯデータセットで深層学習されており、画像自体は生成されないシーン検索手法である。また、上記ＣＭ１法については文献「R. Kiros, R. Salakhutdinov, and R. S. Zemel, “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models,” arXiv:1411.2539, 2014. 」に詳しく、上記ＣＭ２法については文献「I. Vendrov, R. Kiros, S. Fidler, and R. Urtasun, “Order-Embeddings of Images and Language,” in Proceeding of the International Conference on Learning Representations, 2016, pp. 1-12.」に詳しく、上記ＣＭ３法については文献「J. Dong, X. Li, and C. G. M. Snoek, “Word2VisualVec: Image and Video to Sentence Matching by Visual Feature Prediction,”arXiv:1604.06838, 2016.」に詳しい。

そして、図４（ａ）にグラフ図を、図４（ｂ）にその一部を表として示すように、上記ＣＭ１法及びＣＭ２と比較して、実施形態に係る画像検索処理における検索精度が上回っていることが確認された。またＣＭ３法との比較においても、評価指標Recall@50以上において実施形態に係る画像検索処理の方が検索精度において上回ることが確認された。以上の通りであるので、実施形態に係る画像検索処理の有用性が定量的に確認された。

（II）定性的実験結果
次に、定性的な実験結果について説明する。

実施形態に係る画像検索処理についての定性的な効果の確認として、本発明の発明者らは、学習データ蓄積部２に蓄積されている上記Attn-GANの学習用データセットとして上記ＣＯＣＯデータセットを用いた。また、画像データ蓄積部１０に蓄積されている動画として、９４本の映画から抜粋されたシーンにより構成されている上記映画データセットＭＰ２−ＭＤを用いた。

先ず初めに、ＭＰ２−ＭＤデータセットから無作為に選択したシーンＳに対して，そのシーンＳを表す文章（テキストデータＴＤ）を作成し、上記Attn-GANによりクエリ画像を生成し、検索を行った。その結果は、下記表１の上段に示されている。このとき、画像特徴量ＦＶ１又は画像特徴量ＦＶ２の画像特徴量としては、上記ImageNetにより学習済みのInception-v3の第３プーリング層の出力を用い、類似度としてコサイン類似度を用いた。

一方、実施形態に係る画像再検索処理として、上記実施形態に係る画像検索処理の結果としての検索画像データＧＤを参考としてテキストデータＴＤ内の単語の重み付けを変更し、一度のみ実施形態に係る画像再検索処理を行った結果を再検索画像データＲＧＤとした。

その後、実施形態に係る画像検索処理及び実施形態に係る画像再検索処理それぞれの検索結果において一位とされたシーンＳを複数の実験参加者にそれぞれ提示し、テキストデータＴＤに相当する文章との一致度合いを、「完全に一致していない」を１点とし、「あまり一致していない」を２点とし、「どちらとも言えない」を３点とし、「少し一致している」を４点とし、「完全に一致している」を５点とし、それぞれ採点をして評価させた。更に各実験参加者には、上記の定性的な評価を、提示したそれぞれ異なる十個のテキストデータＴＤに相当する量の文章、検索画像データＧＤ及び再検索画像データＲＧＤの各シーンＳに対して行わせた。このような実施形態に係る画像再検索処理についての実験結果は、下記表１の下段に示されている。

そして、十八名の実験参加者による上記実験の結果、上記表１に示される通り、実施形態に係る画像再検索処理の評価値の平均が、実施形態に係る画像検索処理の評価値の平均よりも高い値であることが判った。この結果、実施形態に係る画像再検索処理の有効性も確認できた。

以上それぞれ説明したように、実施形態に係る画像検索処理によれば、複数の単語からなり且つ検索を所望するシーンＳの内容を記述した文章に相当するテキストデータＴＤと、上記Attn-GANによる深層学習処理の結果が反映された学習テキストデータＳＴＤと、を用いて生成されたクエリ画像の画像特徴量ＦＶ１と、検索対象の画像それぞれの画像特徴量ＦＶ２と、の間の類似度に基づいて、クエリ画像に対応した検索画像データＧＤとしてユーザに提示する。よって、検索対象の画像について上記ラベル等がない場合でも、複数の画像から高い精度で検索が所望されるシーンＳを検索することができる。

また、画像生成部１が、上記Attn-GANによる深層学習処理の結果が反映された学習テキストデータＳＴＤを用いてクエリ画像を生成するので、テキストデータＴＤに高精度に対応したクエリ画像が生成される。

更に、画像特徴量ＦＶ１及び画像特徴量ＦＶ２が、上記Attn-GANにそれぞれ対応した深層学習の特徴量であるので、検索が所望されるシーンＳを高精度で検索することができる。

更にまた、一旦出力された検索画像データＧＤに基づいて修正された修正テキストデータＲＴＤに基づき、検索が所望されるシーンＳが改めて検索されるので、上記ラベル等がない場合でも、より高い精度で所望されるシーンＳを検索することができる。即ち、例えば上記非特許文献１に開示されている技術のようなラベルを用いる画像検索の手法では、テキストデータＴＤ又は修正テキストデータＲＴＤに相当する文章を用いる際に、それらに含まれる全ての単語が等しく重み付けされていたため、どの単語がどの程度重視されたシーンＳを検索したいかをテキストデータＴＤ等に反映させることは困難であった。このため、上記非特許文献１に開示されている従来のラベルを用いる画像検索の手法では、上記単語を変化させることでしかその検索結果を変化させることができず、画像の再検索を行う際に細かな調節を行うことは困難であった。これに関し、実施形態に係る画像再検索処理によれば、テキストデータＴＤ等に相当する文章に含まれる単語それぞれの重み付けを調整し、より高精度な画像検索が可能となる。

なお上述した実施形態及び実施例では、学習テキストデータＳＴＤにその結果が反映されるべき深層学習処理として上記Attn-GANを用いたが、これ以外に、例えば、複数の単語からなる文章に対して当該各単語に注目しつつ複数のニューラルネットワークにより行われた深層学習処理等、複数のニューラルネットワークが用いられた他の種類の深層学習処理を用いてもよい。

また、上記生成されたクエリ画像自体をユーザが修正したり、追加の画像を加えたりした上で画像の検索に用いるように構成してもよい。この場合は、よりユーザのイメージに近い画像が検索可能となると期待される。

更に、図２に示すフローチャートに相当するプログラムを、光ディスク又はハードディスク等の記録媒体に記録しておき、或いはインターネット等のネットワークを介して取得しておき、これを汎用のマイクロコンピュータ等に読み出して実行することにより、当該マイクロコンピュータ等を実施形態に係る画像検索部Ｓ１及び画像データベースＳ２として機能させることも可能である。

以上それぞれ説明したように、本発明は画像検索を行う画像検索システムの分野に利用することが可能であり、特に深層学習処理を行うニューラルネットワークを用いて画像検索を行う画像検索システムの分野に適用すれば、特に顕著な効果が得られる。

１画像生成部
２学習データ蓄積部
３識別部
４、１２特徴量算出部
５類似度算出部
６類似度ランキング部
７検索画像出力部
１０画像データ蓄積部
１１シーン抽出部
Ｇ動画データ
Ｒフレーム情報
Ｗ類似度データ
ＳＳ画像検索システム
ＴＤテキストデータ
Ｓ１画像検索部
Ｓ２画像データベース
ＳＤシーンデータ
ＱＤクエリ画像データ
ＧＤ検索画像データ
ＳＴＤ学習テキストデータ
ＳＧＤ学習画像データ
ＦＶ１、ＦＶ２画像特徴量
ＳＧＤ学習画像データ
ＲＴＤ修正テキストデータ
ＲＧＤ再検索画像データ

Claims

複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得するテキストデータ取得手段と、
複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成手段と、
前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出するクエリ画像特徴量算出手段と、
検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する被検索画像特徴量算出手段と、
各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索出力手段と、
を備えることを特徴とする画像検索装置。
請求項１に記載の画像検索装置において、
前記深層学習データは、複数の単語からなる文章に対して、当該各単語に注目しつつ前記複数のニューラルネットワークにより行われた前記深層学習処理の結果が反映された深層学習データであることを特徴とする画像検索装置。
請求項１又は請求項２に記載の画像検索装置において、
前記深層学習データは、前記複数のニューラルネットワークを含む注意型敵対的生成ネットワーク（Attentional Generative Adversarial Network）による深層学習の結果が反映された深層学習データであることを特徴とする画像検索装置。
請求項１から請求項３のいずれか一項に記載の画像検索装置において、
前記被検索画像特徴量及び前記クエリ画像特徴量は、それぞれ、前記深層学習処理に対応した特徴量であることを特徴とする画像検索装置。
請求項１から請求項４のいずれか一項に記載の画像検索装置において、
前記テキストデータ取得手段は、前記出力された検索所望画像に基づいて修正された前記文章に相当する前記テキストデータを再度取得し、
前記画像生成手段は、前記深層学習データと、前記再度取得されたテキストデータと、を用いて前記クエリ画像を再度生成し、
前記クエリ画像特徴量算出手段は、再度生成された前記クエリ画像の前記特徴量を前記クエリ画像特徴量として再度算出し、
前記検索出力手段は、各前記算出された被検索画像特徴量と、前記再度算出されたクエリ画像特徴量と、の間の前記類似度に基づいて、前記再度生成されたクエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力することを特徴とする画像検索装置。
テキストデータ取得手段と、画像生成手段と、クエリ画像特徴量算出手段と、被検索画像特徴量算出手段と、検索出力手段と、を備える画像検索装置において実行される画像検索方法であって、
複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを前記テキストデータ取得手段により少なくとも取得するテキストデータ取得工程と、
複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を前記画像生成手段により生成する画像生成工程と、
前記生成されたクエリ画像の特徴量をクエリ画像特徴量として前記クエリ画像特徴量算出手段により算出するクエリ画像特徴量算出工程と、
検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として前記被検索画像特徴量算出手段により算出する被検索画像特徴量算出工程と、
各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から前記検索出力手段により検索し、前記検索所望画像として出力する検索出力工程と、
を含むことを特徴とする画像検索方法。
コンピュータを、
複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得するテキストデータ取得手段、
複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成手段、
前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出するクエリ画像特徴量算出手段、
検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する被検索画像特徴量算出手段、及び、
各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索出力手段、
として機能させることを特徴とする画像検索用プログラム。