JPWO2020071216A1 - 画像検索装置、画像検索方法及び画像検索用プログラム - Google Patents
画像検索装置、画像検索方法及び画像検索用プログラム Download PDFInfo
- Publication number
- JPWO2020071216A1 JPWO2020071216A1 JP2020550342A JP2020550342A JPWO2020071216A1 JP WO2020071216 A1 JPWO2020071216 A1 JP WO2020071216A1 JP 2020550342 A JP2020550342 A JP 2020550342A JP 2020550342 A JP2020550342 A JP 2020550342A JP WO2020071216 A1 JPWO2020071216 A1 JP WO2020071216A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- search
- feature amount
- searched
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
検索対象たる画像の特徴を示すラベルが予め付与されていない場合でも、所望される画像を高い精度で検索することが可能な画像検索装置を提供する。複数の単語からなる文章であって検索が所望される画像の内容を記述した文章に相当するテキストデータTDを取得し、複数のニューラルネットワークを用いた深層学習処理の結果が反映された学習テキストデータSTDと、上記テキストデータTDと、を用いて、テキストデータTDに対応した画像検索用のクエリ画像を生成する画像生成部1と、クエリ画像の特徴量を算出する特徴量算出部4と、検索対象たる画像の特徴量を算出する特徴量算出部12と、各特徴量間の類似度に基づいて、クエリ画像に対応した画像を検索し、ユーザに提示する検索画像出力部7と、を備える。
Description
本発明は、画像検索装置、画像検索方法及び画像検索用プログラムの技術分野に属する。より詳細には、複数の画像から所望される画像を検索する画像検索装置及び画像検索方法並びに当該画像検索装置用のプログラムの技術分野に属する。
近年、インターネット上の映像共有サイトにアップロードされる映像は爆発的に増加しており、ある映像共有サイトには1分間に72時間分の長さの映像がアップロードされていることが報告されている。そのため、上記のような映像共有サイトにアップロードされている画像(動画及び静止画を含む。以下、同様。)から所望の画像を検索することが困難となってきつつあり、当該画像内から目的の画像やシーンを効率的に検索可能とする技術の確立が急務である。
このような要請に答える従来技術としては、例えば下記非特許文献1に開示されている技術がある。非特許文献1に開示されている技術では、検索対象の画像のシーンに予め付与された単語や文のラベルと、クエリである単語や文と、を比較することにより検索を実現しており、様々な検索エンジンで採用されている。
S. Schuster, R. Krishna, A. Chang, L. Fei-Fei, and C. D. Manning, "Generating semantically precise scene graphs from textual descriptions for improved image retrieval," in Proceedings of the Fourth Workshop on Vision and Language, 2015, pp. 70-80.
しかしながら、上記非特許文献1に開示されている技術のようなラベルに基づく検索手法では,検索が所望される画像に類似した画像を含むシーンが多数存在した場合、それらに同一のラベルが付与されてしまう可能性が存在し、結果的に検索精度に限界が存在する。従って、検索対象である画像に対するラベルの付与が不要となる検索手法が求められている。
そこで本発明は、上記の要請に鑑みて為されたもので、その課題の一例は、検索対象たる画像の特徴を示すラベルが予め付与されていない場合でも、所望される画像を高い精度で検索することが可能な画像検索装置及び画像検索方法並びに当該画像検索装置用のプログラムを提供することにある。
上記の課題を解決するために、請求項1に記載の発明は、複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得する画像生成部等のテキストデータ取得手段と、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成部等の画像生成手段と、前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出する特徴量算出部等のクエリ画像特徴量算出手段と、検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する特徴量算出部等の被検索画像特徴量算出手段と、各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索画像出力部等の検索出力手段と、を備える。
上記の課題を解決するために、請求項6に記載の発明は、画像生成部等のテキストデータ取得手段と、画像生成部等の画像生成手段と、特徴量算出部等のクエリ画像特徴量算出手段と、特徴量算出部等の被検索画像特徴量算出手段と、検索画像出力部等の検索出力手段と、を備える画像検索装置において実行される画像検索方法であって、複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを前記テキストデータ取得手段により少なくとも取得するテキストデータ取得工程と、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を前記画像生成手段により生成する画像生成工程と、前記生成されたクエリ画像の特徴量をクエリ画像特徴量として前記クエリ画像特徴量算出手段により算出するクエリ画像特徴量算出工程と、検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として前記被検索画像特徴量算出手段により算出する被検索画像特徴量算出工程と、各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から前記検索出力手段により検索し、前記検索所望画像として出力する検索出力工程と、を含む。
上記の課題を解決するために、請求項7に記載の発明は、コンピュータを、複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得するテキストデータ取得手段、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成手段、前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出するクエリ画像特徴量算出手段、検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する被検索画像特徴量算出手段、及び、各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索出力手段、として機能させる。
請求項1、請求項6又は請求項7のいずれか一項に記載の発明によれば、複数の単語からなり検索所望画像の内容を記述した文章に相当するテキストデータと、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、を用いて生成されたクエリ画像の特徴量と、複数の被検索画像それぞれの特徴量と、の間の類似度に基づいて、クエリ画像に対応した被検索画像を検索し、検索所望画像として出力する。よって、被検索画像の特徴を予め記述したラベルデータ等がない場合でも、複数の被検索画像から高い精度で検索所望画像を検索することができる。
上記の課題を解決するために、請求項2に記載の発明は、請求項1に記載の画像検索装置において、前記深層学習データは、複数の単語からなる文章に対して、当該各単語に注目しつつ前記複数のニューラルネットワークにより行われた前記深層学習処理の結果が反映された深層学習データであるように構成される。
請求項2に記載の発明によれば、請求項1に記載の発明の作用に加えて、深層学習データが、複数の単語からなる文章に対して、当該各単語に注目しつつ複数のニューラルネットワークにより行われた深層学習処理の結果が反映された深層学習データであるので、検索所望画像の内容を記述した文章により高精度に対応したクエリ画像を生成することができる。
上記の課題を解決するために、請求項3に記載の発明は、請求項1又は請求項2に記載の画像検索装置において、前記深層学習データは、前記複数のニューラルネットワークを含む注意型敵対的生成ネットワークによる深層学習の結果が反映された深層学習データであるように構成される。
請求項3に記載の発明によれば、請求項1又は請求項2に記載の発明の作用に加えて、深層学習データが、複数のニューラルネットワークを含む注意型敵対的生成ネットワークによる深層学習の結果が反映された深層学習データであるので、検索所望画像の内容を記述した文章に高精度に対応したクエリ画像を生成することができる。
上記の課題を解決するために、請求項4に記載の発明は、請求項1から請求項3のいずれか一項に記載の画像検索装置において、前記被検索画像特徴量及び前記クエリ画像特徴量は、それぞれ、前記深層学習処理に対応した特徴量であるように構成される。
請求項4に記載の発明によれば、請求項1から請求項3のいずれか一項に記載の発明の作用に加えて、被検索画像特徴量及びクエリ画像特徴量が、それぞれ深層学習処理に対応した特徴量であるので、高精度で検索所望画像を検索することができる。
上記の課題を解決するために、請求項5に記載の発明は、請求項1から請求項4のいずれか一項に記載の画像検索装置において、前記テキストデータ取得手段は、前記出力された検索所望画像に基づいて修正された前記文章に相当する前記テキストデータを再度取得し、前記画像生成手段は、前記深層学習データと、前記再度取得されたテキストデータと、を用いて前記クエリ画像を再度生成し、前記クエリ画像特徴量算出手段は、再度生成された前記クエリ画像の前記特徴量を前記クエリ画像特徴量として再度算出し、前記検索出力手段は、各前記算出された被検索画像特徴量と、前記再度算出されたクエリ画像特徴量と、の間の前記類似度に基づいて、前記再度生成されたクエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力するように構成される。
請求項5に記載の発明によれば、請求項1から請求項4のいずれか一項に記載の発明の作用に加えて、一旦出力された検索所望画像に基づいて修正された文章に相当するテキストデータに基づき、検索所望画像が改めて検索されるので、上記ラベルデータ等がない場合でも、より高い精度で検索所望画像を検索することができる。
本発明によれば、複数の単語からなり検索所望画像の内容を記述した文章に相当するテキストデータと、複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、を用いて生成されたクエリ画像の特徴量と、複数の被検索画像それぞれの特徴量と、の間の類似度に基づいて、クエリ画像に対応した被検索画像を検索し、検索所望画像として出力する。
従って、被検索画像の特徴を予め記述したラベルデータ等がない場合でも、複数の被検索画像から高い精度で検索所望画像を検索することができる。
次に、本発明を実施するための形態について、図面に基づいて説明する。なお、以下に説明する実施形態は、動画に含まれる複数のシーン又は画像の中から、検索が所望されるシーン又は画像を検索する画像検索システムに対して本発明を適用した場合の実施の形態である。なお以下の説明においては、上記シーン又は画像を、単に「シーン」と称する。
また、図1は実施形態に係る画像検索システムの構成を示すブロック図であり、図2は実施形態に係る画像検索処理を示すフローチャートであり、図3は当該画像検索処理におけるテキストデータ等をそれぞれ例示する図であり、図4は当該画像検索処理による効果を示すグラフ図である。更に図1においては、実施形態に係る画像検索処理におけるデータの授受を実線で、後述する実施形態に係る画像再検索処理特有のデータの授受を破線で、それぞれ示している。
(I)実施形態に係る画像検索処理について
初めに、実施形態に係る画像検索処理について、図1乃至図3を用いて説明する。
初めに、実施形態に係る画像検索処理について、図1乃至図3を用いて説明する。
図1に示すように、実施形態に係る画像検索システムSSは、検索が所望されているシーンを含む複数のシーンからそれぞれなる複数の動画が蓄積されている画像データベースS2と、検索が所望されているシーンを、画像テータベスS2に蓄積されている動画の中から実施形態に係る画像検索処理により検索する画像検索部S1と、により構成されている。
この構成において画像検索部S1は、深層学習用の一又は複数のニューラルネットワークをそれぞれに備えた画像生成部1及び識別部3と、学習データ蓄積部2と、特徴量算出部4と、類似度算出部5と、類似度ランキング部6と、検索画像出力部7と、により構成されている。また、画像データベースS2は、画像データ蓄積部10と、シーン抽出部11と、特徴量算出部12と、により構成されている。このとき、画像生成部1が本願に係る「テキストデータ取得手段」の一例及び「画像生成手段」の一例に相当し、特徴量算出部4が本願に係る「クエリ画像特徴量算出手段」の一例に相当し、特徴量算出部12が本願に係る「被検索画像特徴量算出手段」の一例に相当し、類似度算出部5、類似度ランキング部6及び検索画像出力部7が本願に係る「検索出力手段」の一例に相当する。
ここで、上記画像生成部1及び上記識別部3がそれぞれに備える上記深層学習用のニューラルネットワークは、いわゆる注意型敵対的生成ネットワーク(Attentional Generative Adversarial Network。以下、「Attn-GAN」と称する)を構成し且つ相互にAttn-GANとしての敵対的な関係を有するニューラルネットワークである。そして、上記学習データ蓄積部2に蓄積されている学習データは、画像生成部1と識別部3との間の上記敵対的な関係を用いた上記Attn-GANとしての深層学習処理により学習されたデータである。この学習データには、図1に示す学習テキストデータSTD及び学習画像データSGDが含まれている。学習画像データSGDは、実際に撮影された画像である。なお上記識別部3は、上記Attn-GANによる上記深層学習処理を画像検索部S1として行う際に用いられるものであり、実施形態に係る画像検索処理及び実施形態に係る画像再検索処理に対して直接的に関与するものではない。
次に、実施形態に係る画像検索システムSSの動作について、図1乃至図3を用いて説明する。
先ず、図1に示すように、実施形態に係る画像検索システムSSの画像データベースS2に含まれる画像データ蓄積部10には、種々のシーンから構成される例えば映画等の動画データGが複数蓄積されている。この複数のシーンから、所望されるシーンが検索される。そして画像データ蓄積部10は、一の当該動画データGをシーン抽出部11に出力する。シーン抽出部11は、画像データ蓄積部10からの動画データGをN個(Nは自然数。以下、同様。)のシーンS1乃至シーンSNに分割し、分割後のシーンS1乃至シーンSNをそれぞれシーンデータSDとして特徴量算出部12に出力する。なお以下の説明において、シーンS1乃至シーンSNに共通の事項を説明する場合、これらを纏めて「シーンS」と称する。また以下の説明において、動画データGに相当する動画を構成する各フレームをfi,m(m=1,2,…,Mi;Miはi番目のシーンのフレーム数)とする。これらにより特徴量算出部12は、シーン抽出部11から出力されたシーンデータSDから、上記Attn-GANの深層学習に対応した画像特徴量FV2をシーンごとに算出し、画像検索部S1の類似度算出部5に出力する。
一方図1に示すように、シーンの検索を所望するユーザは、例えば画像検索部S1の電源スイッチがオンとされた後、当該検索を所望するシーンの内容を記述した文章であって、複数の単語からなる文章に相当するテキストデータTDを作成し、画像検索部S1の画像生成部1に入力する。これにより画像生成部1は、図2に示すように、当該入力されたテキストデータTDを取得する(図2ステップS1)。このテキストデータTDの内容としては、例えば、複数の人が車に搭乗しているシーンの検索が所望される場合、「People are driving a car.」という文章に相当するテキストデータTDが画像生成部1に取得
される。この場合のテキストデータTDとしては、上記ユーザが例えば図示しないキーボード等を用いて直接入力する場合の他、ユーザの音声を図示しない音声読み取り装置により読み取った結果としてのテキストデータTDが入力されてもよいし、紙の上に記載された当該文章をOCR(Optical Character Reader)で読み取った結果としてのテキストデータTDが入力されてもよい。
される。この場合のテキストデータTDとしては、上記ユーザが例えば図示しないキーボード等を用いて直接入力する場合の他、ユーザの音声を図示しない音声読み取り装置により読み取った結果としてのテキストデータTDが入力されてもよいし、紙の上に記載された当該文章をOCR(Optical Character Reader)で読み取った結果としてのテキストデータTDが入力されてもよい。
これにより画像生成部1は、学習データ蓄積部2からの上記学習テキストデータSTDと、上記取得されたテキストデータTDと、を用いて、テキストデータTDに対応した画像検索用のクエリ画像に相当するクエリ画像データQDを生成する(図2ステップS2)。このクエリ画像データQDは、特徴量算出部4に出力されると共に識別部3に出力される。
ここで、上記クエリ画像データQDに相当するクエリ画像の、画像生成部1による上記Attn-GANを用いた生成について、具体的に説明する。
初めに、実施形態に係る上記Attn-GANが、三つのニューラルネットワークFi(i=0,1,2)、二つのワードと隠れ層の特徴を合算するAttention model Fi attn(i=1,2)及び三つの生成器Gj(j=0,1,2)から構成されているとする。先ず画像生成部1は、以下の式(1)を用いて、入力されたテキストデータTDに相当する文章の構造の特徴量y及びガウス雑音zから、当該文章全体の構造に着目したクリエ画像を生成するための特徴量h0を算出する。
但し、式(1)における関数Fcaは、文献「H. Zhang, T. Xu, H. Li, S. Zhang, X. Wang, X. Huang, and D. Metaxas, “StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks,” in Proceedings of the International Conference on Computer Vision, 2017, pp. 5907-5915.」により提案されたセンテンスベクトルを、過学習を抑制することが可能なコンディションベクトルに変換する関数である。次に画像生成部1は、上記式(1)の特徴量h0及びテキストデータTDに相当する文章に含まれる単語の特徴量の行列eを入力として、以下の式(2)により、当該単語にも着目したクエリ画像を生成するための特徴量hiを算出する。
そして画像生成部1は、上記式(1)の特徴量h0及び上記式(2)の特徴量hiから、それぞれテキストデータTDに相当する文章の構造にのみ着目したクエリ画像、及びそれに含まれる単語にも着目したクエリ画像を、以下の式(3)により生成する。
このとき、上記式(3)に示すように、文章の構造からそれに含まれる単語へと着目点を段階的に細分化していくことにより、画像生成部1及び識別部3それぞれに備えられたニューラルネットワークを含む実施形態に係る上記Attn-GANでは、高精度なクエリ画像が生成される(図2ステップS2)。
なお、本発明の発明者らによる実験結果によれば、上記「People are driving a car.」という文章に相当するテキストデータTD(図3(a)上段参照)が画像生成部1により取得された場合に生成されるクエリ画像は、例えば図3(a)中段に示されているクエリ画像となる。また、例えば「The stuffed animal on the shelf.」という文章に相当するテキストデータTD(図3(b)上段参照)が画像生成部1により取得された場合に生成される実施形態に係るクエリ画像は、例えば図3(b)中段に示されているクエリ画像となる。
一方、上記ステップS2により識別部3は、当該クエリ画像データQDと、学習データ蓄積部2から出力される学習画像データSGDと、を用いて、上記Attn-GANとしての深層学習処理としての本物/偽物の識別を行う。この場合の本物/偽物の識別とは、その時点で当該識別部3に入力された画像データに相当する画像が、学習画像データSGDに相当する、実際に撮影された学習画像であるか、識別部3により生成されたクエリ画像データQDに相当するクエリ画像であるか、の識別である。
そして特徴量算出部4は、画像生成部1から出力されたクエリ画像データQDから、上記Attn-GANの深層学習に対応した画像特徴量FV1を算出し、類似度算出部5に出力する(図2ステップS3)。他方、特徴量算出部12は、シーン抽出部11から出力されたシーンデータSDから、上記Attn-GANの深層学習に対応した画像特徴量FV2をシーンSのフレームfi,mから算出し、画像検索部S1の類似度算出部5に出力する(図2ステップS3)。
これらにより類似度算出部5は、画像特徴量FV1及び画像特徴量FV2を用いて、クエリ画像と各フレームfi,mの類似度wi,mを算出し、当該算出された類似度wi,mを示す類似度データWを類似度ランキング部6に出力する(図2ステップS4)。そして類似度ランキング部6は、各フレームfi,mの類似度wi,mが高い順に各フレームfi,mをランキングし(即ち並び替え)、クエリ画像に最も類似しているフレームfiopt,moptを決定し、当該決定結果を示すフレーム情報Rを生成して検索画像出力部7に出力する(図2ステップS5)。これにより検索画像出力部7は、N個存在する複数のシーンS1乃至シーンSNの中から「iopt」番目のシーンSioptを検索画像データGDとしてユーザに提示する(図2ステップS6)。このステップS6では、例えば図示しないディスプレイ上に上記シーンSioptが表示されることにより、当該シーンSioptのユーザへの提示が為される。
なお、本発明の発明者らによる実験結果によれば、上記「People are driving a car.」という文章に相当するテキストデータTD(図3(a)上段参照)が画像生成部1により取得された場合に検索されたシーンSioptは、例えば図3(a)下段に示されているような、三人の人がドライブをしているシーンSioptが検索された。また、上記「The stuffed animal on the shelf.」という文章に相当するテキストデータTD(図3(b)上段参照)が画像生成部1により取得された場合に検索されたシーンSioptは、例えば図3(a)下段に示されているような、棚に入れられた複数の動物(象)の縫いぐるみが複数映されたシーンSioptが検索された。
ここで、人間の眼で見た場合は、図3(a)中段又は図3(b)中段に例示されるクエリ画像を用いて図3(a)下段又は図3(b)下段に示される検索画像データGDが検索されることが理解し難い場合もあるが、本発明の発明者らは、上記Attn-GANとしての深層学習処理に用いられる機械言語で比較した場合、図3(a)中段又は図3(b)中段に例示されるクエリ画像を用いて図3(a)下段又は図3(b)下段に示される検索画像データGDが検索されることになると推測している。即ち、機械言語で見た場合、図3(a)中段に例示されるクエリ画像は図3(a)下段に示される検索画像データGDに類似しており、また、図3(b)中段に例示されるクエリ画像は図3(b)下段に示される検索画像データGDに類似していると解釈されるものと推測している。
(II)実施形態に係る画像再検索処理について
次に、実施形態に係る画像再検索処理について、図1及び図2を用いて説明する。
次に、実施形態に係る画像再検索処理について、図1及び図2を用いて説明する。
図2ステップS6でユーザにシーンSiopt(検索画像データGD)を提示した後、画像検索部S1は、当該ユーザによる再検索指示操作が図示しない操作部において実行されたか否かを監視する(図2ステップS7)。この再検索指示操作は、図2ステップS6でシーンSioptを提示されたユーザ、即ち図2ステップS1でテキストデータTDを入力したユーザが、そのシーンSioptを見た結果、当該ユーザが所望するシーンSでなかった場合に行う再検索指示操作である。この場合にユーザは、提示されたシーンSioptを主観的に評価し、検索を所望するシーンSに対するそのユーザのイメージと、検索結果たるシーンSioptと、の差異を確認する。そして、当該イメージと検索結果たるシーンSioptとの差異があると確認した場合、ユーザは、上記再検索指示操作を行う。
図2ステップS7の監視において、上記再検索指示操作が実行されない場合(図2ステップS7:NO)、画像検索部S1は、後述するステップS9に移行する。一方図2ステップS7の監視において再検索指示操作が実行された場合(図2ステップS7:YES)、再検索指示操作を行ったユーザは、最初に入力したテキストデータTDに相当する文章において、その時点での検索結果であるシーンSioptにおいて不足又は過多であると考えられる単語それぞれの当該文章における重み付け(割合)の修正を、例えば数値の入力により行う。そして画像検索部S1は、当該修正後の文章に相当する修正テキストデータRTD(図1参照)を改めて取得する(図2ステップS8)。その後、画像生成部1は、修正テキストデータRTDに対応した画像再検索用の画像の生成を改めて行う(図2ステップS8を経由したステップS2)。このとき画像生成部1は、k(k=1,2,…,K;Kは元のテキストデータTDとして入力された単語の数)番目の単語の特徴量ekに対して上記修正後の重み付け(割合)αkを乗算し、修正テキストデータRTDに相当する文章に含まれる単語の特徴量の行列eを生成する。その後画像生成部1は、当該行列eに基づき、上記式(3)により、修正テキストデータRTDに対応した画像再検索用のクエリ画像に相当するクエリ画像データQDを改めて生成する。
その後、再生成されたクエリ画像データQDに対して、i)画像検索部S1の特徴量算出部4による画像特徴量FV1の再算出(図2ステップS8を経由したステップS3)、ii)類似度算出部5による画像特徴量FV2と再算出された画像特徴量FV1との間の類似度wi,mを示す類似度データWの再算出(図2ステップS8を経由したステップS4)、iii)類似度ランキング部6によるランキング及び再生成されたクエリ画像に最も類似しているフレームfiopt,moptを示すフレーム情報Rの再生成(図2ステップS8を経由したステップS5)、及び、iv)検索画像出力部7による再検索画像データRGDの再提示(図2ステップS8を経由したステップS6)が、それぞれ実行される。
次に、実施形態に係る画像検索処理及び実施形態に係る画像再検索処理の効果をそれぞれ示すものとして本発明の発明者らが行った実験結果を、実施例として以下に示す。
(I)定量的実験結果
初めに、定量的な実験結果について、図4を用いて説明する。なお図4(a)では、原点付近の実験結果を一部拡大表示している。
初めに、定量的な実験結果について、図4を用いて説明する。なお図4(a)では、原点付近の実験結果を一部拡大表示している。
実施形態に係る画像検索処理についての定量的な効果の確認として、本発明の発明者らは、学習データ蓄積部2に蓄積されている上記Attn-GANの学習用データセットとして、33万枚の日常的な画像に対して一画像当たり五つのキャプション(上記ラベル。以下、同様。)が付与されているCommon Objects in Context (以下、単に「COCO」と称する)データセットを用いた。このCOCOデータセットについては、文献「T. Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, “Microsoft COCO: Common objects in context,” in Proceeding of the European conference on computer vision, 2014, pp. 740-755.」に詳しい。一方、画像データ蓄積部10に蓄積されている動画として、シーンごとにキャプションが付与されている映画データセットMP2−MD(MP2 Movie Description)の中から、一つの映画を検索の対象として用いた。この映画は、432シーン及び43,944フレームから構成されている。この映画データセットMP2-MDについては、文献「A. Rohrbach, M. Rohrbach, N. Tandon, and B. Schiele, “A dataset for Movie Description," in Proceedings of the Conference on Computer Vision and Pattern Recognition, 2015, pp. 3202-3212.」に詳しい。
また上記実験では、効果の評価指標として、k位以上の再現率を測定することが可能な指標である「Recall@k」を用いた。なお今回の実験では、テキストデータTDに相当する文章の内容と、検索画像データGDに相当するシーンSと、が同一のシーンのものであった場合を正解としている。このとき指標Recall@kは、以下の式(4)によって定義される。
ここで、tkは正解がk位以上に存在するテキストデータTDに相当する文章の個数を示し、sは入力されたテキストデータTDの総数(図4に示す実験に用いた映画の場合は432個)を示す。
一方上記実験では、画像特徴量FV1又は画像特徴量FV2の画像特徴量として、ImageNetにより学習済みのInception-v3の第3プーリング層の出力を用い、類似度としてコサイン類似度を用いた。このImageNetについては、文献「A. Krizhevsky, I. Sutskever, and H. Geoffrey E., “ImageNet classification with deep convolutional neural networks,” in Proceedings of the Advances in Neural Information Processing Systems 25 (NIPS2012), 2012, pp. 1-9.」に詳しい。またInception-v3については、文献「C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna, “Rethinking the inception architecture for computer vision,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 2818-2826.」に詳しい。
他方、今回の実験の比較対象として、画像と文章をそれぞれ同一な空間に射影し比較する二つの手法(以下、「CM1法」及び「CM2法」と称する)と、文章を画像空間に射影し比較する手法(以下「CM3法」と称する)用いた。このときCM1法は、いわゆるLong Short Term Memory(LSTM)を用いた手法であり、CM2法は、いわゆるGated Recurrent Unit(GRU)を用いた手法である。但し、上記CM1法乃至上記CM3法のそれぞれは、上記COCOデータセットで深層学習されており、画像自体は生成されないシーン検索手法である。また、上記CM1法については文献「R. Kiros, R. Salakhutdinov, and R. S. Zemel, “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models,” arXiv:1411.2539, 2014. 」に詳しく、上記CM2法については文献「I. Vendrov, R. Kiros, S. Fidler, and R. Urtasun, “Order-Embeddings of Images and Language,” in Proceeding of the International Conference on Learning Representations, 2016, pp. 1-12.」に詳しく、上記CM3法については文献「J. Dong, X. Li, and C. G. M. Snoek, “Word2VisualVec: Image and Video to Sentence Matching by Visual Feature Prediction,”arXiv:1604.06838, 2016.」に詳しい。
そして、図4(a)にグラフ図を、図4(b)にその一部を表として示すように、上記CM1法及びCM2と比較して、実施形態に係る画像検索処理における検索精度が上回っていることが確認された。またCM3法との比較においても、評価指標Recall@50以上において実施形態に係る画像検索処理の方が検索精度において上回ることが確認された。以上の通りであるので、実施形態に係る画像検索処理の有用性が定量的に確認された。
(II)定性的実験結果
次に、定性的な実験結果について説明する。
次に、定性的な実験結果について説明する。
実施形態に係る画像検索処理についての定性的な効果の確認として、本発明の発明者らは、学習データ蓄積部2に蓄積されている上記Attn-GANの学習用データセットとして上記COCOデータセットを用いた。また、画像データ蓄積部10に蓄積されている動画として、94本の映画から抜粋されたシーンにより構成されている上記映画データセットMP2−MDを用いた。
先ず初めに、MP2−MDデータセットから無作為に選択したシーンSに対して,そのシーンSを表す文章(テキストデータTD)を作成し、上記Attn-GANによりクエリ画像を生成し、検索を行った。その結果は、下記表1の上段に示されている。このとき、画像特徴量FV1又は画像特徴量FV2の画像特徴量としては、上記ImageNetにより学習済みのInception-v3の第3プーリング層の出力を用い、類似度としてコサイン類似度を用いた。
一方、実施形態に係る画像再検索処理として、上記実施形態に係る画像検索処理の結果としての検索画像データGDを参考としてテキストデータTD内の単語の重み付けを変更し、一度のみ実施形態に係る画像再検索処理を行った結果を再検索画像データRGDとした。
その後、実施形態に係る画像検索処理及び実施形態に係る画像再検索処理それぞれの検索結果において一位とされたシーンSを複数の実験参加者にそれぞれ提示し、テキストデータTDに相当する文章との一致度合いを、「完全に一致していない」を1点とし、「あまり一致していない」を2点とし、「どちらとも言えない」を3点とし、「少し一致している」を4点とし、「完全に一致している」を5点とし、それぞれ採点をして評価させた。更に各実験参加者には、上記の定性的な評価を、提示したそれぞれ異なる十個のテキストデータTDに相当する量の文章、検索画像データGD及び再検索画像データRGDの各シーンSに対して行わせた。このような実施形態に係る画像再検索処理についての実験結果は、下記表1の下段に示されている。
そして、十八名の実験参加者による上記実験の結果、上記表1に示される通り、実施形態に係る画像再検索処理の評価値の平均が、実施形態に係る画像検索処理の評価値の平均よりも高い値であることが判った。この結果、実施形態に係る画像再検索処理の有効性も確認できた。
以上それぞれ説明したように、実施形態に係る画像検索処理によれば、複数の単語からなり且つ検索を所望するシーンSの内容を記述した文章に相当するテキストデータTDと、上記Attn-GANによる深層学習処理の結果が反映された学習テキストデータSTDと、を用いて生成されたクエリ画像の画像特徴量FV1と、検索対象の画像それぞれの画像特徴量FV2と、の間の類似度に基づいて、クエリ画像に対応した検索画像データGDとしてユーザに提示する。よって、検索対象の画像について上記ラベル等がない場合でも、複数の画像から高い精度で検索が所望されるシーンSを検索することができる。
また、画像生成部1が、上記Attn-GANによる深層学習処理の結果が反映された学習テキストデータSTDを用いてクエリ画像を生成するので、テキストデータTDに高精度に対応したクエリ画像が生成される。
更に、画像特徴量FV1及び画像特徴量FV2が、上記Attn-GANにそれぞれ対応した深層学習の特徴量であるので、検索が所望されるシーンSを高精度で検索することができる。
更にまた、一旦出力された検索画像データGDに基づいて修正された修正テキストデータRTDに基づき、検索が所望されるシーンSが改めて検索されるので、上記ラベル等がない場合でも、より高い精度で所望されるシーンSを検索することができる。即ち、例えば上記非特許文献1に開示されている技術のようなラベルを用いる画像検索の手法では、テキストデータTD又は修正テキストデータRTDに相当する文章を用いる際に、それらに含まれる全ての単語が等しく重み付けされていたため、どの単語がどの程度重視されたシーンSを検索したいかをテキストデータTD等に反映させることは困難であった。このため、上記非特許文献1に開示されている従来のラベルを用いる画像検索の手法では、上記単語を変化させることでしかその検索結果を変化させることができず、画像の再検索を行う際に細かな調節を行うことは困難であった。これに関し、実施形態に係る画像再検索処理によれば、テキストデータTD等に相当する文章に含まれる単語それぞれの重み付けを調整し、より高精度な画像検索が可能となる。
なお上述した実施形態及び実施例では、学習テキストデータSTDにその結果が反映されるべき深層学習処理として上記Attn-GANを用いたが、これ以外に、例えば、複数の単語からなる文章に対して当該各単語に注目しつつ複数のニューラルネットワークにより行われた深層学習処理等、複数のニューラルネットワークが用いられた他の種類の深層学習処理を用いてもよい。
また、上記生成されたクエリ画像自体をユーザが修正したり、追加の画像を加えたりした上で画像の検索に用いるように構成してもよい。この場合は、よりユーザのイメージに近い画像が検索可能となると期待される。
更に、図2に示すフローチャートに相当するプログラムを、光ディスク又はハードディスク等の記録媒体に記録しておき、或いはインターネット等のネットワークを介して取得しておき、これを汎用のマイクロコンピュータ等に読み出して実行することにより、当該マイクロコンピュータ等を実施形態に係る画像検索部S1及び画像データベースS2として機能させることも可能である。
以上それぞれ説明したように、本発明は画像検索を行う画像検索システムの分野に利用することが可能であり、特に深層学習処理を行うニューラルネットワークを用いて画像検索を行う画像検索システムの分野に適用すれば、特に顕著な効果が得られる。
1 画像生成部
2 学習データ蓄積部
3 識別部
4、12 特徴量算出部
5 類似度算出部
6 類似度ランキング部
7 検索画像出力部
10 画像データ蓄積部
11 シーン抽出部
G 動画データ
R フレーム情報
W 類似度データ
SS 画像検索システム
TD テキストデータ
S1 画像検索部
S2 画像データベース
SD シーンデータ
QD クエリ画像データ
GD 検索画像データ
STD 学習テキストデータ
SGD 学習画像データ
FV1、FV2 画像特徴量
SGD 学習画像データ
RTD 修正テキストデータ
RGD 再検索画像データ
2 学習データ蓄積部
3 識別部
4、12 特徴量算出部
5 類似度算出部
6 類似度ランキング部
7 検索画像出力部
10 画像データ蓄積部
11 シーン抽出部
G 動画データ
R フレーム情報
W 類似度データ
SS 画像検索システム
TD テキストデータ
S1 画像検索部
S2 画像データベース
SD シーンデータ
QD クエリ画像データ
GD 検索画像データ
STD 学習テキストデータ
SGD 学習画像データ
FV1、FV2 画像特徴量
SGD 学習画像データ
RTD 修正テキストデータ
RGD 再検索画像データ
Claims (7)
- 複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得するテキストデータ取得手段と、
複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成手段と、
前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出するクエリ画像特徴量算出手段と、
検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する被検索画像特徴量算出手段と、
各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索出力手段と、
を備えることを特徴とする画像検索装置。 - 請求項1に記載の画像検索装置において、
前記深層学習データは、複数の単語からなる文章に対して、当該各単語に注目しつつ前記複数のニューラルネットワークにより行われた前記深層学習処理の結果が反映された深層学習データであることを特徴とする画像検索装置。 - 請求項1又は請求項2に記載の画像検索装置において、
前記深層学習データは、前記複数のニューラルネットワークを含む注意型敵対的生成ネットワーク(Attentional Generative Adversarial Network)による深層学習の結果が反映された深層学習データであることを特徴とする画像検索装置。 - 請求項1から請求項3のいずれか一項に記載の画像検索装置において、
前記被検索画像特徴量及び前記クエリ画像特徴量は、それぞれ、前記深層学習処理に対応した特徴量であることを特徴とする画像検索装置。 - 請求項1から請求項4のいずれか一項に記載の画像検索装置において、
前記テキストデータ取得手段は、前記出力された検索所望画像に基づいて修正された前記文章に相当する前記テキストデータを再度取得し、
前記画像生成手段は、前記深層学習データと、前記再度取得されたテキストデータと、を用いて前記クエリ画像を再度生成し、
前記クエリ画像特徴量算出手段は、再度生成された前記クエリ画像の前記特徴量を前記クエリ画像特徴量として再度算出し、
前記検索出力手段は、各前記算出された被検索画像特徴量と、前記再度算出されたクエリ画像特徴量と、の間の前記類似度に基づいて、前記再度生成されたクエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力することを特徴とする画像検索装置。 - テキストデータ取得手段と、画像生成手段と、クエリ画像特徴量算出手段と、被検索画像特徴量算出手段と、検索出力手段と、を備える画像検索装置において実行される画像検索方法であって、
複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを前記テキストデータ取得手段により少なくとも取得するテキストデータ取得工程と、
複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を前記画像生成手段により生成する画像生成工程と、
前記生成されたクエリ画像の特徴量をクエリ画像特徴量として前記クエリ画像特徴量算出手段により算出するクエリ画像特徴量算出工程と、
検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として前記被検索画像特徴量算出手段により算出する被検索画像特徴量算出工程と、
各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から前記検索出力手段により検索し、前記検索所望画像として出力する検索出力工程と、
を含むことを特徴とする画像検索方法。 - コンピュータを、
複数の単語からなる文章であって検索が所望される検索所望画像の内容を記述した文章に相当するテキストデータを少なくとも取得するテキストデータ取得手段、
複数のニューラルネットワークを用いた深層学習処理の結果が反映された深層学習データと、前記取得されたテキストデータと、を用いて、当該取得されたテキストデータに対応した画像検索用のクエリ画像を生成する画像生成手段、
前記生成されたクエリ画像の特徴量をクエリ画像特徴量として算出するクエリ画像特徴量算出手段、
検索対象たる複数の画像である被検索画像それぞれの特徴量を被検索画像特徴量として算出する被検索画像特徴量算出手段、及び、
各前記算出された被検索画像特徴量と、前記算出されたクエリ画像特徴量と、の間の類似度に基づいて、前記クエリ画像に対応した前記被検索画像を複数の前記被検索画像の中から検索し、前記検索所望画像として出力する検索出力手段、
として機能させることを特徴とする画像検索用プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018188661 | 2018-10-03 | ||
JP2018188661 | 2018-10-03 | ||
PCT/JP2019/037739 WO2020071216A1 (ja) | 2018-10-03 | 2019-09-26 | 画像検索装置、画像検索方法及び画像検索用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2020071216A1 true JPWO2020071216A1 (ja) | 2021-10-28 |
Family
ID=70055033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020550342A Pending JPWO2020071216A1 (ja) | 2018-10-03 | 2019-09-26 | 画像検索装置、画像検索方法及び画像検索用プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2020071216A1 (ja) |
WO (1) | WO2020071216A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186119B (zh) * | 2022-09-07 | 2022-12-06 | 深圳市华曦达科技股份有限公司 | 基于图文结合的图片处理方法、系统和可读存储介质 |
JP7433617B1 (ja) | 2023-07-28 | 2024-02-20 | 17Live株式会社 | サーバおよびコンピュータプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013175608A1 (ja) * | 2012-05-24 | 2013-11-28 | 株式会社日立製作所 | 画像解析装置、画像解析システム、画像解析方法 |
-
2019
- 2019-09-26 JP JP2020550342A patent/JPWO2020071216A1/ja active Pending
- 2019-09-26 WO PCT/JP2019/037739 patent/WO2020071216A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020071216A1 (ja) | 2020-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Agnese et al. | A survey and taxonomy of adversarial neural networks for text‐to‐image synthesis | |
Botha et al. | Fake news and deepfakes: A dangerous threat for 21st century information security | |
CN108509465B (zh) | 一种视频数据的推荐方法、装置和服务器 | |
CN108416028B (zh) | 一种搜索内容资源的方法、装置及服务器 | |
CN101281540B (zh) | 用于处理信息的设备、方法和计算机程序 | |
Cohendet et al. | Annotating, understanding, and predicting long-term video memorability | |
JP5510167B2 (ja) | ビデオ検索システムおよびそのためのコンピュータプログラム | |
CN108520046B (zh) | 搜索聊天记录的方法及设备 | |
CN110516096A (zh) | 合成感知数字图像搜索 | |
EP3739470A1 (en) | Method and apparatus for performing categorised matching of videos, and selection engine | |
Kezebou et al. | TR-GAN: Thermal to RGB face synthesis with generative adversarial network for cross-modal face recognition | |
JPWO2020071216A1 (ja) | 画像検索装置、画像検索方法及び画像検索用プログラム | |
Kächele et al. | Revisiting the EmotiW challenge: how wild is it really? Classification of human emotions in movie snippets based on multiple features | |
Glavan et al. | InstaIndoor and multi-modal deep learning for indoor scene recognition | |
JP6168192B2 (ja) | 情報提供方法及び情報提供システム | |
JP2012194691A (ja) | 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置 | |
Zhu et al. | Gala: Toward geometry-and-lighting-aware object search for compositing | |
Maynard et al. | Entity-based opinion mining from text and multimedia | |
TW202109388A (zh) | 依據同目標求職者履歷產生履歷修改建議之系統及方法 | |
CN114742991A (zh) | 海报背景图像选取、模型训练、海报生成方法及相关装置 | |
CN110275990B (zh) | Kv存储的键与值的生成方法及装置 | |
JP2011100240A (ja) | 代表画像抽出方法,代表画像抽出装置および代表画像抽出プログラム | |
TWI780333B (zh) | 動態處理並播放多媒體內容的方法及多媒體播放裝置 | |
JP5054653B2 (ja) | 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Durães et al. | Violence detection in audio: evaluating the effectiveness of deep learning models and data augmentation |