WO2023053364A1

WO2023053364A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2023053364A1
Application number: PCT/JP2021/036195
Authority: WO
Inventors: ヒヤロイ; 満中澤; ビヨンシュテンガー
Original assignee: 楽天グループ株式会社
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-06
Also published as: JPWO2023053364A1; EP4184432A4; EP4184432A1; JP7395767B2

Abstract

入力画像の入力に対して中間ヒートマップをそれぞれが出力する複数の機械学習モデル（１１）と、前記入力画像の属性及び前記中間ヒートマップに基づいてヒートマップを生成する生成部（２０）と、を有する情報処理装置（１００）。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

　非特許文献１には、いわゆるイメージクロッピング、すなわち、画像中の要部を抜き出す画像処理技術であって、畳み込みニューラルネットワークにおけるアテンションマップを活用して美的評価値(aesthetic value)を求め、かかる美的評価値に基づいて抜き出すべき要部の枠を求めるものが記載されている。

Wenguan Wang、Jianbing Shen、"Deep Cropping via Attention Box Prediction and Aesthetics Assessment"、[online]、ICCV-2017、[令和3年8月13日検索]、インターネット<URL: https://openaccess.thecvf.com/content_ICCV_2017/papers/Wang_Deep_Cropping_via_ICCV_2017_paper.pdf>

　非特許文献１に示されているものを含め、これまで知られているイメージクロッピングの技術では、単一の評価基準（非特許文献１では美的評価値）により画像中の要部の位置を決定している。

　しかしながら、画像の要部は、本来、その画像が用いられる目的に応じて異なるものである。例えば、同じ情景を写した写真画像であっても、かかる写真画像が風景画として用いられるならば、画像中の背景に映る事物に要部が存在するであろうし、かかる写真画像が人物画として用いられるならば、画像中の手前に映りこむ人物像に要部が存在することになる。同様に、同じ人物を映した写真画像であっても、かかる写真画像が人物の特定に用いられるならば、人物の顔部分に要部が存在するであろうし、かかる写真画像がファッションの紹介に用いられるならば、画像中の人物の服飾に要部が存在することになるはずである。

　しかしながら、画像の目的に応じて適切にイメージクロッピングを行う技術は、これまで知られていない。

　本発明は、かかる事情に鑑みてなされたものであり、その目的は、画像の目的に応じて適切にイメージクロッピングを行うことである。

　上記課題を解決すべく本出願において開示される発明は種々の側面を有しており、それら側面の代表的なものの概要は以下のとおりである。

　（１）入力画像の入力に対して中間ヒートマップをそれぞれが出力する複数の機械学習モデルと、前記入力画像の属性及び前記中間ヒートマップに基づいてヒートマップを生成する生成部と、を有する情報処理装置。

　（２）（１）において、前記属性に基づいて、前記複数の機械学習モデルの中から少なくとも一の機械学習モデルを、前記入力画像の入力対象として選択する機械学習モデル選択部を有する、情報処理装置。

　（３）（１）において、前記属性に基づいて、前記複数の機械学習モデルに出力された複数の前記中間ヒートマップの中から少なくとも一の中間ヒートマップを選択する中間ヒートマップ選択部を有する、情報処理装置。

　（４）（１）～（３）のいずれかにおいて、前記生成部は、複数の前記中間ヒートマップのそれぞれに重みを付け合成してヒートマップを生成する、情報処理装置。

　（５）（４）において、前記生成部は、前記属性に基づいて、少なくとも一部の前記重みを決定する、情報処理装置。

　（６）（１）～（５）において、前記ヒートマップに基づいて、前記入力画像の一部分である主要部分を切り出す切り出し部を有する、情報処理装置。

　（７）１又は複数の機械学習モデルを用いて入力画像の入力に対して１又は複数の中間ヒートマップを出力する中間ヒートマップ出力ステップと、前記入力画像の属性と前記中間ヒートマップに基づいてヒートマップを生成する生成ステップと、をコンピュータに実行させる、情報処理方法。

　（８）コンピュータを、１又は複数の機械学習モデルを用いて、入力画像の入力に対して１又は複数の中間ヒートマップを出力する出力部と、前記入力画像の属性と前記中間ヒートマップに基づいてヒートマップを生成する生成部と、として機能させる、情報処理プログラム。

本発明の好適な種々の実施形態において共通に観念される、情報処理装置の機能的な観念図である。入力画像の例である。入力画像における、種々の「要部」の例である。ＣＴＲ予測を示す中間ヒートマップの例である。美的評価値を示す中間ヒートマップの例である。服飾を示す中間ヒートマップの例である。鞄を示す中間ヒートマップの例である。生成されたヒートマップの例である。生成されたヒートマップの例である。切り出し部で実行される処理の一例を説明する図である。得られた要部の例である。切り出し部で実行される処理フローを示す図である。一般的なコンピュータの代表的な物理構成を示す構成図である。本発明の第１の実施形態に係る情報処理装置の機能上の構成を示す図である。本発明の第２の実施形態に係る情報処理装置の機能上の構成を示す図である。本発明の第３の実施形態に係る情報処理装置の機能上の構成を示す図である。本発明に係る情報処理装置で実行される共通の処理フローを示す図である。

　図１は、本発明の好適な種々の実施形態において共通に観念される、情報処理装置１００の機能的な観念図である。情報処理装置１００は、同図に示された機能を適切な物理的手段、例えば、適切なコンピュータプログラムを実行するコンピュータ、によって実現することによって実現される。

　情報処理装置１００は、機械学習モデル群１０、出力部１２、生成部２０、切り出し部３０を備える一種の画像処理装置である。より具体的には、機械学習モデル群１０には、学習済みの複数の機械学習モデル１１が含まれており、それぞれ、入力画像の入力に基づいて中間ヒートマップを出力することができる。出力部１２は、少なくとも一の機械学習モデル１１に入力画像を入力することで同数の中間ヒートマップを得る。複数の機械学習モデル１１の全てに入力画像を入力するか否かは、実施の態様に依存するが、複数の機械学習モデル１１に入力画像を入力すると、同数の中間ヒートマップが得られることになる。

　得られた少なくとも一の中間ヒートマップに基づいて、生成部２０はヒートマップを生成する。通常は、生成部２０は、複数の中間ヒートマップを所定の手法により合成してヒートマップを得、この際に、直接的又は間接的に入力画像の属性を利用する。すなわち、生成部２０は、入力画像の属性に基づいて、中間ヒートマップに基づいてヒートマップを生成する。

　情報処理装置１００は、生成部２０により出力されるヒートマップを最終生成物としてもよく、この場合には情報処理装置１００は、例えば、機械学習モデル群１０と生成部２０の２つの構成を少なくとも備えることとなるが、ここでは、さらに、切り出し部３０を備えるものとして説明する。切り出し部３０は、生成部２０によって得られたヒートマップに基づいて、入力画像の一部分である主要部分を切り出す。すなわち、情報処理装置１００が切り出し部３０まで備える場合には、情報処理装置１００は、入力画像の主要部を、入力画像の属性に基づいて切り出す装置である、ということができる。

　ここで、上述の情報処理装置１００の技術上及び実用上の意義、及び、本明細書において用いられる用語の意味について併せて説明する。

　図２は入力画像の例である。同図に示したものは、人物の写真であるが、被写体がどのようなものであるかは特に限定されるものではなく、また、入力画像が実写によるものであるかそれ以外のもの（イラストレーションなど）であるかも問わない。また、入力画像のフォーマットも特に限定されるものではなく、ラスタ画像、ベクトル画像の別や解像度、フォーマットも任意であるが、少なくとも、入力画像が機械学習モデル群１０に入力される際には、入力画像は電子データとして用意されることになる。

　さて、ここで情報処理装置１００が目指すものは、図２に示したような入力画像の要部を切り出すか、若しくは要部を示すことのできるヒートマップを得ることである。ところが、例に示した単純な入力画像に対しても、その「要部」を一律に定めることは実はできない。

　というのも、ある入力画像の「要部」は、その入力画像をどのように用いるかにより異なり得るからである。具体例で示すと、図３に示す図２と同じ入力画像に対して、「要部」として、人物像が要求されているならば、不要な余白が除去された、図中破線Ａで示される枠内の領域が妥当と考えられる。しかしながら、「要部」として、服飾（あるいはファッション）が要求されているならば、「要部」は図中一点鎖線Ｂで示される枠内の領域が妥当であろうし、「要部」として鞄が要求されているならば、図中二点鎖線Ｃで示される枠内の領域が妥当となるであろう。

　したがって、入力画像の「要部」は、その入力画像をどのように用いるかを示す情報に基づいて定められなければならず、かかる情報は入力画像とは別に、何らかの手法により与えられる。かかる情報を、以降、入力画像の「属性」と称する。図３に即して挙げるならば、「人物像」、「服飾」、「鞄」はいずれも属性の具体例である。入力画像の属性は、入力画像と対応する何らかのテキストデータなどの構造データに基づき与えられてよい。また、入力画像の属性は、入力画像を何らかの物体検出モデルや画像分類モデルに入力することで得られる少なくとも一の属性から選択されてもよい。このとき、これらのモデルは、例えば、学習済みの機械学習モデルを指す。

　画像解析の技術分野において、適切な学習データを用意することにより、画像を構成する画素単位で重要性の評価を数値的にしめす評価画像を作成できることはすでに知られている。本明細書では、かかる評価画像を以降、「ヒートマップ」と称する。ヒートマップの解像度は必ずしも入力画像と一致している必要はなく、個々の評価値は、３×３や、５×５など、複数画素ごとに示されるものであっても構わない。

　しかしながら、かかるヒートマップがどのような観点（すなわち、属性）に基づいて生成されるかは、用意された機械学習の学習データに依存するため、種々の属性に応じて、互いに異なるヒートマップを出力し分ける機械学習モデルを用意することは通常できない。入力画像に加え、属性をも入力としてヒートマップを出力する機械学習モデルを観念することもできるが、そのような機械学習モデルを訓練するための学習データを用意するのは容易ではない。そこで、情報処理装置１００では、機械学習モデル群１０として、比較的実現の容易な学習済みの機械学習モデル１１を複数用意している。

　ここで、機械学習モデル１１は、入力画像の属性に応じて異なり得る、最終的に必要となるヒートマップではなく、機械学習モデル１１毎に定められた、特定の観点におけるヒートマップを出力するものである。以降、本明細書では、入力画像の属性に即した、最終的に得られるヒートマップを単にヒートマップと称し、個別の機械学習モデル１１により得られる、単観点によるヒートマップを中間ヒートマップと称し、両者を区別することとする。中間ヒートマップは、例えば、個別の機械学習モデルに含まれるＡｔｔｅｎｔｉｏｎモデルを用いて生成されるＡｔｔｅｎｔｉｏｎマップやＡｔｔｅｎｔｉｏｎ画像などの出力に相当する。このとき、機械学習モデルは、その機械学習モデルに含まれるＣＮＮ（畳み込みニューラルネットワーク）などの特徴抽出器により出力された特徴量マップに基づき、Ａｔｔｅｎｔｉｏｎモデルを用いて、ＡｔｔｅｎｔｉｏｎマップやＡｔｔｅｎｔｉｏｎ画像などの出力を中間ヒートマップとして生成する。なお、ここでのＡｔｔｅｎｔｉｏｎマップとは、Ａｔｔｅｎｔｉｏｎモデルに基づいて生成されるマップであってよく、Ａｔｔｅｎｔｉｏｎモデルに基づかずに生成されるマップであってよもよい。例えば、ＣＴＲ予測や美的評価値予測における中間ヒートマップとしてのＡｔｔｅｎｔｉｏｎマップは、Ａｔｔｅｎｔｉｏｎモデルに基づいて生成されるＡｔｔｅｎｔｉｏｎマップに相当する。

　図４～図７は、図２に例示的に示した入力画像に対する、中間ヒートマップの例である。

　図４の中間ヒートマップは、ＣＴＲ（クリックスルーレート）予測である。中間ヒートマップとして、ＣＴＲ予測を出力する機械学習モデル１１は、例えば、ＣＮＮとして知られる機械学習のアーキテクチャを用い、学習データとして、ＣＴＲに相当するスコアがアノテーションされた画像を用いて学習させることで得ることができる。かかる学習データは、例えばＥＣ（電子商取引）サイト上に表示させる画像に対するユーザ操作をトラッキングすることにより入手可能である。

　図５の中間ヒートマップは、美的評価値である。中間ヒートマップとして、美的評価値を出力する機械学習モデル１１を得るための学習データは、研究用或いは実用用として無償或いは有償でインターネット上に公開されているものが既に存在しているため、かかる学習データを用いて例えばＣＮＮなどの機械学習モデル１１を訓練することにより得ることができる。一般に、かかる学習データにおいては、美的評価値として、特に用途などを限定することなく、画像において観者の注意をひきやすい部分に高い評価をつけ、あまり注意をひかない部分には低い評価をつけるなどして画像に対するアノテーションを行うことで学習データを作成するものとなっている。なお、ここでの美的評価値とは審美性スコアと換言することができる。

　図６の中間ヒートマップは、服飾を示している。すなわち、画像中、「服飾」に該当する部分を示す画像であり、入力画像中、人物が着用している服が写っている領域を示している。かかる中間ヒートマップを出力する機械学習モデル１１を得るには、専用の学習データを逐一作成してもよいが、より簡便には、例えば、画像のセグメンテーション技術を用い、任意の画像に対し、領域の抽出とラベリングを行って、「服」のラベル付けがなされた領域のデータを学習データとして用い、機械学習モデル１１を訓練すればよい。そのような画像のセグメンテーション技術としては、Ｒ－ＣＮＮ、あるいは、Ｆａｓｔｅｒ　Ｒ－ＣＮＮとして知られているものが著名であり、これらを用いることができる。あるいは、Ｒ－ＣＮＮやＦａｓｔｅｒ　Ｒ－ＣＮＮを直接、機械学習モデル１１として用い、「服」のラベル付けがなされた領域のデータのみを取り出して中間ヒートマップとして用いてもよい。

　図７の中間ヒートマップは、鞄を示しており、その意味は、入力画像中、鞄が写っている領域を示すものである。かかる中間ヒートマップを出力する機械学習モデル１１を得るには、図６において服飾について説明したと同様のことを鞄について行えばよい。

　同様にして、任意の必要な数の種類の機械学習モデル１１を用意し、必要な数の種類の中間ヒートマップを得られるようにしておく。なお、図４～図７に示した中間ヒートマップの例では、図示の都合上、これら中間ヒートマップが二値画像であるかのように示しているが、これに限定するものではなく、任意のビット数のグレースケール画像であってよい。

　また、機械学習モデル１１は、上の例示ではＣＮＮを用いるものとして説明したが、機械学習モデルのアーキテクチャはこれに限られない。ＣＮＮのようなＤＮＮ（ディープニューラルネットワーク）だけでなく、他の機械学習手法を用いるものであっても差し支えないし、得ようとする中間ヒートマップ毎、すなわち、機械学習モデル１１毎にそのアーキテクチャは異なっていてもよい。また、入力画像のフォーマットは、入力しようとする機械学習モデル１１に応じて変換される。例えば、所定のサイズ、所定の解像度のラスタ画像に変換されるなどである。

　得られた複数の中間ヒートマップは、生成部２０へと受け渡され、生成部２０では、直接的または間接的に属性に基づいて、複数の中間ヒートマップからヒートマップを作成する。ここで、直接的に属性に基づくとは、例えば、複数の中間マップからヒートマップを例えば合成により作成する際に、合成に使用する中間ヒートマップを属性に応じて選択したり、合成の差異の重みづけを属性に応じて異ならせたりするなど、生成部２０に受け渡された複数の中間ヒートマップからヒートマップを作成する際に、何らかの形で属性を用いることを指す。これに対し、間接的に属性に基づくとは、そもそも、生成部２０に受け渡すために作成する中間ヒートマップが、属性に応じて選択されるなど、あらかじめ何らかの形で属性を用いて用意された複数の中間マップが生成部２０に受け渡され、ヒートマップの作製に用いられることを指す。

　図８及び図９は、生成部２０により生成されたヒートマップの例である。図８に示したヒートマップは、属性として服飾を指定したもの、図９に示したヒートマップは、属性として鞄を指定したものであり、いずれも同じ図２に示した入力画像に基づいて生成されたものであり、指定された属性が異なると、全く異なるヒートマップが生成されていることがわかる。一方で、例えば、図８に示したヒートマップと、図６に示した服飾を示す中間ヒートマップとを比較すると、両者は同一でなく、図６の中間ヒートマップでは服飾のみを示す領域が示されているのに対し、図８に示すヒートマップでは、服飾部分を中心としつつ、その周囲の適度な領域をも含む領域が示され、入力画像を服飾を示す画像として用いるにあたり、その要部を示す領域として妥当な領域が選択されていることがわかる。図９に示したヒートマップにおいても同様に妥当と考えられる領域が適切に選択されていることがわかる。

　切り出し部３０は、生成部２０により生成されたヒートマップに基づいて、入力画像の一部分である主要部分を切り出す。ここで、「切り出す」という用語の意味としては、入力画像の一部分である主要部分の位置及び形状を特定することを指しており、入力画像の画像データそのものから主要部分以外の部分を削除することは必ずしも要さない。なぜなら、入力画像の画像データ全てが保存されていたとしても、主要部分の位置及び形状が特定されていれば、画像を表示する際に、主要部分のみを表示するようにすることができるからである。本明細書に示す例では、主要部分の形状は矩形であるが、楕円や星型その他不定形状など、主要部分の形状は任意のものであって差し支えない。

　図１０は、切り出し部３０で実行される処理の一例を説明する図である。ここで説明する手法としては、スライディングウィンドウと呼称される方法を用いている。まず、切り出し部３０は、ヒートマップに対し、大きさと形状の異なる種々の切り出し窓Ｗを設定する。例えば、図１０に示すＷ_Ａｌ、Ｗ_Ｂｍ、Ｗ_Ｃｎはいずれも切り出し窓Ｗの一部である。ここで、Ｗの後の一文字目の添え字（Ａ、Ｂ、Ｃ・・・）は切り出し窓Ｗのサイズ及び形状を示し、二文字目の添え字（ｌ，ｍ，ｎ・・・）は切り出し窓Ｗのヒートマップ上の位置を示している。

　すなわち、あるサイズ及び形状の切り出し窓、例えばＷ_Ａが、ヒートマップ上の全ての領域を覆うように、位置をずらしながらＷ_Ａ１・・・Ｗ_Ａｌのｌ個設定される。同様に、Ｗ_Ｂはｍ個、Ｗ_Ｃはｎ個設定される。ここでは説明のため、切り出し窓Ｗのサイズ及び形状として、Ｗ_Ａ～Ｗ_Ｃの３種のみを示したが、より多数の種々のサイズ及び形状の切り出し窓についても同様に設定する。

　このようにして設定された切り出し窓Ｗのうち、次の条件を満足するものを候補窓Ｗ_ｃａｎｄとして抽出する。

　ここで、ｘはヒートマップに含まれる画素、Ｐ（ｘ）は画素ｘにおけるヒートマップの値、λは０＜λ＜１である任意の閾値である。すなわち、上の数１は結局、ヒートマップ全ての画素ｘについての値の総計に対して、切り出し窓Ｗに含まれる画素ｘについての値の総計の割合がλより大きくなるＷを候補窓Ｗ_ｃａｎｄとして抽出することをいうものである。なお、ラムダの値は任意の固定値、例えば０．７などとして与えてもよいし、全ての切り出し窓Ｗのうち上位の任意割合、例えば５％が候補窓Ｗ_ｃａｎｄとして抽出されるように設定してもよい。

　その後、候補窓Ｗ_ｃａｎｄの中から、要部Ｗ_ｏｐｔとして適したものを選び出す。一例として、次の数２に示される方法を用いてよい。

　ここで、｜Ｗ｜は切り出し窓Ｗに含まれる画素数を示しているから、数２は結局、候補窓Ｗ_ｃａｎｄに含まれる切り出し窓Ｗのうち、最もサイズの小さいものを選択することをいうものである。このようにして、最終的には、例えば、図１１に示されるように、要部Ｗ_ｏｐｔが得られ、入力画像に対して、この要部Ｗ_ｏｐｔを外枠とするトリミングを施すことで、入力画像から重要と考えられる部分のみを抜き出した画像が得られることになる。

　なお、Ｗ_ｃａｎｄに含まれる切り出し窓Ｗから要部Ｗ_ｏｐｔとして適したものを選び出す方法は上述のものに限定されない。例えば、図５に関して説明した美的評価値を出力する機械学習モデル１１を用いて、Ｗ_ｃａｎｄに含まれる切り出し窓Ｗのうち、最も高い美的評価値を含むものを、次の数３のようにして選択してもよい。

　ここで、Ｑ（Ｗ）は、美的評価値についての中間マップにおける美的評価値を示す。すなわち、数３は、Ｗ_ｃａｎｄに含まれる切り出し窓Ｗにおいて、美的評価値が最も大きいものを選び出すことをいうものである。なお、本実施形態では、切り出し窓Ｗについての１又は複数のスコアの総計に基づく何らかのスコアを数３における美的評価値として扱ってよい。

　図１２は、以上説明した例における、切り出し部３０で実行される処理フローを示す図である。切り出し部３０は、処理を開始すると、すでに説明したように種々の大きさと形状および位置の切り出し窓ＷをステップＳ０１にて設定し、ステップＳ０２で数１に示した方法又は類似するその他の方法により候補窓Ｗ_ｃａｎｄを抽出する。その後ステップＳ０３にて、数２又は数３に示した方法或いはその他の方法により、要部Ｗ_ｏｐｔとして適したものを選定する。選定された要部Ｗ_ｏｐｔが示す枠の大きさと形状および位置が、入力画像を切り出すべき領域を示していることになる。

　あるいは、切り出し部３０では、別の処理を実行することにより要部Ｗ_ｏｐｔを求めてもよい。その一例としては、機械学習モデル、好適には学習済みのＲ－ＣＮＮを用いて、ヒートマップから直接要部Ｗ_ｏｐｔの大きさと形状および位置を出力させるようにしてもよい。機械学習モデルを得るためには、種々のヒートマップの例と、対応する要部Ｗ_ｏｐｔを示す学習データを用いて訓練すればよい。かかる学習データを得るために、上の切り出し部３０で行われる処理として説明したスライディングウィンドウと呼称される方法を用いてもよい。

　以上説明した情報処理装置１００は、物理的には、一般的なコンピュータを用いて実現して良い。図１３はそのような一般的なコンピュータ１の代表的な物理構成を示す構成図である。

　コンピュータ１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１ａ、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１ｂ、外部記憶装置１ｃ、ＧＣ（Ｇｒａｐｈｉｃｓ　Ｃｏｎｔｒｏｌｌｅｒ）１ｄ、入力デバイス１ｅ及びＩ／Ｏ（Ｉｎｐｕｒ／Ｏｕｔｐｕｔ）１ｆがデータバス１ｇにより相互に電気信号のやり取りができるよう接続されている。ここで、外部記憶装置１ｃはＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）などの静的に情報を記録できる装置である。またＧＣ１ｄからの信号はＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）やいわゆるフラットパネルディスプレイなどの、使用者が視覚的に画像を認識するモニタ１ｈに出力され、画像として表示される。入力デバイス１ｅはキーボードやマウス、タッチパネルなどの、ユーザが情報を入力するための機器であり、Ｉ／Ｏ１ｆはコンピュータ１が外部の機器と情報をやり取りするためのインタフェースである。ＣＰＵ１ａはコンピュータ１が必要とする情報処理の負荷に応じて、複数用意されて並列演算がなされるように構成されていてもよい。

　コンピュータ１を情報処理装置１００として機能させるための命令列を含むアプリケーションプログラムは、外部記憶装置１ｃにインストールされ、必要に応じてＲＡＭ１ｂに読みだされてＣＰＵ１ａにより実行される。また、かかるプログラムは、適宜の光ディスク、光磁気ディスク、フラッシュメモリなどの適宜のコンピュータ可読情報記録媒体に記録されて提供されても、インターネットなどの情報通信回線を介して提供されてもよい。また、情報処理装置１００を使用者が使用するためのインタフェースは、コンピュータ１自身にかかるインタフェースが実装され、使用者が直接コンピュータ１を操作するものであってもよいし、他のコンピュータ上でｗｅｂブラウザのような汎用のソフトウェアを用い、Ｉ／Ｏ１ｆを介してコンピュータ１から機能が提供される、いわゆるクラウドコンピューティングの方法によってもよく、さらに、コンピュータ１が他のコンピュータに対してＡＰＩ（アプリケーションプログラミングインタフェース）を利用可能に提供することにより、他のコンピュータからの求めに応じてコンピュータ１が情報処理装置１００として動作するものであってもよい。

　以上が、以下に説明する種々の実施形態において共通に観念される、情報処理装置１００の全体的な説明である。続いて、情報処理装置１００のより具体的な実施形態について個別に説明する。

　図１４は、本発明の第１の実施形態に係る情報処理装置２００の機能上の構成を示す図である。第１の実施形態は、生成部２２０において、入力画像の属性に間接的に基づいてヒートマップが生成される例である。

　情報処理装置２００では、機械学習モデル群２１０に含まれる少なくとも複数の機械学習モデル２１１、図１４の例では機械学習モデル２１１ｃ及び２１１ｄが、入力画像の属性に基づいて選択される構成となっている。すなわち、服飾の中間ヒートマップを出力する機械学習モデル２１１ｃと、鞄の中間ヒートマップを出力する機械学習モデル２１１ｄとは、属性に応じて入力画像の入力の有無が切り替えられる。

　図１４では、属性として「服飾」が与えられているため、機械学習モデル２１１ｃが選択され、服飾についての中間ヒートマップが出力される一方、機械学習モデル２１１ｄは選択されず、鞄についての中間ヒートマップは生成されない。かかる選択は、図１４に模式的にスイッチで示された機械学習モデル選択部２１２によって行われる。機械学習モデル選択部２１２は、複数の機械学習モデル、ここでは機械学習モデル２１１ｃ及び機械学習モデル２１１ｄの中から少なくとも一の機械学習モデルを、入力画像の入力対象として選択している。なお、同図においては、破線により、機械学習モデル２１１ｄが選択されなかったことを示している。

　一方で、機械学習モデル２１１ａ及び２１１ｂは属性如何によって選択はされず、常に中間ヒートマップを出力するものとして構成されている。

　かかる構成は、情報処理装置２００の具体的目的などに応じて調整すればよい。例えば、属性に基づいて選択されることなく常に使用される機械学習モデルは存在してもしなくともよいし、属性に基づいて選択される機械学習モデルの数にも制限はない。また、特定の属性に対して、複数の機械学習モデルを選択するようにしてもよいし、属性ごとに選択される機械学習モデルの数が異なっていても構わない。本実施形態では、一実施例として、ＣＴＲ及び美的評価値についての中間ヒートマップを出力する機械学習モデルを、属性によっては選択されないものとして取り扱い、服飾及び鞄についての中間ヒートマップを出力する機械学習モデルを、属性によって選択されるものとして取り扱っている。

　得られた中間ヒートマップは、入力画像が入力された機械学習モデル２１１ａ～ｃと同数となる。これを生成部２２０において合成し、最終的なヒートマップを得る。この合成の方法は特に限定するものではないが、一例として、それぞれの中間ヒートマップに適宜の重みを乗じて加算する方法が挙げられる。すなわち、最終的に得られるヒートマップＨ_０は、次の数４に示される方法により得られることになる。

　ここで、Ｈ_ｋはｋ番目の中間ヒートマップ、ｗ_ｋはそれぞれの中間ヒートマップに対する重み係数である。ｗ_ｋは後述する第３の実施形態のように動的に定めてもよいが、あらかじめ固定値として与えておいてよい。例えば、ＣＴＲ及び美的評価値についての中間ヒートマップに対しては０．３、服飾及び鞄についての中間ヒートマップに対しては０．４のように定めてよい。

　このようにして得られたヒートマップに基づいて、切り出し部２３０は、入力画像の一部分である主要部分を切り出す。この切り出しの処理については、各実施形態に共通のものとしてすでに説明した通りのものであってよい。

　図１５は、本発明の第２の実施形態に係る情報処理装置３００の機能上の構成を示す図である。第２の実施形態は、生成部３２０において、入力画像の属性に直接的に基づいてヒートマップが生成される例の一つとなっている。

　情報処理装置３００では、複数の中間ヒートマップの中から少なくとも一の中間ヒートマップが選択される構成となっている。すなわち、服飾の中間ヒートマップと、鞄の中間ヒートマップのいずれかが、図１５に模式的にスイッチで示された中間ヒートマップ選択部３２１によって選択される。かかる選択は属性に基づいて行われ、選択されなかった中間ヒートマップは、生成部３２０において使用されない。

　図１５では、属性として「服飾」が与えられているため、服飾の中間ヒートマップが選択され、服飾についての中間ヒートマップが最終的に得られるヒートマップの合成に用いられる一方、鞄についての中間ヒートマップは選択されず、かかる合成には用いられない。なお、同図においては、破線により、鞄についての中間ヒートマップが選択されなかったことを示している。

　一方で、ＣＴＲ及び美的評価値についての中間ヒートマップは属性如何による選択はされず、常に最終的に得られるヒートマップの合成に用いられるものとして構成されている。

　かかる構成もまた、情報処理装置３００の具体的目的などに応じて調整すればよい。例えば、属性に基づいて選択されることなく常に使用される中間ヒートマップは存在してもしなくともよいし、属性に基づいて選択される中間ヒートマップの数にも制限はない。また、特定の属性に対して、複数の中間ヒートマップを選択するようにしてもよいし、属性ごとに選択される中間ヒートマップの数が異なっていても構わない。

　選択された中間ヒートマップを含む、ヒートマップの合成に用いられる中間ヒートマップは、入力画像が入力された機械学習モデル３１１ａ～ｄ以下の数となる。これを生成部３２０において合成し、最終的なヒートマップを得る。この合成の方法は先の実施形態のものと同様であってよい。また、このようにして得られたヒートマップに基づいて、切り出し部３３０によって、入力画像の一部分である主要部分を切り出すとよい。

　図１６は、本発明の第３の実施形態に係る情報処理装置４００の機能上の構成を示す図である。第３の実施形態は、生成部４２０において、入力画像の属性に直接的に基づいてヒートマップが生成されるもう一つの例となっている。

　情報処理装置４００では、複数の中間ヒートマップを生成部４２０で合成してヒートマップを生成する際に、入力画像の属性に基づく重みを用いる構成となっている。すなわち、入力画像は、原則として、機械学習モデル群４１０に用意された複数の機械学習モデル４１１ａ～４１１ｄに入力され、複数の機械学習モデル４１１ａ～４１１ｄと同数の中間ヒートマップが得られるが、これら中間ヒートマップを合成する際の重みが、属性に応じて異なるものとされるのである。

　すなわち、情報処理装置４００では、生成部４２０は、属性に基づいて重みの少なくとも一部を生成している。具体的には、属性が「服飾」であれば、ＣＴＲ、美的評価値、服飾、鞄についての中間ヒートマップにそれぞれ対応する重みを０．３，０．３，０．３，０．１のように割り振り、属性が「鞄」であれば、同様に、重みを０．３，０．３，０．１，０．３のように割り振るなどである。ここで、属性の項目は必ずしも特定の機械学習モデルに対応するものでなくてもよい。例えば、属性として「ファッションアイテム」を設け、対応する重みを０．３，０．３，０．２，０．２のように割り振ることも可能である。

　また、上の説明では、ＣＴＲ及び美的評価値に対応する中間ヒートマップに対する重みは常に変わらず０．３を割り当てていたが、このように属性に依存せず重みを固定値とする中間ヒートマップに対しては、重みをあらかじめ定数として与えておいてよい。

　機械学習モデル群４１０及び切り出し部４３０については、先の実施形態においてすでに説明したものと同様のものを用いてよい。

　なお、第３の実施形態に係る情報処理装置４００において、第１の実施形態に係る情報処理装置２００に関して図１４で説明したように、機械学習モデル選択部２１２を設けて、属性に基づいて、入力画像の入力対象として用いられる少なくとも一の機械学習モデルを選択するようにしてもよい。あるいは、第２の実施形態に係る情報処理装置３００に関して図１５で説明したように、中間ヒートマップ選択部３２１を設けて、属性に基づいて、少なくとも一の中間ヒートマップを選択して生成部４２０で用いるようにしてもよいし、その両方の構成を備えるものとすることもできる。

　図１７は、本発明の各実施形態に係る情報処理装置１００～４００で実行される情報処理方法の共通の処理フローを示す図である。

　かかる情報処理方法においては、まず、ステップＳ１１において、入力画像の入力に対して１又は複数の中間ヒートマップを出力する。かかるステップは、各実施形態に共通のものとして図１に示された機械学習モデル群１０により行われるものであり、すでに説明したとおりである。また、各実施形態においては、図１４に示された機械学習モデル群２１０、図１５に示された機械学習モデル群３１０及び図１６に示された機械学習モデル群４１０により実行される処理が該当する。

　続いて、ステップＳ１２において、入力画像の属性と中間ヒートマップに基づいてヒートマップを生成する。かかるステップは、各実施形態に共通のものとして図１に示された生成部２０により行われるものとして、すでに説明したとおりである。各実施形態においては、図１４に示された生成部２２０、図１５に示された生成部３２０及び図１６に示された生成部４２０により実行される処理が該当する。また、ヒートマップの生成が入力画像の属性に基づいている点に関しては、第１の実施形態においては図１４に示した機械学習モデル選択部２１２による機械学習モデルの選択により、また、第２の実施形態においては図１５に示した中間ヒートマップ選択部による中間ヒートマップの選択により、さらに、第３の実施形態においては図１６に示した生成部４２０による重みの決定により、実現されている。

　最後に、ステップＳ１３において、ヒートマップに基づいて、入力画像の一部分である主要部分を切り出す。かかるステップは、各実施形態に共通のものとして図１に示された切り出し部３０により行われるものとして、すでに説明したとおりであり、各実施形態における切り出し部２３０、３３０及び４３０において実行される処理は同様のものである。

Claims

　入力画像の入力に対して中間ヒートマップをそれぞれが出力する複数の機械学習モデルと、
　前記入力画像の属性及び前記中間ヒートマップに基づいてヒートマップを生成する生成部と、
　を有する情報処理装置。
　前記属性に基づいて、前記複数の機械学習モデルの中から少なくとも一の機械学習モデルを、前記入力画像の入力対象として選択する機械学習モデル選択部を有する、
　請求項１に記載の情報処理装置。
　前記属性に基づいて、前記複数の機械学習モデルに出力された複数の前記中間ヒートマップの中から少なくとも一の中間ヒートマップを選択する中間ヒートマップ選択部を有する、
　請求項１に記載の情報処理装置。
　前記生成部は、複数の前記中間ヒートマップのそれぞれに重みを付け合成してヒートマップを生成する、
　請求項１～３のいずれか１項に記載の情報処理装置。
　前記生成部は、前記属性に基づいて、少なくとも一部の前記重みを決定する、
　請求項４に記載の情報処理装置。
　前記ヒートマップに基づいて、前記入力画像の一部分である主要部分を切り出す切り出し部を有する、
　請求項１～５のいずれか１項に記載の情報処理装置。
　１又は複数の機械学習モデルを用いて入力画像の入力に対して１又は複数の中間ヒートマップを出力する中間ヒートマップ出力ステップと、
　前記入力画像の属性及び前記中間ヒートマップに基づいてヒートマップを生成する生成ステップと、
　をコンピュータに実行させる情報処理方法。
　コンピュータを、
１又は複数の機械学習モデルを用いて、入力画像の入力に対して１又は複数の中間ヒートマップを出力する出力部と、
　前記入力画像の属性及び前記中間ヒートマップに基づいてヒートマップを生成する生成部と、
　として機能させる情報処理プログラム。