WO2023084759A1

WO2023084759A1 - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: WO2023084759A1
Application number: PCT/JP2021/041801
Authority: WO
Inventors: 光甫西田; 京介西田; 秀一西岡
Original assignee: 日本電信電話株式会社
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-05-19
Also published as: JPWO2023084833A1; WO2023084833A1

Abstract

本開示内容は、マルチモーダルな特徴量を抽出することを目的とする。　そのため、本開示内容の画像処理装置は、画像データの特徴量を抽出する画像処理装置であって、画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解部４１と、画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解部４３と、画像理解部４１によって抽出された画像特徴量とテキスト理解部４３によって抽出されたテキスト特徴量を同じベクトル空間に射影して、画像特徴量とテキスト特徴量を混合することで、特徴量としての混合特徴量を生成する特徴量混合部４４とを有する。

Description

画像処理装置、画像処理方法、及びプログラム

　本開示内容は、画像処理装置、画像処理方法、及びプログラムに関する。

　近年、ＡＩ(Artificial Intelligence)の進歩により、画像分類の精度が向上している。この画像分類は、例えば、何らかの画像（媒体）からその画像又は画像の中にある特定物が鳩なのか燕なのかをクラス分けすることである。

　従来、画像分類において、画像データ同士の特徴量の比較だけでなく、画像データに付随する又はユーザにより入力されたテキストデータ同士の比較結果を利用することで、画像分類の精度を向上させる技術が提案されている（非特許文献１参照）。この場合、例えば、鳩の画像と、画像中に写っている鳩を描写した文であるテキストデータが用いられる。

Shaping Visual Representations with Language for Few-Shot Classification

　しかしながら、従来技術では、画像データ同士の特徴量の比較、及びテキストデータ同士の比較は独立して行っているに過ぎないため、マルチモーダルな特徴量を抽出することができないという課題が生じる。

　本発明は、上記の点に鑑みてなされたものであって、従来に比べて、マルチモーダルな特徴量を抽出することを目的とする。

　上記課題を解決するため、請求項１に係る発明は、画像データの特徴量を抽出する画像処理装置であって、前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解手段と、前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解手段と、前記画像理解手段によって抽出された前記画像特徴量と前記テキスト理解手段によって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合手段と、を有する画像処理装置である。

　以上説明したように本発明によれば、従来に比べて、マルチモーダルな特徴量を抽出することができるという効果を奏する。

本実施形態の通信システムの概略図である。画像分類装置及び通信端末のハードウェア構成図である。本発明の実施形態に係る画像分類装置の機能構成図である。画像分類装置における特徴抽出部の詳細な機能構成図である。特徴抽出部におけるテキスト生成部の詳細な機能構成図である。訓練（学習）フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。特徴抽出部が実行する詳細な処理を示すフローチャートである。推論フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。

　以下、図面に基づいて本発明の実施形態を説明する。

　〔実施形態のシステム構成〕
　まず、図１を用いて、本実施形態の通信システム１の構成の概略について説明する。図１は、本発明の実施形態に係る通信システムの概略図である。

　図１に示されているように、本実施形態の通信システム１は、画像分類装置３、及び通信端末５によって構築されている。通信端末５は、ユーザＹによって管理及び使用される。

　また、画像分類装置３と通信端末５は、インターネット等の通信ネットワーク１００を介して通信することができる。通信ネットワーク１００の接続形態は、無線又は有線のいずれでも良い。

　画像分類装置３は、単数又は複数のコンピュータによって構成されている。画像分類装置３が複数のコンピュータによって構成されている場合には、「画像分類装置」と示しても良いし、「画像分類システム」と示しても良い。

　画像分類装置３は、ＡＩ(Artificial Intelligence)により、画像分類を行う装置である。この画像分類は、例えば、何らかの画像（媒体）からその画像又は画像の中にある特定物が鳩なのか燕なのかをクラス分けすることである。そして、画像分類装置３は、画像分類した結果である分類結果データを出力する。出力方法としては、通信端末５に分類結果データを送信することにより、通信端末５側で分類結果データに係るグラフ等を表示又は印刷したり、画像分類装置３に接続されたディスプレイで上記グラフ等を表示したり、画像分類装置３に接続されたプリンタ等で上記グラフ等を印刷したりすることが挙げられる。

　通信端末５は、コンピュータであり、図１では、一例としてノート型パソコンが示されているが、ノード型に限るものではなく、デスクトップパソコンであってもよい。また、通信端末は、スマートフォン、又はタブレット型端末であってもよい。図１では、ユーザＹが、通信端末５を操作する。

　〔画像分類装置及び通信端末のハードウェア構成〕
　次に、図２を用いて、画像分類装置３及び通信端末５のハードウェア構成を説明する。図２は、画像分類装置及び通信端末のハードウェア構成図である。

　図２に示されているように、画像分類装置３は、プロセッサ３０１、メモリ３０２、補助記憶装置３０３、接続装置３０４、通信装置３０５、ドライブ装置３０６を有する。なお、画像分類装置３を構成する各ハードウェアは、バス３０７を介して相互に接続される。

　プロセッサ３０１は、画像分類装置３全体の制御を行う制御部の役割を果たし、ＣＰＵ（Central Processing Unit）等の各種演算デバイスを有する。プロセッサ３０１は、各種プログラムをメモリ３０２上に読み出して実行する。なお、プロセッサ３０１には、ＧＰＧＰＵ(General-purpose computing on graphics processing units)が含まれていてもよい。

　メモリ３０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ３０１とメモリ３０２とは、いわゆるコンピュータを形成し、プロセッサ３０１が、メモリ３０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。

　補助記憶装置３０３は、各種プログラムや、各種プログラムがプロセッサ３０１によって実行される際に用いられる各種情報を格納する。

　接続装置３０４は、外部装置（例えば、表示装置３１０、操作装置３１１）と画像分類装置３とを接続する接続デバイスである。

　通信装置３０５は、他の装置との間で各種情報を送受信するための通信デバイスである。

　ドライブ装置３０６は記録媒体３３０をセットするためのデバイスである。ここでいう記録媒体３３０には、ＣＤ－ＲＯＭ(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体３３０には、ＲＯＭ(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

　なお、補助記憶装置３０３にインストールされる各種プログラムは、例えば、配布された記録媒体３３０がドライブ装置３０６にセットされ、該記録媒体３３０に記録された各種プログラムがドライブ装置３０６により読み出されることでインストールされる。あるいは、補助記憶装置３０３にインストールされる各種プログラムは、通信装置３０５を介してネットワークからダウンロードされることで、インストールされてもよい。

　また、図２には、通信端末５のハードウェア構成が示されているが、符号が３００番台から５００番台に変わっただけで、各構成は同様であるため、これらの説明を省略する。

　〔画像分類装置の機能構成〕
　次に、図３を用いて、画像分類装置の機能構成について説明する。図３は、本発明の実施形態に係る画像分類装置の機能構成図である。

　図３において、画像分類装置３は、入力部３０、読出部３１、選択部３２、特徴抽出部３３、類似度計算部３４、損失計算部３５、パラメータ更新部３６、及び出力部３９を有している。これら各部は、プログラムに基づき図２のプロセッサ３０１による命令によって実現される機能である。

　更に、図２のメモリ３０２又は補助記憶装置３０３には、学習モデルＡ，Ｂが記憶されている。学習モデルＡは、後述の多数の画像類似度パラメータによって構築されている。また、学習モデルＢは、後述の多数のテキスト生成確率パラメータによって構築されている。更に、図２のメモリ３０２又は補助記憶装置３０３には、教師データとしてのサポートデータの候補群である多数の画像データが記憶されている。また、多数の画像データのそれぞれには、画像の内容を示すテキストデータが付随している。即ち、画像データと付随テキストデータによって１ペアのサポートデータが構成されており、図２のメモリ３０２又は補助記憶装置３０３には、大量のペアのサポートデータが記憶されている。例えば、１ペアのサポートデータには、鳩の画像データと、この画像データに付随して画像中に写っている鳩を描写した文であるテキストデータが含まれている。以降、この画像データに付随するテキストデータを「付随テキストデータ」と示す。なお、「付随している」には、テキストデータが画像データに付加されている場合、テキストデータと画像データが別々に入力又は出力されて関連づいている場合が含まれる。なお、画像データに付随するテキストデータが、画像分類装置３３で画像データに基づいて生成され（生成テキストデータ）、この画像データに付加される場合もある。

　入力部３０は、訓練用又は推論用の分類対象（評価対象）データとしてのクエリデータである画像データを入力する。例えば、入力部３０は、ユーザＹが通信端末５から画像分類装置３に対して送信したクエリデータを画像分類装置に入力する。このクエリデータである画像データには付随テキストデータが付随している。即ち、画像データと付随テキストデータによって１ペアのクエリデータが構成されている。なお、訓練フェーズの場合には、必ず付随テキストデータが付随されているが、推論フェーズの場合には、付随テキストデータが付随されていないことがある。付随テキストデータの付随の方法としては、画像データにキャプション(caption)されている場合と、ユーザＹによる手入力の場合がある。多くの機械学習モデルでは、画像分類の推論に人間が介入することができないが、ユーザＹによるテキストデータの入力を可能とすることで、ユーザＹが画像分類の推論に介入することが可能となる。

　読出部３１は、図２のメモリ３０２又は補助記憶装置３０３から、クエリデータと比較するためのサポートデータの候補群（Ｍ種類で、かつ各種類でｊペア）を読み出す。例えば、Ｍが１００でｊが６０である。この場合、合計で６０００ペアが読み出されることになる。なお、Ｍが１００でｊが６０は一例であり、Ｍが１００超又は１００未満であってもよく、ｊが６０超又は６０未満であってもよい。

　選択部３２は、サポートデータの候補群から、クエリデータと比較するためのＮ種類ｋペアずつのサポートデータをランダムに選択する。ここでは例えばＮが５種類で、ｋが１ペアずつ（合計５ペア）のサポートデータをランダムに選択したものとして以降の説明を行う。この５種類で１ペアずつのサポートデータを選択する方法は一般的に行われる処理であるが、選択部３２は、必ずしも５種類で１ペアずつのサポートデータを選択する必要はない。例えば、１０種類で２ペアずつ（合計２０ペア）でもよい。なお、訓練用のサポートデータには、画像データ及び付随テキストデータに加えて、画像データの画像中に写っている被写体の種類（「クラス」）ともいう）を示す情報が付与されている、クラスは、例えば、画像が鳥の画像なのであれば、「鳩」、「鷹」、「燕」等など、鳥の種類を示すものとする。

　特徴抽出部３３は、１ペアの中の画像データから画像特徴量を抽出し、更に、同じペアの中のテキストデータからテキスト特徴量も抽出する。更に、特徴抽出部３３は、画像特徴量とテキスト特徴量を混合させて混合特徴量を生成する。また、特徴抽出部３３は、画像特徴量からテキストデータも生成する。以降、画像特徴量から生成されたテキストデータを「生成テキストデータ」と示す。即ち、生成テキストデータは、画像由来のテキストデータであり、テキスト由来の付随テキストデータとは種類が異なる。

　＜特徴抽出部＞
　ここで、図４を用いて、画像分類装置における特徴抽出部を詳細に説明する、図４は、画像分類装置における特徴抽出部の詳細な機能構成図である。

　図４に示されているように、特徴抽出部３３は、画像理解部４１、テキスト生成部４２、テキスト理解部４３、及び特徴量混合部４４を有している。なお、画像理解部４１、テキスト生成部４２、特徴量混合部４４、及び類似度計算部３４には、任意のニューラルネットワークを使用することができる。例えば、画像理解部４１に４層のＣＮＮ(Convolutional Neural Network)が使用されている。テキスト生成部４２及びテキスト理解部４３の事前学習を行うことで、テキスト生成能力及びテキスト理解能力を向上させる。

　これらのうち、画像理解部４１は、入力部３０からクエリデータのうちの画像データ（第１の画像データの一例）を取得すると共に、選択部３２から５種類１ペアのうちの特定の１ペアのサポートデータのうちの画像データ（第２の画像データの一例）を取得する。そして、画像理解部４１は、クエリデータの画像データの画像パターンをベクトル化してクエリ用の画像特徴量を抽出すると共に、サポートデータの画像データの画像パターンをベクトル化してサポート用の画像特徴量を抽出する。画像特徴量はベクトルであり、テキスト生成部４２は任意のニューラルネットワークを利用でき、画像特徴量を初期値とするＲＮＮ(Recurrent neural network)やＴｒａｎｓｆｏｒｍｅｒが一般的である。

　テキスト生成部４２は、画像理解部４１が抽出したクエリ用の画像特徴量をテキストデータのベクトル空間に射影し、デコードすることで、画像由来のクエリ用の生成テキストデータを生成すると共に、画像理解部４１が抽出したサポート用の画像特徴量をテキストデータのベクトル空間に射影し、デコードすることで、画像由来のサポート用の生成テキストデータを生成する。

　（テキスト生成部）
　ここで、図５を用いて、テキスト生成部４２について、更に詳細に説明する。図５は、テキスト生成部の詳細な機能ブロック図である。

　図５に示されているように、テキスト生成部４２は、線形変換層４２１、及びデコーダ４２２を有している。更に、線形変換層４２１は線形変換層用パラメータ４２１ｐを保持しており、デコーダ４２２はデコーダパラメータ４２２ｐを保持している。なお、線形変換層用パラメータ４２１ｐ及びデコーダパラメータ４２２ｐは、図４に示されている学習モデルＢに含まれている。

　線形変換層４２１は、線形変換層用パラメータ４２１ｐを用いることで、画像理解部４１から取得した画像特徴量を付随テキストデータのベクトル空間に射影することで、画像由来の特徴量を抽出する。

　デコーダ４２２は、デコーダパラメータ４２２ｐを用いることで、線形変換層４２１から取得した特徴量から、画像由来の生成テキストデータを生成する。

　ここで、テキスト生成部４２及びテキスト理解部４３に、既存の事前学習済み言語モデルを流用することで、テキスト生成部４２及びテキスト理解部４３の事前学習を行ったとみなすことができる。但し、テキスト生成部４２については既存の言語モデルをそのまま利用することができない。これは、テキストを生成する能力を有する既存の言語モデルが、Encoder-Decoder型の構造を持つためである。

　Encoder-Decoder型の構造を持つ言語モデルについては、例えば、参考文献(Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)に開示されている。Encoder-Decoder型の構造とは、まずテキストを入力として与えられてEncoderによって特徴量に変換し、Decoderにその特徴量を入力し、Decoderがテキストを生成する構造のことをいう。本実施形態においては、テキスト生成部６２に画像特徴量が入力されるため、参考文献における既存の言語モデルのEncoderを使用せず、代わりに線形変換層などの任意のニューラルネットワークをDecoderの前に追加する。この構成によって、画像特徴量を言語モデルに適した特徴量に変換し、Decoderに入力し、テキストを生成することが可能になる。

　続いて、図４に戻り、テキスト理解部４３は、入力部３０からクエリデータのうちの付随テキストデータを取得すると共に、選択部３２から５種類１ペアのうちの特定の１ペアのサポートデータのうちの付随テキストデータを取得する。そして、テキスト理解部４３は、クエリデータの付随テキストデータのテキストパターンをベクトル化してクエリ用のテキスト特徴量を抽出すると共に、サポートデータの付随テキストデータのテキストパターンをベクトル化してサポート用のテキスト特徴量を抽出する。

　例えば、テキスト理解部４３は、ＢＥＲＴ(Bidirectional Encoder Representations from Transformers)などの既存の言語モデルによってテキストデータをベクトルに変換する。

　なお、上述のように、訓練フェーズでは画像データに付随テキストデータが付随されているが、推論フェーズでは画像データに付随テキストデータが付随されていない場合がある。このような場合には、テキスト理解部４３は、テキスト生成部４２が生成した画像由来のクエリ用の生成テキストデータを付随テキストデータとする（みなす）ことで、画像由来ではあるがクエリ用のテキストデータの特徴量を抽出する。

　次に、特徴量混合部４４は、画像理解部４１によって抽出されたクエリ用の画像特徴量と、テキスト理解部４３によって抽出されたクエリ用のテキスト特徴量とを同じベクトル空間に射影して、クエリ用の画像特徴量とクエリ用のテキスト特徴量を混合することで、クエリ用の特徴量としての混合特徴量を生成する。同様に、特徴量混合部４４は、画像理解部４１によって抽出されたサポート用の画像特徴量とテキスト理解部４３によって抽出されたサポート用のテキスト特徴量とを同じベクトル空間に射影して、サポート用の画像特徴量とサポート用のテキスト特徴量を混合することで、サポート用の特徴量としての混合特徴量を生成する。なお、画像特徴量とテキスト特徴量を混合する処理は、一方の特徴量のベクトル空間に他方の特徴量を射影する場合と、互いに異なる第三のベクトル空間に射影する場合がある。

　例えば、特徴量混合部４４は、画像特徴量とテキスト特徴量の双方を類似度計算に反映することが可能となる。特徴量混合部４４は画像特徴量とテキスト特徴量の双方を入力として受け付ける任意のニューラルネットワークが利用可能である。

　ここで、特徴量混合部４４について、更に詳細に説明する。

　特徴量混合部４４として以下のモデルを利用する。画像特徴量をｘ_image、テキスト理解部４３が出力するテキスト特徴量をｘ_Langとする。ＭＬＰ(Multilayer perceptron)を３層ニューラルネットワークとする。Linearを２次元への線形変換層とする。[ ; ]をベクトルを縦に繋げる操作とする。このとき、特徴量混合部が出力するベクトルhは、（式１）、（式２）、（式３）により、以下のように示される。

　まず、特徴量混合部４４は、（式１）を用いて、ＭＬＰによってＢＥＲＴが出力するテキスト特徴量を画像特徴量と同じ空間に射影する（ｚ_Lang）。

　次に、特徴量混合部４４は、（式２）を用いて、画像特徴量とテキスト特徴量の重要度をλ_imageとλ_Langによって動的に決定している。λ_image，λ_Langは、和が１になる非負の数であることがsoftmax演算によって保証されている。例えば、画像データの元の解像度が低い場合（画像中で目的の物体が極端に小さく、ぼやけて写っている場合）には、画像データに付随されている付随テキストデータが分類結果に与える度合いを大きくするようにλ_imageとλ_Langが動的に決定される。また、ユーザ自身がλ_imageとλ_Langを０から１の範囲に調整することで、ユーザが入力したテキストが分類結果に反映される度合いを手動で変更することも可能である。なお、Linearは重み行列を左から掛け，バイアスベクトルを加える操作のことである。Linear操作中の重み行列とバイアスベクトルが、学習モデルＡの画像類似度パラメータ及び学習モデルＢのテキスト生成確率パラメータに含まれる。

　最後に、特徴量混合部４４は、（式３）を用いて、出力する特徴量を重要度による重み付き和によって決定している。

　また、図４に示されているように、学習モデルＡの画像類似度パラメータは、画像理解部４１、テキスト理解部４３、及び特徴量混合部４４が各処理を実行する場合に使用される。学習モデルＢのテキスト生成確率パラメータは、画像理解部４１及びテキスト生成部４２が各処理を実行する場合に用いられる。但し、推論フェーズの場合で、画像データに付随テキストデータが付随されているときには、学習モデルＢのテキスト生成確率パラメータは使用されない。

　なお、訓練フェーズの場合には、画像データに付随テキストデータが付随されているときであっても、学習モデルＢのテキスト生成確率パラメータは使用され、訓練（学習）による更新も行われる。このようにするのは、推論フェーズの場合に、画像データに付随テキストデータが付随されていないときでも、テキスト生成部４２が生成テキストデータを生成することができるようにするためである。また、学習モデルＢを訓練（学習）することで、テキスト生成確率パラメータを使用する画像理解部４１の理解能力が向上するという良い影響を与えるためでもある。

　続いて、図３に戻り、類似度計算部３４は、クエリ用の混合特徴量とサポート用の混合特徴量を比較して画像類似度を計算する。推論フェーズの場合、この画像類似度は出力部３９に出力されて画像分類の分類結果データに用いられる。一方、訓練フェーズの場合、この画像類似度は損失計算部３５に出力される。

　例えば、類似度計算部３４は、双線形層である。ここで、N-way k-shot image classificationを考える。類似度計算部５４では、まず各クラスについてｋ個のサポート特徴量（ベクトル）が与えられる。これらを平均したベクトルをクラス特徴量とする。Ｎ個のクラス特徴量（ベクトル）を並べた行列をXとする。クエリデータの特徴量をy、学習可能なパラメータをWとする。このとき、クエリデータが各クラスであることのスコアは以下のように表される。

　このベクトルの各成分が、クエリデータが各クラスに属することの確からしさを示す。

　損失計算部３５は、画像類似度から損失関数値を計算する。また、損失計算部３５は、クエリデータ・サポートデータの生成テキストデータと、クエリデータ・サポートデータの生成確率分布と、クエリデータ・サポートデータの付随テキストデータから損失関数値を計算する。

　例えば、損失計算部３５が計算する損失関数には、類似度計算部３４の分類スコアやテキスト生成に関する任意の損失を利用することができる。標準的にはCross-Entropy Lossや負の対数尤度関数が用いられる。

　パラメータ更新部３６は、類似度計算部３４によって計算された画像類似度から損失計算部３５によって計算された損失関数値に基づいて、特徴抽出部３３、類似度計算部３４を構成するニューラルネットワークの学習モデルＡの画像類似度パラメータを更新する。この場合、損失計算部３５は、サポートデータの画像データとクエリデータの画像データの類似度が縮まるように、更には、不正解画像との類似度は大きくなるように学習を行う。

　また、パラメータ更新部３６は、損失計算部３５によって計算された損失関数値に基づいて、特徴抽出部３３、類似度計算部３４を構成するニューラルネットワークの学習モデルＢのテキスト生成確率パラメータを更新する。この場合、損失計算部３５は、生成テキストデータが付随テキストデータに類似する確率が高くなるように学習を行う。

　例えば、パラメータ更新部５６は、損失計算部３５によって計算された損失に基づいて、損失の勾配を計算し、パラメータを更新する。

　〔実施形態の処理又は動作〕
　続いて、図６乃至図８を用いて、本実施形態の処理又は動作について詳細に説明する。なお、訓練（学習）フェーズと推論フェーズに分けて説明する。

　＜訓練フェーズ＞
　まずは、図６及び図７を用いて、訓練フェーズについて説明する。図６は、訓練（学習）フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。

　まず、入力部３０は、訓練用の教師データ（クエリデータ）を入力する（Ｓ１０）。読出部３１は、訓練用の教師データ（サポートデータ）の候補群を読み出す（Ｓ１１）。選択部３２は、候補群から教師データとしてランダムに５種類１ペア（画像データと付随テキストデータ）のサポートデータを選択する（Ｓ１２）。また、選択部３２は、同じ５種類から任意の数のペアをクエリデータとして選択する。この際、選択部３２は、選択した各クエリデータに対して、同じ種類のサポートデータを、該クエリデータに対する正解であると定義し、異なる種類のサポートデータを、該クエリデータに対する不正解であると定義することで、サポートデータに正解又は不正解を定義したデータを付加する。例えば、クエリデータが「鳩」を示す場合、サポートデータの５種の内、「鳩」を示すサポートデータは正解、その他の種類（クラス）を示すサポートデータは不正解と定義される。なお、正解又は不正解の定義は、読出部３１によって行われてもよい。

　次に、特徴抽出部３３は、入力部３０から取得したクエリデータに基づいてクエリ用の混合特徴量を生成すると共に、選択部３２が選択した５種類１ペア（合計５ペア）のサポートデータのうちの所定の１つのサポートデータに基づいてサポート用の混合特徴量を生成する（Ｓ１３）。この際、特徴抽出部３３は、正解又は不正解の定義済みのセットデータ（クエリデータ、サポートデータ、及び正解又は不正解の定義データ）を受け取り、このセットデータ内に含まれるクエリデータ、サポートデータの混合特徴量を算出して類似度計算部に出力する。なお、この際、サポートデータのペア数ｋが２以上の場合は、各ペアの画像のデータの画像特徴量を平均したベクトルを、そのサポートデータの画像特徴量とすればよい。

　ここで、図７を用いて、特徴抽出部が実行する詳細な処理を説明する。図７は、特徴抽出部が実行する詳細な処理を示すフローチャートである。

　図７に示されているように、画像理解部４１は、クエリデータ及びサポートデータの各画像データに基づいて、各画像特徴量（クエリ用の画像特徴量、サポート用の画像特徴量）を抽出する（Ｓ１３１）。テキスト生成部４２は、各画像特徴量に基づいて、各生成テキストデータを生成する（Ｓ１３２）。訓練フェーズでは、後述のステップＳ１３３，Ｓ１３５は実行されず、続いて、テキスト理解部４３は、クエリデータ及びサポートデータの各付随テキストデータに基づいて、各テキスト特徴量（クエリ用のテキスト特徴量、テキスト用のテキスト特徴量）を抽出する（Ｓ１３４）。特徴量混合部４４は、クエリ用の画像特徴量とクエリ用のテキスト特徴量を混合してクエリ用の混合特徴量を生成すると共に、サポート用の画像特徴量とサポート用のテキスト特徴量を混合してサポート用の混合特徴量を生成する（Ｓ１３６）。

　続いて、図６に戻り、類似度計算部３４は、クエリ用の混合特徴量（第１の混合特徴量の一例）とサポート用の混合特徴量（第２の混合特徴量の一例）を比較して、画像類似度を計算する（Ｓ１４）。この際、類似度計算部３４は、セットデータ内に含まれるクエリデータとサポートデータ各ペアの類似度を計算して損失計算部に渡す。

　そして、特徴抽出部３３が、選択部３２によって選択された５種類１ペア（合計５ペア）のサポートデータのうちの５ペア全ての類似度の計算が終了しているか否かを判断する（Ｓ１５）。そして、特徴抽出部３３が、５ペア全てのサポートデータに対する類似度の計算が終了していないと判断した場合には（Ｓ１５；ＮＯ）、ステップＳ１３に戻り、類似度の計算が終了していないサポートデータに対して、ステップＳ１３以降が行われる。なお、入力部３０から取得されたクエリデータに関しては、既に混合特徴量が生成されているため、ステップＳ１３以降の再処理は行われない。

　一方、ステップＳ１５において、特徴抽出部３３が、５ペア全ての類似度の計算が終了していると判断した場合には（Ｓ１５；ＹＥＳ）、損失計算部３５は、損失を計算する（Ｓ１６）。この際、損失計算部３５は、各セットデータ内に含まれるクエリデータとサポートデータのペアの各類似度、クエリデータに対するサポートデータの各ペアの正解又は不正解の定義データを基に損失を計算する。なお、この類似度には、画像間の類似度と、付随テキスト間の類似度が含まれる。

　次に、パラメータ更新部３６が、損失の勾配を計算し、学習モデルＡの画像類似度パラメータ、及び学習モデルＢのテキスト生成確率パラメータを更新（訓練）する（Ｓ１７）。この際、パラメータ更新部３６は、上記損失を最小化するよう、パラメータを更新する。

　次に、選択部３２が、規定回数（例えば、２０回）の選択を終了したかを判断する（Ｓ１８）。例えば、選択部３２が、規定回数として２０回の選択をする場合、１回の選択で５ペアのサポートデータを選択するため、合計で１００ペアのサポートデータを選択することになる。但し、選択部３２は、候補群からランダムに５種類１ペア（合計５ペア）のサポートデータを選択するため、同じサポートデータが複数回選択される場合が生じる。

　そして、上記ステップＳ１８において、選択部３２が、規定回数の選択が終了していないと判断した場合には（Ｓ１８；ＮＯ）、ステップＳ１２の処理に戻り、選択部３２は新たに候補群からランダムに５種類１ペア（合計５ペア）のサポートデータを選択し、その後、ステップＳ１３以降の処理が行われる。

　一方、上記ステップＳ１８において、選択部３２が、規定回数の選択が終了していると判断した場合には（Ｓ１８；ＹＥＳ）、図６に示されている訓練フェーズの処理が終了する。

　＜推論フェーズ＞
　次に、図７及び図８を用いて、訓練フェーズについて説明する。図８は、推論フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。

　まず、入力部３０は、推論用の分類対象データであるクエリデータを入力する（Ｓ３０）。読出部３１は、推論用のサポートデータを読み出す（Ｓ３１）。

　次に、特徴抽出部３３は、入力部３０から取得した分類対象データであるクエリデータに基づいてクエリ用の混合特徴量を生成すると共に、選択部３２が選択した５種類１ペア（合計５ペア）のサポートデータのうちの所定の１つのサポートデータに基づいてサポート用の混合特徴量を生成する（Ｓ３２）。ここで、図７を用いて、特徴抽出部が実行する詳細な処理を説明する。図７は、特徴抽出部が実行する詳細な処理を示すフローチャートである。

　図７に示されているように、画像理解部４１は、クエリデータ及びサポートデータの各画像データに基づいて、各画像特徴量（クエリ用の画像特徴量、サポート用の画像特徴量）を抽出する（Ｓ１３１）。テキスト生成部４２は、各画像特徴量に基づいて、各生成テキストデータを生成する（Ｓ１３２）。推論フェーズでは、後述のステップＳ１３３，Ｓ１３５は実行される。

　よって、テキスト理解部４３は、クエリデータとサポートデータの両方にそれそれ付随テキストデータが含まれているか、即ち、クエリデータの画像データとサポートデータの画像データの両方にそれぞれ付随テキストデータが付随されているかを判断する（Ｓ１３３）。そして、テキスト理解部４３は、クエリデータとサポートデータの両方にそれそれ付随テキストデータが含まれている、即ち、クエリデータの画像データとサポートデータの画像データの両方にそれぞれ付随テキストデータが付随されていると判断した場合には（Ｓ１３３；ＹＥＳ）、テキスト理解部４３は、クエリデータ及びサポートデータの各付随テキストデータに基づいて、各テキスト特徴量（クエリ用のテキスト特徴量、テキスト用のテキスト特徴量）を抽出する（Ｓ１３４）。

　一方、ステップＳ１３３において、テキスト理解部４３が、クエリデータとサポートデータの両方にそれぞれ付随テキストデータが含まれていないと判断した場合、即ち、クエリデータの画像データとサポートデータの画像データの両方にそれぞれ付随テキストデータが付随されていないと判断した場合には（Ｓ１３３；ＮＯ）、テキスト理解部４３は、以下の処理を行う。

　即ち、上記の場合（Ｓ１３３；ＮＯ）、サポートデータに付随データが含まれていないときには、テキスト理解部４３は、クエリデータの付随テキストに基づいてテキスト特徴量を抽出し、サポートデータの生成テキストに基づいてテキスト特徴量を抽出する（Ｓ１３５）。同様の場合であって（Ｓ１３３；ＮＯ）、クエリデータに付随データが含まれていないときには、テキスト理解部４３は、サポートデータの付随テキストに基づいてテキスト特徴量を抽出し、クエリデータの生成テキストに基づいてテキスト特徴量を抽出する（Ｓ１３５）。同様の場合であって（Ｓ１３３；ＮＯ）、クエリデータとサポートデータの両方にそれぞれ付随テキストデータが含まれていないときには、テキスト理解部４３は、クエリデータ及びサポートデータのそれぞれの生成テキストに基づいて、それぞれのテキスト特徴量を抽出する（Ｓ１３５）。

　そして、ステップＳ１３４又はＳ１３５の後、特徴量混合部４４は、クエリ用の画像特徴量とクエリ用のテキスト特徴量を混合してクエリ用の混合特徴量を生成すると共に、サポート用の画像特徴量とサポート用のテキスト特徴量を混合してサポート用の混合特徴量を生成する（Ｓ１３６）。

　続いて、図８に戻り、類似度計算部３４は、クエリ用の混合特徴量（第１の混合特徴量の一例）とサポート用の混合特徴量（第２の混合特徴量の一例）を比較して、画像類似度を計算する（Ｓ３３）。

　次に、抽出部３３が、選択部３２によって選択された５種類１ペア（合計５ペア）のサポートデータのうちの５ペア全てのサポートデータに対する比較が終了しているか否かを判断する（Ｓ３４）。そして、特徴抽出部３３が、５ペア全てのサポートデータに対する比較が終了していないと判断した場合には（Ｓ３５；ＮＯ）、ステップ３２に戻り、５種類１ペア（合計５ペア）のサポートデータの比較が終了していないサポートデータに対して、ステップＳ３２以降が行われる。なお、入力部３０から取得された分類対象データであるクエリデータに関しては、既に混合特徴量が生成されているため、ステップＳ３２以降の再処理は行われない。

　一方、ステップＳ３４において、特徴抽出部３３が、５ペア全てのサポートデータに対する比較が終了していると判断した場合には（Ｓ３４；ＹＥＳ）、出力部３９は、これまでの比較結果に基づいて、分類結果を示す分類結果データを出力する（Ｓ３５）。分類結果データには、例えば、分類対象データに係る画像は、鳩の画像である、鳩の画像である可能性が９０％であり、他の鳥の画像である可能性が１０％である等が示されている。

　〔実施形態の主な効果〕
　以上説明したように本実施形態によれば、画像分類装置３は、画像データの画像特徴量と、画像データに付随している付随テキストデータのテキスト特徴量を混合することで、混合特徴量を生成する。これにより、画像分類装置３は、特徴抽出装置として、単に、画像像データ同士の特徴量の比較、及びテキストデータ同士の比較の場合に比べて、マルチモーダルな特徴量を抽出することができるという効果を奏する。また、画像分類装置３は、より高精度な画像データに関する特徴量を抽出することで、より高精度な画像分類を行うことができるという効果を奏する。

　〔補足〕
　本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理（動作）であってもよい。

　画像分類装置３はコンピュータとプログラムによって実現できるが、このプログラムを（非一時的）記録媒体に記録することも、通信ネットワーク１００を介して提供することも可能である。

　上記実施形態では、画像分類装置３が示されているが、特徴抽出部３３に特化した場合には、特徴抽出装置と表現することが可能である。また、画像分類装置３及び特徴抽出装置は、共に画像処理装置と表現することが可能である。

　また、上記実施形態以外に、ニューラルネットワークの学習で用いられる任意の処理を、上記実施形態に追加することができる。例えば、入力する付随テキストデータについてルールベースによる言い換えを行うことでデータの数を水増しすることができる。言い換え例としては、「This bird is big」の「big」を「large」に言い換えて、「This bird is large」とする言い換えがある。

　〔付記項〕
　上述の実施形態には、以下に示す発明としても表すことができる。

　〔付記項１〕
　画像データの特徴量を抽出する画像処理装置であって、
　前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解ステップと、
　前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解ステップと、
　前記画像理解ステップによって抽出された前記画像特徴量と前記テキスト理解ステップによって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合ステップと、
　を実行する画像処理装置。

　〔付記項２〕
　前記画像理解ステップ、前記テキスト理解ステップ、及び前記特徴量混合ステップは、それぞれニューラルネットワークで実現され、前記画像理解ステップ、前記テキスト理解ステップ、及び前記特徴量混合ステップは前記ニューラルネットワークのモデルパラメータに基づいて処理を行う、付記項１に記載の画像処理装置。

　〔付記項３〕
　付記項２に記載の画像処理装置であって、
　前記プロセッサは、
　前記特徴量混合ステップによって生成された第１の画像データに係る第１の混合特徴量、及び前記特徴量混合ステップによって生成された第２の画像データに係る第２の混合特徴量の画像類似度を計算する類似度計算ステップと、
　前記類似度計算ステップによって計算された前記画像類似度に基づいて、前記モデルパラメータに含まれる画像類似度パラメータを更新するパラメータ更新ステップと、
　を実行する画像処理装置。

　〔付記項４〕
　付記項２に記載の画像処理装置であって、
　前記プロセッサは、
　前記画像理解ステップによって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成ステップと、
　前記テキスト生成ステップによって生成された前記生成テキストデータと前記付随テキストデータに基づいて、前記モデルパラメータに含まれるテキスト生成確率パラメータを更新するパラメータ更新ステップと、
　を実行する画像処理装置。

　〔付記項５〕
　付記項１に記載の画像処理装置であって、
　前記プロセッサは、
　前記画像理解ステップによって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成ステップを実行し、
　前記画像データに前記付随テキストデータが付随していない場合には、前記テキスト理解ステップは、前記テキスト生成ステップによって生成された前記生成テキストデータを前記付随テキストデータとすることで、前記テキスト特徴量を抽出する処理を含む、画像処理装置。

　〔付記項６〕
　画像データの特徴量を抽出する画像処理装置が実行する画像処理方法であって、
　前記画像処理装置は、
　前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解ステップと、
　前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解ステップと、
　前記画像理解ステップによって抽出された前記画像特徴量と前記テキスト理解ステップによって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合ステップと、
　を実行する画像処理方法。

　〔付記項７〕
　コンピュータに、付記項６に記載の方法を実行させるプログラムを記録した非一時的記録媒体。

１　通信システム
３　画像分類装置（画像処理装置の一例）
５　通信端末
３０　　入力部（入力手段の一例）
３１　読出部
３２　選択部（選択手段の一例）
３３　特徴抽出部（特徴抽出手段の一例）
３４　類似度計算部（類似度計算手段の一例）
３５　損失計算部
３６　パラメータ更新部（パラメータ更新手段の一例）
３９　出力部
４１　画像理解部（画像理解手段の一例）
４２　テキスト生成部（テキスト生成手段の一例）
４３　テキスト理解部（テキスト理解手段の一例）
４４　特徴量混合部（特徴量混合手段の一例）
４２２　デコーダ

Claims

　画像データの特徴量を抽出する画像処理装置であって、
　前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解手段と、
　前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解手段と、
　前記画像理解手段によって抽出された前記画像特徴量と前記テキスト理解手段によって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合手段と、
　を有する画像処理装置。
　前記画像理解手段、前記テキスト理解手段、及び前記特徴量混合手段は、それぞれニューラルネットワークで構成され、前記画像理解手段、前記テキスト理解手段、及び前記特徴量混合手段は前記ニューラルネットワークのモデルパラメータに基づいて処理を行う、請求項１に記載の画像処理装置。
　請求項２に記載の画像処理装置であって、
　前記特徴量混合手段によって生成された第１の画像データに係る第１の混合特徴量、及び前記特徴量混合手段によって生成された第２の画像データに係る第２の混合特徴量の画像類似度を計算する類似度計算手段と、
　前記類似度計算手段によって計算された前記画像類似度に基づいて、前記モデルパラメータに含まれる画像類似度パラメータを更新するパラメータ更新手段と、
　を有する画像処理装置。
　請求項２に記載の画像処理装置であって、
　前記画像理解手段によって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成手段を有し、
　前記テキスト生成手段によって生成された前記生成テキストデータと前記付随テキストデータに基づいて、前記モデルパラメータに含まれるテキスト生成確率パラメータを更新するパラメータ更新手段と、
　を有する画像処理装置。
　請求項１に記載の画像処理装置であって、
　前記画像理解手段によって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成手段を有し、
　前記画像データに前記付随テキストデータが付随していない場合には、前記テキスト理解手段は、前記テキスト生成手段によって生成された前記生成テキストデータを前記付随テキストデータとすることで、前記テキスト特徴量を抽出する画像処理装置。
　請求項２乃至５のいずれか一項に記載の画像処理装置と、
　通信ネットワークを介して前記画像処理装置に前記画像データを送信し、前記通信ネットワークを介して前記画像処理装置から前画像類似度に基づく画像の分類結果データを受信する通信端末と、
　を有する通信システム。
　画像データの特徴量を抽出する画像処理装置が実行する画像処理方法であって、
　前記画像処理装置は、
　前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解ステップと、
　前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解ステップと、
　前記画像理解ステップによって抽出された前記画像特徴量と前記テキスト理解ステップによって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合ステップと、
　を実行する画像処理方法。
　コンピュータに、請求項７に記載の方法を実行させるプログラム。