WO2023228276A1

WO2023228276A1 - 画像処理装置、方法およびプログラム

Info

Publication number: WO2023228276A1
Application number: PCT/JP2022/021254
Authority: WO
Inventors: 香織熊谷; 基宏高木; 重邦近藤; 裕司青野
Original assignee: 日本電信電話株式会社
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2023-11-30

Abstract

一実施形態に係る画像処理装置は、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付ける入力部と、前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、を有する。

Description

画像処理装置、方法およびプログラム

　本発明の実施形態は、画像処理装置、方法およびプログラムに関する。

　画像データ（単に画像と称することもある）中に写された状況を文で説明する技術としての画像説明文生成技術がある。この技術は、工場などで撮影された作業の自動記録、または医療現場での電子カルテ（electronic medical records）の自動記入など、人手が必要な事務作業コスト（cost）を削減するための活用が期待され、広く研究されている。

　例えば非特許文献１では、大量の画像と、当該画像に写された状況を説明する文とのセット（set）を学習データ（data）とし、画像を画像説明文生成モデル（model）に入力し、当該画像写された状況を説明する文を推定するようにモデルを学習することが開示される。この画像説明文生成モデルは、データセットに多く含まれるような一般的な単語が使用された単純な文を生成することは可能だが、文中で言及する内容を目的に合わせて制御することはできない。

　制御可能な画像説明文の生成技術は、画像説明文生成器の入力として、画像データと共に制御信号を与え、言及する内容を制御しながら画像説明文を生成する技術であり、近年研究され始めている。

　また、制御信号として、言及したい画像の部分領域を与える、物体領域指定型の画像説明文生成技術がある。当該技術における制御信号の物体領域とは、画像の表示領域中の物体の位置と名称を特定する物体検出技術で検出された複数の物体領域から自動選択されるため、画像により示される、言及対象の状況を示すイベント（event）とは直接関連のない領域が含まれる場合がある。　
　このとき、言及対象のイベントに関連が無い単語が使用されることで、不自然な文が生成される可能性がある。例えば、言及対象のイベントが血圧測定である一方で、制御情報として椅子の領域が含まれるとき、イベントに直接関係が無い“with the chair”という文言が生成文中に含まれてしまう。

　非特許文献２には、制御信号として言及対象のイベント名と当該イベントに関連する意味役割（semantic role）情報とが与えられる画像説明文生成方法の技術が開示される。意味役割は主題役割（thematic role）と称されることもある。当該技術におけるイベント名とは、例えば “test”であり、画像中で言及したい活動を示す名称である。また、意味役割情報とは、例えば“主体”、“目的語”または“場所”であり、言及対象の活動を示すイベント名を文で説明するときに必要な要素である。当該技術を使用して生成された文中に、言及したいイベントに関連が無い単語が含まれる可能性は少ない。

Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi and Rita Cucchiara, "Meshed-Memory Transformer for Image Captioning", in Proc. Of CVPR2020. Long Chen, Zhihong Jiang, Jun Xiao and Wei Liu, "Human-like Controllable Image Captioning with Verb-specific Semantic Roles", in Proc. Of CVPR2021.

　しかしながら非特許文献２に記載される画像説明文生成方法は、複数のステップ（step）に分かれてなり、各ステップにおいてニューラルネットワークモデル（neural network model）が必要であるため、学習および推論に係るコストが大きいことが問題である。　
　上記複数のステップにおけるニューラルネットワークモデルとは、制御信号として与えられた各意味役割について画像中の領域を推定するモデルと、意味役割の順番推定をするモデルと、順番に並べられた意味役割ごとに単語推定するモデルとでなる。学習および推論時は、各モデルを順番に学習および推論する必要があるため、モデルのパラメータ（parameter）調整などの手間がかかり、コストが大きくなることが想定される。

　また、非特許文献２は、前段ステップの推定結果を使用して後段ステップの推論も行なうため、前段での推論の誤りを後段で修正することができない。意味役割の順番推定時に推論を誤ると、不自然な単語順の文が生成される可能性がある。

　この発明は、上記事情に着目してなされたもので、その目的とするところは、画像データに写される状況を説明する画像説明文を適切に生成することができるようにした画像処理装置、方法およびプログラムを提供することにある。

　本発明の一態様に係る画像処理装置は、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付ける入力部と、前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、を備える。

　本発明の一態様に係る画像処理方法は、画像処理装置により行なわれる方法であって、前記画像処理装置が、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付けることと、前記画像処理装置が、前記入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することと、を備える。

　本発明によれば、画像データに写される状況を説明する画像説明文を適切に生成することができる。

図１は、本発明の一実施形態に係る画像処理装置の適用例を示す図である。図２は、画像説明文生成器の構成の一例を示す図である。図３は、画像処理装置により実行される学習処理ルーチン（routine）の一例を示すフローチャート（flow chart）である。図４は、画像処理装置により実行される推論処理ルーチンの一例を示すフローチャートである。図５は、本発明の一実施形態に係る画像処理装置のハードウエア（hardware）構成の一例を示すブロック図（block diagram）である。

　以下、図面を参照しながら、この発明に係わる一実施形態を説明する。　
　＜構成＞
　まず、本発明の一実施形態に係る画像処理装置の構成について説明する。この画像処理装置は、画像説明文生成装置または画像説明装置と称されることもある。図１は、本発明の一実施形態に係る画像処理装置１００の適用例を示す図である。　
　画像処理装置１００は、ＣＰＵ（Central Processing Unit）とＲＡＭ（Random Access Memory）と、後述する画像説明文処理ルーチンを実行するためのプログラム（program）を記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータ（computer）で構成され、機能的には以下に示す様に構成されている。

　図１に示される様に、本実施形態に係る画像処理装置１００は、融合情報作成部１と、記憶部２と、画像説明部３と、パラメータ更新部４と、出力部５と、デコーダ融合情報作成部とを備えて構成される。

　融合情報作成部１は、記憶部２から画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとの入力を受け付け、これらの画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとが融合されてなる融合情報ｗを作成する。

　画像特徴量ｘとは、ある画像データIから抽出されたテンソル（tensor）であれば何でも良く、例えば非特許文献２におけるＶＧＧネットワーク（Visual Geometry Group network）に画像を入力して出力されたテンソルである。

　イベント情報ｙとは、ある画像データIの表示領域に写される状況の名称であるイベント名を示すベクトル（vector）であれば特に限られない。例えば、イベント情報ｙは、イベント種類数に応じた長さのベクトルで、かつ当該画像で示されるイベントに相当するインデックス（index）の値のみが「１」で、その他のインデックスの値は「０」のベクトルである。　
　例えば、あらかじめ与えられたイベントの種類の中から、人手により、ある画像でのイベントを示すベクトルが作成されても良ければ、あらかじめ与えられたイベント種類を認識可能なイベント認識モデルにより、ある画像で示されているイベントを認識し、この認識結果を用いて、上記画像でのイベントを示すベクトルが作成されても良い。

　意味役割情報ｚとは、ある画像データＩにより示されるイベントの内容を説明する際に必要な情報、すなわち画像データに写される状況を説明する文の各単語の意味役割を示す意味役割情報を示すベクトルであれば特に限られない。例えば、意味役割情報ｚは、意味役割の種類数に応じた長さのベクトルで、当該画像で示されるイベントの内容を説明する際に必要な意味役割に相当するインデックスの値のみが「１」で、その他のインデックスの値は「０」のベクトルである。　
　例えば、あらかじめ与えられた意味役割の種類の中から、人手により、ある画像での意味役割を示すベクトルが作成されても良ければ、ある画像中で示されるイベントと同じイベントの内容について説明する文中の各単語を、あらかじめ与えられた意味役割の種類に分類する言語解析器により解析された結果を用いて、上記画像の意味役割を示すベクトルが作成されてもよい。

　融合情報ｗとは、画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとから作成されたテンソルであれば特に限られない。　
　ここで、例えば、画像特徴量ｘのサイズ（size）が、横幅w、縦幅h、およびチャネル（channel）数cで表現され、イベント情報ｙが、長さl_yを有するベクトルであり、意味役割情報ｚが、長さl_zを有するベクトルであると仮定する。　
　この場合、融合情報ｗは、イベント情報ｙと意味役割情報ｚの各ベクトルが、画像特徴量ｘの横幅ｗと縦幅ｈのサイズに応じて複製されたテンソルである。このテンソルは、画像特徴ｘ量と、イベント情報ｙのベクトルが複製されてなるテンソルと、意味役割情報ｚのベクトルが複製されてなるテンソルとがチャネル方向に重畳されたときのサイズが、横幅ｗ、縦幅ｈ、およびチャネル数（ｃ＋l_y＋l_z）であるテンソルである。

　記憶部２には、画像説明文生成器Aのニューラルネットワーク（画面説明モデルと称されることもある）と、画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚと、正解文Ｃと、正解位置Ｂと、正解意味役割系列Ｓとの１以上のセットが格納される。図２は、画像説明文生成器の構成の一例を示す図である。この図２では、画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚと、融合情報作成部１で作成された融合情報ｗと、画像説明文生成器Ａの構成の概念が示される。

　図２に示されるように、画像説明文生成器Ａのニューラルネットワークは、エンコーダニューラルネットワークと、デコーダニューラルネットワークと、説明文推定ニューラルネットワークと、位置推定ニューラルネットワークと、意味役割推定ニューラルネットワークとから構成される。

　この画像説明文生成器Ａのニューラルネットワークは、エンコーダニューラルネットワークに融合情報ｗを入力してエンコーダ出力特徴量ｅを得た後、デコーダニューラルネットワークにエンコーダ出力特徴量ｅとデコーダ融合情報ｖを入力して共通特徴量ｈを出力し、説明文推定ニューラルネットワークに共通特徴量ｈを入力して説明文推定結果ｃを出力し、位置推定ニューラルネットワークに共通特徴量hを入力して位置推定結果ｂを出力し、意味役割推定ニューラルネットワークに共通特徴量ｈを入力して意味役割推定結果ｓを出力するニューラルネットワークであれば特に限られない。

　エンコーダニューラルネットワークとは、融合情報ｗを入力しエンコーダ出力特徴量ｅを出力するニューラルネットワークであれば特に限られない。
　エンコーダ出力特徴量ｅとは，イベント情報ｙと意味役割情報ｚと画像特徴量ｘとから抽出された特徴量を示すテンソルであれば特に限られず、例えばサイズが100x512のテンソルである。

　デコーダニューラルネットワークとは、エンコーダ出力特徴量ｅとデコーダ融合情報ｖとを入力し共通特徴量ｈを出力するニューラルネットワークであれば特に限られない。　
　この共通特徴量ｈとは、出力文の各単語を示す特徴ベクトルから成るテンソルであれば特に限られず、例えばサイズが出力文長×l_hであるテンソルである。

　説明文推定ニューラルネットワークとは、共通特徴量ｈを入力し、説明文推定結果ｃを出力するネットワークであれば特に限られない。　
　この説明文推定結果ｃは、画像説明文である出力文の単語列を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×語彙数Ｄ」であるテンソルであり、このテンソルの各要素は、出力文の各単語の出現確率である。

　位置推定ニューラルネットワークとは、共通特徴量ｈを入力し、位置推定結果ｂを出力するネットワークであれば特に限られない。　
　この位置推定結果ｂは、画像データに写される状況を説明する文である出力文の各単語に相当する、画像の表示領域中の位置を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×4」であるテンソルであり、このテンソルの各要素は、例えば、画像データにおける、出力文の各単語に相当する領域の左上を基準とする座標ｘ，ｙならびに横幅ｗおよび縦幅ｈの値である。

　意味役割推定ニューラルネットワークとは、共通特徴量ｈを入力し、意味役割推定結果ｓを出力するネットワークであれば特に限られない。　
　この意味役割推定結果ｓとは、上記出力文の各単語の意味役割を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×意味役割の種類の数ｐ」であるテンソルであり、このテンソルの各要素は、出力文の各単語の意味役割についての出現確率である。

　上記のように記憶部２に格納される正解文Ｃとは、ある画像データIに写される状況を説明する出力文の単語列の正解情報を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×語彙数Ｄ」であるテンソルであり、各要素が、出力文の各単語に相当するインデックスの値のみが「１」であり、その他のインデックスの値は「０」であるテンソルである。

　上記のように記憶部２に格納される正解位置Ｂとは、ある画像データIに写される状況を説明する文である出力文の各単語に相当する、画像データの表示領域中の位置を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×４」であるテンソルであり、このテンソルの各要素は、例えば、画像データにおける、出力文の各単語に相当する領域の左上を基準とする座標ｘ，ｙならびに横幅ｗ、縦幅ｈの値である。

　上記のように記憶部２に格納される正解意味役割系列Ｓとは、ある画像データIに写される状況を説明する文である出力文の各単語の意味役割を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×意味役割の種類の数」であるテンソルであり、各要素が、出力文の各単語の意味役割に相当するインデックスの値のみが「１」で、その他のインデックスの値は「０」であるテンソルである。

　デコーダ融合情報作成部６は、学習処理時は、記憶部２から正解文Ｃと正解意味役割系列Ｓを読み出して受け付け、これらの受け付けた結果に基づいてデコーダ融合情報ｖを作成する。

　デコーダ融合情報作成部６は、推論処理時は、画像説明部３からの、直前まで推定された部分説明文推定結果ｃ´と部分意味役割推定結果ｓ´とを受け付け、これらの受け付けた結果に基づいてデコーダ融合情報ｖを作成する。

　部分説明文推定結果ｃ´とは、途中まで出力された単語列を示すテンソルであれば特に限られず、例えば文頭から３つ目の単語まで出力した時点のときは、サイズが「３×語彙数Ｄ」であるテンソルであり、当該テンソルの各要素は、各単語の確率である。

　また、部分意味役割推定結果ｓ´とは、途中まで出力された単語列について、各単語の意味役割を示すテンソルであれば特に限られず、例えば文頭から３つ目の単語まで出力した時点のときは、サイズが「３×意味役割種類数」であるテンソルであり、当該テンソルの各要素は、各単語の意味役割についての確率である。

　デコーダ融合情報ｖとは、学習処理時は、上記のように正解文Ｃと正解意味役割系列Ｓとから作成されたテンソルであれば特に限られない。　
　デコーダ融合情報作成部６は、例えば、正解文Ｃのサイズが「出力文長I_h×語彙数Ｄ」であるテンソルであって、これを「語彙数Ｄ次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「出力文長I_h×512」であるテンソルを言語特徴テンソルとする。

　そして、デコーダ融合情報作成部６は、例えば、正解意味役割系列Ｓのサイズが「出力文長l_h×意味役割の種類数」の長さであるテンソルであって、これを「意味役割の種類数次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「出力文長I_h×512」であるテンソルを意味役割特徴テンソルとする。

　そして、デコーダ融合情報作成部６は、非特許文献２で提案されたpositional encoderを使用して作成された、サイズが「出力文長I_h×512」であるテンソルを位置情報テンソルとし、当該言語特徴テンソルと意味役割特徴テンソルと位置情報テンソルの要素ごとの和であるテンソルであって、サイズが「出力文長I_h×512」であテンソルをデコーダ融合情報ｖとする。

　また、推論処理時は、デコーダ融合情報ｖとは、上記のように部分説明文推定結果ｃ´と部分意味役割推定結果ｓ´とから作成されたテンソルであれば特に限られない。　
　デコーダ融合情報作成部６は、例えば、部分説明文推定結果ｃ´が、サイズが「３×語彙数Ｄ」であるテンソルであって、これを「語彙数Ｄ次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「３×５１２」であるテンソルを言語特徴テンソルとする。

　そして、デコーダ融合情報作成部６は、例えば、部分意味役割推定結果ｓ´が、サイズが「３×意味役割の種類数」の長さであるテンソルであって、これを「意味役割の種類数次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「３×512」であるテンソルを意味役割特徴テンソルとする。

　そして、デコーダ融合情報作成部６は、例えば、非特許文献２で提案されたpositional encoderを使用して作成された、サイズが「３×５１２」であるテンソルを位置情報テンソルとし、当該言語特徴テンソルと意味役割特徴テンソルと位置情報テンソルの要素ごとの和である、サイズが「３×５１２」であるテンソルをデコーダ融合情報ｖとする。

　画像説明部３は、融合情報作成部１から融合情報ｗを受け取り、デコーダ融合情報作成部６からデコーダ融合情報ｖを受け取り、記憶部２から画像説明文生成器Ａを受け取り、融合情報ｗとデコーダ融合情報ｖとを画像説明文生成器Ａのニューラルネットワークに入力する。　
　画像説明部３は、学習処理時は、このニューラルネットワークから出力される説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとをそれぞれ出力する。また、画像説明部３は、推論処理時は，画像説明文生成器Ａのニューラルネットワークから出力される部分説明文推定結果ｃ´と、部分位置推定結果ｂ´と、部分意味役割推定結果ｓ´とをそれぞれ出力し、後述する文生成終了判定処理を行なう。

　部分位置推定結果b´とは、途中まで出力された単語列について、各単語に相当する画像中の位置を示すテンソルであれば特に限られず、例えば文頭から３つ目の単語まで出力した時点のときはサイズが「３×４」であるテンソルであり、当該テンソルの各要素は、各単語に相当する領域の左上の座標「x, y」と横幅wと縦幅hである。

　上記の文生成終了判定処理とは、文生成が終了したか判定する処理であれば特に限られず、画像説明部３は、例えば文末を示す＜EOS＞が出力されたとき文生成を終了すると判定し、それ以外の単語が出力されたときは文生成を継続すると判定する。

　パラメータ更新部４は、画像説明部３から説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとを受け取り、記憶部２から画像説明文生成器Ａと、正解文Ｃと、正解位置Ｂと、正解意味役割系列Ｓとを受け取り、下記の３つの制約を満たすように画像説明文生成器Ａの各ニューラルネットワークのパラメータ（画像説明文生成器Ａのパラメータと称することもある）を更新する。

　１つ目の制約は、説明文推定結果ｃと正解文Ｃとの内容が近付く、または同じになるように、画像説明文生成器Ａのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。例えば、パラメータ更新部４は、下記の式（１）の様に、説明文推定結果ｃと正解文Ｃとのクロスエントロピー誤差（cross-entropy loss）を算出し、この誤差が例えば一定値以下まで小さくなる、またはゼロ（zero）となるように、画像説明文生成器Ａの説明文推定ニューラルネットワークのパラメータを更新する。

　ここで、式（１）のｋは、説明文推定結果ｃおよび正解文Ｃのインデックスであり、ｙ_ｋは、画像説明文生成器Ａのニューラルネットワークから出力される説明文推定結果ｃ中の値であり、ｔ_ｋは正解文Ｃ中の値である。ｔ_ｋは、正解クラス（class）となるインデックスの値のみが「１」で、その他のインデックスの値が「０」である値である。

　２つ目の制約は、位置推定結果ｂと正解位置Ｂとが近付く、または同じになるように、画像説明文生成器Ａのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。例えば、パラメータ更新部４は、位置推定結果ｂが｛ｘ_ｂ, ｙ_ｂ, ｗ_ｂ, ｈ_ｂ｝であり、正解位置Ｂが｛ｘ_Ｂ, ｙ_Ｂ, ｗ_Ｂ, ｈ_Ｂ｝の時に、｛ｘ_ｂ, ｙ_ｂ, ｗ_ｂ, ｈ_ｂ｝と｛ｘ_Ｂ, ｙ_Ｂ, ｗ_Ｂ, ｈ_Ｂ｝とのＬ１距離を計算し、この距離が例えば一定値以下まで小さくなる、またはゼロとなるように、画像説明文検出器Ａの位置推定ニューラルネットワークのパラメータを更新する。Ｌ１距離とは、下記のように表現される。　
　|ｘ_ｂ－ｘ_Ｂ|＋|ｙ_ｂ－ｙ_Ｂ|＋|ｗ_ｂ－ｗ_Ｂ|＋|ｈ_ｂ－ｈ_Ｂ|

　３つ目の制約は、意味役割推定結果sと正解意味役割系列Ｓとの内容が近付く、または同じになるように、画像説明文生成器Ａのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。パラメータ更新部４は、例えば、下記の式（２）の様に、意味役割推定結果sと正解意味役割系列Ｓとのクロスエントロピー誤差を算出し、この誤差が例えば一定値以下まで小さくなる、またはゼロとなるように、画像説明文生成器Ａの意味役割ニューラルネットワークのパラメータを更新する。

　ここで、式（２）のｍは、意味役割推定結果sおよび正解意味役割系列Ｓのインデックスであり、ｙ_ｍは、画像説明文生成器Ａのニューラルネットワークから出力される意味役割推定結果s中の値であり、ｔ_ｍは、正解意味役割系列Ｓ中の値である。ｔ_ｍは、正解クラスとなるインデックスの値のみが「１」で、その他のインデックスの値が「０」である値である。

　出力部５は、画像説明部３から説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sを受け取り、これらの推定結果を出力する。この推定結果は、説明文推定結果ｃが単語列に変換された出力文ｃ´のみでも良ければ、この出力文ｃ´に加えて、位置推定結果ｂに基づいた位置出力情報ｂ´が推定結果としてさらに出力されても良いし、意味役割推定結果ｓから出力文の各単語が推定された出力意味役割s´が推定結果としてさらに出力されても良い。

　上記の出力文ｃ´とは、説明文推定結果ｃに基づいて求められた単語列であれば特に限られず、例えば、説明文推定結果ｃが、サイズが「出力文長I_h×語彙数Ｄ」であるテンソルであって、このテンソルの各要素が出力文の各単語の出現確率であるとき、ビームサーチ（beam search）により、出力文の文頭からビーム幅「５」で最大確率の文が探索されて求められた単語列でも良ければ、グリッドサーチ（grid search）により、全てのあり得る単語列について出現確率が計算されてなる、最大確率の単語列でも良い。

　上記の位置出力情報ｂ´とは、位置推定結果ｂに基づくデータであれば特に限られず、例えば、画像データの表示領域上での位置推定結果ｂで示される位置に矩形（rectangle）が重畳された可視化画像でも良ければ、位置推定結果ｂがテキストデータ（text data）として出力されてなるファイル（file）でも良い。

　上記の出力意味役割ｓ´とは、意味役割推定結果ｓに基づくデータであれば特に限られず、例えば、画像データの表示領域上での位置推定結果ｂで示される位置に矩形が重畳され、この矩形の付近、例えば左上に意味役割推定結果ｓの最大値のインデックスが重畳されてなる可視化画像でも良ければ、意味役割推定結果ｓの最大値のインデックスがテキストデータとして出力されてなるファイルでも良い。

　＜画像処理装置による作用＞
　次に、本実施形態に係る画像処理装置１００の作用について説明する。　
　画像処理装置１００は、以下に説明する学習処理ルーチンと推論処理ルーチンとをそれぞれ実行する。　
　＜＜学習処理ルーチン＞＞
　まず、学習処理ルーチンについて説明する。図３は、画像処理装置により実行される学習処理ルーチンの一例を示すフローチャートである。　
　この学習処理ルーチンでは、まず、画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとの入力が受け付けられ、これらの情報を融合した融合情報ｗが画像説明文生成器Ａのニューラルネットワークに入力される。そして、画像説明文生成器Ａのニューラルネットワークから説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとが出力される。

　そして、記憶部２から正解文Ｃと、正解位置Ｂと、正解意味役割系列Ｓとが受け取られ、（１）上記出力された説明文推定結果ｃと正解文Ｃとの内容が近付く、または同じになるように、かつ（２）上記出力された位置推定結果ｂと正解位置Ｂとが近付く、または同じになるように、かつ（３）上記出力された意味役割推定結果sと正解意味役割系列Ｓとの内容が近付く、または同じになるように、という上記の３つの制約が満たされるように、画像説明文生成器Ａの各種ニューラルネットワークのパラメータが更新される。

　まず、ステップＳ１０１では、融合情報作成部１は、記憶部２からの画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとの入力を受け付け、これらの画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとが融合されてなる融合情報ｗを作成し、この作成された融合情報ｗを画像説明部３に出力する。

　ステップＳ１０２では、デコーダ融合情報作成部６は、記憶部２から正解文Ｃと正解意味役割系列Ｓを受け付け、これらの受け付けた結果に基づいてデコーダ融合情報ｖを作成し、このデコーダ融合情報ｖを画像説明部３に伝達する。

　ステップＳ１０３では、画像説明部３は、ステップＳ１０１で出力された融合情報ｗと、ステップＳ１０２で受け付けたデコーダ融合情報ｖと、記憶部２に格納されている画像説明文生成器Ａとをそれぞれ受け取り、この受け取った融合情報ｗとデコーダ融合情報ｖを画像説明文推定器Ａのニューラルネットワークに入力する。画像説明部３は、この画像説明文推定器Ａのニューラルネットワークから説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとをそれぞれ出力し、これらの説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとをパラメータ更新部４に出力する。

　ステップＳ１０４では、パラメータ更新部４は、ステップＳ１０３で出力された説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとを受け取り、記憶部２に格納されている画像説明文生成器Ａと、正解文Ｃと、正解位置Ｂと、正解意味役割系列Ｓとを受け取り、説明文推定結果ｃと正解文Ｃとの誤差（画像説明文ロスと称されることもある）、位置推定結果ｂと正解位置Ｂとの誤差（位置推定ロスと称されることもある）、および意味役割推定結果sと正解意味役割系列Ｓとの誤差（意味役割推定ロスと称されることもある）を計算する。

　そして、ステップＳ１０５では、パラメータ更新部４は、（１）説明文推定結果ｃと正解文Ｃとの内容が近付く、または同じになるように、かつ（２）位置推定結果ｂと正解位置Ｂとが近付く、または同じになるように、かつ（３）意味役割推定結果sと正解意味役割系列Ｓとの内容が近付く、または同じになるように、という３つの制約が満たされるように、画像説明文生成器Ａの各種ニューラルネットワークのパラメータ（画像説明文モデルのパラメータ）を更新する。パラメータ更新部４は、パラメータが更新された画像説明文生成器Ａを記憶部２に格納する。

　＜＜推論処理ルーチン＞＞
　次に、推論処理ルーチンについて説明する。図４は、画像処理装置により実行される推論処理ルーチンの一例を示すフローチャートである。　
　この推論処理ルーチンでは、まず、画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとの入力が受け付けられ、これらが融合されてなる融合情報ｗが、画像説明文生成器Ａのニューラルネットワークに入力される。そして、画像説明文生成器Ａのニューラルネットワークから、説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとが出力される。

　そして、説明文推定結果ｃが単語列に変換されてなる出力文ｃ´と、位置推定結果ｂが可視化されてなる位置出力情報ｂ´と、意味役割推定結果ｓから出力文の各単語が推定されてなる出力意味役割s´とがそれぞれ出力される。

　まず、ステップＳ２０１では、融合情報作成部１は、記憶部２からの画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとの入力を受け付け、これらの画像特徴量ｘと、イベント情報ｙと、意味役割情報ｚとが融合されてなる融合情報ｗを作成し、この融合情報ｗを画像説明部３に出力する。

　ステップＳ２０２では、デコーダ融合情報作成部６は、画像説明部３から部分説明文推定結果ｃ´と、部分意味役割推定結果ｓ´とを受け付け、これら受け付けた結果に基づいてデコーダ融合情報ｖを作成し、このデコーダ融合情報ｖを画像説明部３に出力する。

　ステップＳ２０３では、画像説明部３は、ステップＳ２０１で出力された融合情報ｗと、ステップＳ２０２で出力されたデコーダ融合情報ｖと、記憶部２に格納されている画像説明文生成器Ａとをそれぞれ受け取り、これらの受け取った融合情報ｗとデコーダ融合情報ｖとを画像説明文生成器Ａのニューラルネットワークに入力する。

　画像説明部３は、この画像説明文推定器Ａのニューラルネットワークから部分説明文推定結果ｃ´と、部分位置推定結果ｂ´と、部分意味役割推定結果ｓ´とを出力し、上記部分説明文推定結果ｃ´について文生成終了判定処理を行なう。

　ステップＳ２０４では、画像説明部３は、文生成を継続すると判定したとき、上記の部分説明文推定結果ｃ´と、部分位置推定結果ｂ´と、部分意味役割推定結果ｓ´とを画像説明部３に出力する。

　一方で、ステップＳ２０４では、画像説明部３は、文生成を終了すると判定したとき、上記の部分説明文推定結果ｃ´と、部分位置推定結果ｂ´と、部分意味役割推定結果ｓ´とを、それぞれ説明文推定結果ｃと、位置推定結果ｂと、意味役割推定結果sとして出力部５に出力する。

　ステップＳ２０５では、出力部５は、ステップＳ２０３で出力された説明文推定結果ｃと位置推定結果ｂと意味役割推定結果sとを基に、説明文推定結果ｃが単語列に変換されてなる出力文ｃ´と、位置推定結果ｂが可視化されてなる位置出力情報ｂ´と、意味役割推定結果ｓから出力文の各単語が推定されてなる出力意味役割ｓ´をそれぞれ出力する。

　本発明の一実施形態によれば、画像データと、制御信号としてのイベント名と意味役割情報とを入力とし、ニューラルネットワークを用いて、低コストかつ高精度にイベント名と意味役割情報とが制御信号として与えられた画像説明文を生成することができる、という効果が得られる。

　また、本発明の一実施形態によれば、画像データと、制御信号としてのイベント名と意味役割情報とを入力し、上記の非特許文献２に開示されたような手法を用いて、意味役割の領域推定と、意味役割の順番推定と、意味役割からの単語推定とを、単一のニューラルネットワークで同時に推定するニューラルネットワークを学習することができる、という効果も得られる。

　図５は、本発明の一実施形態に係る画像処理装置のハードウエア構成の一例を示すブロック図である。　
　図５に示された例では、上記の実施形態に係る画像処理装置１００は、例えばサーバコンピュータ（server computer）またはパーソナルコンピュータ（personal computer）により構成され、ＣＰＵ等のハードウエアプロセッサ（hardware processor）１１１Ａを有する。そして、このハードウエアプロセッサ１１１Ａに対し、プログラムメモリ（program memory）１１１Ｂ、データメモリ（data memory）１１２、入出力インタフェース（interface）１１３及び通信インタフェース１１４が、バス（bus）１１５を介して接続される。

　通信インタフェース１１４は、例えば１つ以上の無線の通信インタフェースユニット（interface unit）を含んでおり、通信ネットワーク（network）ＮＷとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線ＬＡＮ（Local Area Network）などの小電力無線データ通信規格が採用されたインタフェースが使用される。

　入出力インタフェース１１３には、画像処理装置１００に付設される、利用者などにより用いられる入力デバイス（device）２００および出力デバイス３００が接続される。　
　入出力インタフェース１１３は、キーボード（keyboard）、タッチパネル（touch panel）、タッチパッド（touchpad）、マウス（mouse）等の入力デバイス２００を通じて利用者などにより入力された操作データを取り込むとともに、出力データを液晶または有機ＥＬ（Electro Luminescence）等が用いられた表示デバイスを含む出力デバイス３００へ出力して表示させる処理を行なう。なお、入力デバイス２００および出力デバイス３００には、画像処理装置１００に内蔵されたデバイスが使用されてもよく、また、ネットワークＮＷを介して画像処理装置１００と通信可能である他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。

　プログラムメモリ１１１Ｂは、非一時的な有形の記憶媒体として、例えば、ＨＤＤ（Hard Disk Drive）またはＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリ（non-volatile memory）と、ＲＯＭ等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理等を実行する為に必要なプログラムが格納されている。

　データメモリ１１２は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、ＲＡＭ等の揮発性メモリ（volatile memory）とが組み合わせて使用されたもので、各種処理が行なわれる過程で取得および作成された各種データが記憶される為に用いられる。

　本発明の一実施形態に係る画像処理装置１００は、ソフトウエア（software）による処理機能部として、図１に示される各部、すなわち融合情報作成部１、画像説明部３、パラメータ更新部４、出力部５、およびデコーダ融合情報作成部６を有するデータ処理装置として構成され得る。

　画像処理装置１００の各部によるワークメモリ（working memory）などとして用いられる各情報記憶部および記憶部２は、図５に示されたデータメモリ１１２が用いられることで構成され得る。ただし、これらの構成される記憶領域は画像処理装置１００内に必須の構成ではなく、例えば、ＵＳＢ（Universal Serial Bus）メモリなどの外付け記憶媒体、又はクラウド（cloud）に配置されたデータベースサーバ（database server）等の記憶装置に設けられた領域であってもよい。

　上記の融合情報作成部１、画像説明部３、パラメータ更新部４、出力部５、およびデコーダ融合情報作成部６の各部における処理機能部は、いずれも、プログラムメモリ１１１Ｂに格納されたプログラムを上記ハードウエアプロセッサ１１１Ａにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路（ＡＳＩＣ（Application Specific Integrated Circuit））またはＦＰＧＡ（Field-Programmable Gate Array）などの集積回路を含む、他の多様な形式によって実現されてもよい。

　また、各実施形態に記載された手法は、計算機（コンピュータ）に実行させることができるプログラム（ソフトウエア手段）として、例えば磁気ディスク（フロッピー（登録商標）ディスク（Floppy disk）、ハードディスク（hard disk）等）、光ディスク（optical disc）（ＣＤ－ＲＯＭ、ＤＶＤ、ＭＯ等）、半導体メモリ（ＲＯＭ、ＲＡＭ、フラッシュメモリ（Flash memory）等）等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段（実行プログラムのみならずテーブル（table）、データ構造も含む）を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　　１００…画像処理装置
　　１…融合情報作成部
　　２…記憶部
　　３…画像説明部
　　４…パラメータ更新部
　　５…出力部
　　６…デコーダ融合情報作成部

Claims

　画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付ける入力部と、
　前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、
　を備える画像処理装置。
　前記出力部は、
　　前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する、
　請求項１に記載の画像処理装置。
　前記入力部により入力された画像データ、名称情報、および意味役割情報を融合してなる第１の融合情報を作成する第１の融合情報作成部と、
　前記画像データに写される状況を説明する説明文の正解情報および前記状況を説明する説明文の各単語の意味役割の正解情報を融合してなる第２の融合情報を作成する第２の融合情報作成部と、をさらに備え、
　前記出力部は、
　　前記第１の融合情報作成部により作成された第１の融合情報および前記第２の融合情報作成部により作成された第２の融合情報をニューラルネットワークに入力し、これらの入力の結果に基づいて、前記状況を説明する説明文の各単語の特徴が示される特徴情報を出力し、
　　前記特徴情報に基づいて、前記状況を説明する説明文の推定結果と、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の推定結果と、前記状況を説明する文の各単語の意味役割の推定結果とをそれぞれ出力する、
　請求項１に記載の画像処理装置。
　　画像データに写される状況を説明する説明文の正解情報、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の正解情報、および前記状況を説明する説明文の各単語の意味役割の正解情報と、前記ニューラルネットワークを用いて出力される、前記画像データに写される状況を説明する説明文、前記ニューラルネットワークを用いて出力される、前記画像データにおける、前記状況を説明する説明文の各単語に係る位置、および前記ニューラルネットワークを用いて出力される、前記説明文の各単語の意味役割を示す情報と、に基づいて、
　　前記ニューラルネットワークを用いて出力される、前記画像データに写される状況を説明する説明文が前記説明文の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新し、
　　前記ニューラルネットワークを用いて出力される、前記画像データにおける、前記状況を説明する説明文の各単語に係る位置が前記位置の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新し、
　　前記ニューラルネットワークを用いて出力される、前記説明文の各単語の意味役割を示す情報が前記意味役割の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新する
更新部をさらに備える、
　請求項２に記載の画像処理装置。
　画像処理装置により行なわれる方法であって、
　前記画像処理装置が、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付けることと、
　前記画像処理装置が、前記入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することと、
　を備える画像処理方法。
　前記出力することは、
　　前記入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することを含む、
　請求項５に記載の画像処理方法。
　前記入力された画像データ、名称情報、および意味役割情報を融合してなる第１の融合情報を作成することと、
　　前記画像データに写される状況を説明する説明文の正解情報および前記状況を説明する説明文の各単語の意味役割の正解情報を融合してなる第２の融合情報を作成することと、をさらに備え、
　前記出力することは、
　　前記作成された第１および第２の融合情報をニューラルネットワークに入力し、これらの入力の結果に基づいて、前記状況を説明する説明文の各単語の特徴が示される特徴情報を出力し、
　　前記特徴情報に基づいて、前記状況を説明する説明文の推定結果と、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の推定結果と、前記状況を説明する文の各単語の意味役割の推定結果とをそれぞれ出力する、ことを含む、
　請求項５に記載の画像処理方法。
　請求項１乃至４のいずれか１項に記載の画像処理装置の各部としてプロセッサを機能させる画像処理プログラム。