WO2018180263A1

WO2018180263A1 - 情報処理装置、情報処理方法、及びコンピュータ可読記憶媒体

Info

Publication number: WO2018180263A1
Application number: PCT/JP2018/008445
Authority: WO
Inventors: 有希永井; 小林　達也
Original assignee: Kddi株式会社
Priority date: 2017-03-31
Filing date: 2018-03-06
Publication date: 2018-10-04
Also published as: EP3605400A4; CN110462639B; US11461641B2; US20190362232A1; EP3605400A1; JP6657137B2; CN110462639A; JP2018173843A

Abstract

情報処理装置は、第１ＮＮの複数の層の中から選択した選択層の複数の重みを、第２ＮＮの複数の重みとして設定する手段と、選択層の複数の重みそれぞれを第１グループ又は第２グループに分類する手段と、第１ＮＮの複数の層の各重みについての第１勾配を第１教師データに基づき判定する手段と、第２ＮＮの複数の重みのうちの第１グループに属する重みについての第２勾配を第２教師データに基づき判定する第２判定手段と、選択層の複数の重みのうち、第１グループに属する重みについては、第１勾配と第２勾配と、に基づき更新し、選択層の複数の重みのうち、第２グループに属する重みと、第１ＮＮの複数の層のうちの選択層とは異なる層の重みについては、第１勾配に基づき更新する更新手段と、を備えている。

Description

情報処理装置、情報処理方法、及びコンピュータ可読記憶媒体

　本発明は、情報処理装置、情報処理方法、及びコンピュータ可読記憶媒体に関する。

　近年、ＣＰＵ（Central Processing Unit）及びＧＰＵ（Graphics Processing Unit）の高速化、メモリの大容量化、及び機械学習技術が急速に進んできている。このため、数十万から百万といったオーダーの学習データを用いる機械学習が可能となり、精度の高い識別技術や分類技術が確立されつつある（非特許文献１参照）。

Yangqing Jia, Evan Shelhamer, Jeff Donahue, Sergey Karayev,Jonathan Long, Ross Girshick, Sergio Guadarrama, and Trevor Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the 22nd ACM international conference on Multimedia (pp. 675-678). ACM.

　大量の学習データに基づく機械学習を実行するためには大量の計算コストがかかる。また、大量の学習データを用意すること、及び用意した学習データを機械学習に用いるために加工する前処理にも膨大な労力を要する。一方で、機械学習によって生成された学習モデルはデジタルデータであり、その複製は容易である。さらに、一般に学習モデル生成に用いられた学習データを、学習モデル自体から推測することは難しい。

　このため、学習モデルを生成した者は、その学習モデルが第三者によって不正に利用されたとしても、不正を立証することが難しい。収集した学習データと、学習データに基づいて生成された学習モデルとはそれぞれ労力をかけて取得した価値あるものであり、不正利用から学習モデルを守ることが望まれている。

　本発明の一態様によると、情報処理装置は、第１ニューラルネットワークの複数の層の中から選択した選択層の複数の重みを、第２ニューラルネットワークの複数の重みとして設定する重み設定手段と、前記選択層の複数の重みそれぞれを第１グループ又は第２グループに分類する分類手段と、前記第１ニューラルネットワークの複数の層の各重みについての第１勾配を第１教師データに基づき判定する第１判定手段と、前記第２ニューラルネットワークの複数の重みのうちの前記第１グループに属する重みについての第２勾配を第２教師データに基づき判定する第２判定手段と、前記選択層の複数の重みのうち、前記第１グループに属する重みについては、前記第１判定手段が判定した前記第１勾配と前記第２判定手段が判定した前記第２勾配と、に基づき更新し、前記選択層の複数の重みのうち、前記第２グループに属する重みと、前記第１ニューラルネットワークの複数の層のうちの前記選択層とは異なる層の重みについては、前記第１判定手段が判定した前記第１勾配に基づき更新する更新手段と、を備えている。

　本発明によれば、ニューラルネットワークの出所を特定することができる。

　本発明のその他の特徴及び利点は、添付図面を参照とした以下の説明により明らかになるであろう。なお、添付図面においては、同じ若しくは同様の構成には、同じ参照番号を付す。

畳み込みニューラルネットワークの一般的な機能構成を示す図である。入力データと特徴マップとの畳み込みの関係を説明するための図である。重みフィルタを用いた特徴マップの生成を説明するための図である。Ｎ個の重みフィルタとＮ段の特徴マップとの関係を説明するための図である。一実施形態による情報処理装置が実行する学習処理の概要を説明するための図である。一実施形態による情報処理装置の機能構成を示す図である。一実施形態による透かし用重み設定部による重み設定処理を説明するための図である。一実施形態による重み更新用ベクトルと、マスクデータと、第２ラベルとの関係を示す図である。一実施形態によるマスクデータと第２ラベルとの関係を示す図である。一実施形態による情報処理装置が実行する情報処理のフローチャートである。

＜畳み込みニューラルネットワーク＞
　実施の形態に係る情報処理装置は、ニューラルネットワーク（ＮＮ）のモデルパラメータに透かし情報を埋め込むための装置である。以下では、ニューラルネットワークが、畳み込みニューラルネットワーク（Convolutional Neural Network；ＣＮＮ）であるものとして実施形態の説明を行う。まず畳み込みニューラルネットワークについて簡単に説明する。

　図１は、畳み込みニューラルネットワークの一般的な機能構成を模式的に示す図である。現在、様々な構成のニューラルネットワークが提案されているが、これらの基本構成は共通である。ニューラルネットワークの基本構成は、複数種類の層の重ね合わせ（又はグラフ構造）で表現される。ニューラルネットワークは、入力データに対する出力結果が適切な値になるようにモデルパラメータを学習する。言い換えると、ニューラルネットワークは、入力データに対する出力結果が適切な値になるように定義された損失関数を最小化するようにモデルパラメータを学習する。

　図１において、順伝播型ニューラルネットワークは、入力層（input layer）と、隠れ層（hidden layer）と、出力層（output layer）との３つの層から構成され、入力データは、入力層から出力層へ向けて一方向に伝播する。隠れ層は、グラフ状の複数の層から構成することができる。各層は、複数のユニット（ニューロン）を持つ。各層において、前方層のユニットから後方層のユニットへの入力値に適用するパラメータを、「重み（weight）」と称す。本明細書における学習とは、適切な「重み」を算出することである。

　図１は、畳み込みニューラルネットワークを示している。畳み込みニューラルネットワークは、入力層と、畳み込み層（convolutional layer）と、プーリング層（pooling layer）と、全結合層（full-connected layer）と、出力層とから構成される。図１において、第１層Ｌ１が入力層であり、第２層Ｌ２は畳み込み層である。同様に、第ｎ層Ｌｎが出力層となっている。

　実施の形態に係るニューラルネットワークにおける学習とは、教師データの入力データに対する出力層からの出力値と、当該入力データに対応する正解ラベル（以下、単に、ラベルとも呼ぶ。）との誤差を用いて、各層の重みを最適に更新することを意味する。その誤差を算出するために、「損失関数」（loss function）が定義される。誤差は、「誤差逆伝播法」によって出力層側から入力層側へ向けて次々に伝播され、各層の重みは、少しずつ更新される。最終的に、誤差が小さくなるように、各層の重みを適切な値に調整する収束計算を実行する。具体的には、ニューラルネットワークにおける学習（すなわち、新規のモデルパラメータの生成段階）で、誤差を逆伝播させた勾配によって、モデルパラメータを更新する。

　図２は、入力データと特徴マップとの畳み込みの関係を説明するための図である。図２における処理は、畳み込み層及び全結合層によって実行される。図２に示す例では、入力データに対して１個の重みフィルタをかけることにより、１枚の特徴マップを生成している。図２において、入力データ、重みフィルタ、及び特徴マップのサイズはそれぞれ以下のとおりである。
　　入力データ　：３２×３２×３個の要素
　　重みフィルタ：５×５×３個の要素　（モデルパラメータ）
　　特徴マップ　：２８×２８個の要素

　重みフィルタはＮ個（Ｎは１以上の整数。）分用意され、これがモデルパラメータとなる。すなわち、「重み」とは、Ｎ個の重みフィルタそれぞれの重み（フィルタの要素の値）を意味する。ただし、ここでは、バイアス項は考慮しないものとする。

　図３は、重みフィルタを用いた特徴マップの生成を説明するための図である。図３に示す例では、５×５×３個の要素からなる１個の重みフィルタを入力データにかけ、その各要素の積の和を特徴マップの１個の要素の値とする。そして、入力データに対して同じ重みフィルタを移動させることにより、１枚の特徴マップを生成する。ここで、重みフィルタを移動させる要素の数（移動量）を「ストライド（stride）」と称す。入力データの周囲の縁（ふち）には、要素0を埋めたゼロパディング（zero-padding）の領域を設ける。これによって、入力データの縁の要素にも、同数の重みフィルタをあてることができる。

　図４は、Ｎ個の重みフィルタとＮ段の特徴マップとの関係を説明するための図である。図４に示す例では、重みフィルタの数はＮ個である。図２及び図３は、１個の重みフィルタによって１枚の特徴マップを生成する様子を示している。これに対し、図４に示す例は、Ｎ個の重みフィルタによってＮ段の特徴マップを生成する様子を示している。ニューラルネットワークの学習では、ある層における特徴マップが、次の層における入力データとなる。ニューラルネットワークの学習を実行することにより、損失関数に基づく誤差が出力層側から入力層側へ向けて次々に伝播し、既知の誤差逆伝播法によって各層の重みが更新される。

　＜実施の形態の概要＞
　以上を前提として、実施の形態の概要を述べる。実施の形態に係る情報処理装置は、ニューラルネットワークを用いて目的タスクを達成するための学習モデルを生成すると同時に、その学習モデルに対して電子的な透かしを埋め込むための装置である。

　実施の形態に係る情報処理装置は、ＣＰＵやＧＰＵ等のプロセッサ、ＤＲＡＭ（Dynamic Random Access Memory）等の作業メモリ、及びＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の大容量記憶装置によって構成される。情報処理装置は、ＰＣ（Personal Computer）やワークステーション、サーバ等の単一の装置であってもよいし、クラウドサーバのように複数の装置から構成されてもよい。

　図５は、実施の形態に係る情報処理装置が実行する学習処理の概要を説明するための模式図である。実施の形態に係る情報処理装置は、従来のニューラルネットワークと同様に、目的タスク学習用の第１データＤ１及び第１ラベルＴ１を含む第１教師データに基づいて、複数の層を備える第１ニューラルネットワークＮ１の各層Ｌの各重みについて勾配（以下、第１勾配と呼ぶ。）を求める。例えば、「猫検出」、「山検出」、「自動車検出」のように複数の目的タスクが存在する場合、各目的タスク用の第１データＤ１と、各第１データＤ１それぞれに対応する第１ラベルＴ１を割り当てたデータセットが、第１教師データとなる。

　また、実施の形態に係る情報処理装置は、第１ニューラルネットワークを構成する層Ｌの中から選択した１又はそれ以上の層Ｌから構成される第２ニューラルネットワークＮ２も備える。実施の形態に係る情報処理装置は、透かし検出用の第２データＤ２及び第２ラベルＴ２を含む第２教師データに基づいて、第２ニューラルネットワークＮ２における層Ｌの各重みについて勾配（以下、第２勾配と呼ぶ。）を求める。なお、第２教師データは、１つの第２データＤ２と、それに対応する第２ラベルＴ２とのペアである。第２ラベルＴ２が透かしである。したがって、埋め込む透かしを異ならせる場合、異なるペアを使用する。図５は、第１ニューラルネットワークＮ１における第２層Ｌ２が、第２ニューラルネットワークＮ２を構成する層として選択された場合の例を示している。

　詳細は後述するが、実施の形態に係る情報処理装置は、第１ニューラルネットワークＮ１から選択した層Ｌ（本例では第２層Ｌ２）の重みフィルタを１次元に展開して重み更新用ベクトルＷを生成する。実施の形態に係る情報処理装置は、透かし検出用の第２データＤ２と、生成した重み更新用ベクトルＷとに対して所定の演算を行って第２ニューラルネットワークＮ２の出力である第２出力Ｏ２を求める。例えば、重み更新用ベクトルＷがＫ個の重みを含むベクトルであり、第２ラベルＴ２をＢビットとする。この場合、第２データＤ２は、Ｂ行Ｋ列の行列とすることができる。そして、第２ニューラルネットワークＮ２は、この行列と重み更新用ベクトルＷとの積を求めて、Ｂビットの第２出力Ｏ２を求める。なお、Ｂ行Ｋ列の行列の要素の値と、第２ラベルＴ２の各ビットの値は、任意に選択することできる。実施の形態に係る情報処理装置は、第２出力Ｏ２と、第２ラベルＴ２との第２誤差Ｅ２に基づいて、誤差逆伝搬法により、重み更新用ベクトルの各重みについて第２勾配を求める。

　ここで、実施の形態に係る情報処理装置は、第２ニューラルネットワークＮ２における重み更新用ベクトルＷに対して、マスクデータＭを設定する。マスクデータＭは、重み更新用ベクトルＷの各重みについて、第２勾配を強制的に０とするか否か、或いは、第２勾配を求めるか否かを示している。つまり、マスクデータは、重み更新用ベクトルＷの重みそれぞれが第１グループに属するか第２グループに属するかを示すデータである。ここで、第１グループに属する重みは第２勾配を求める重みであり、第２グループに属する重みは第２勾配を求めない（或いは、第２勾配を強制的に０にする）重みである。図５に示す例では、マスクデータＭにおいて黒色の矩形に白抜きの×印で示す部分が、第２勾配を求めない箇所である。

　実施の形態に係る情報処理装置は、透かし検出用の第２ラベルＴ２が異なる場合、すなわち埋め込む透かしが異なる場合、重み更新を禁止する箇所が異なるマスクデータＭを設定する。これにより、実施の形態に係る情報処理装置は、第１ニューラルネットワークを構成する層の中から選択した１又はそれ以上の層に対し、異なるマスクデータの数だけ異なる透かしを埋め込むことができる。

　上述した様に、第１ニューラルネットワークＮ１については、総ての層の総ての重みについて第１教師データに基づき第１勾配が算出される。また、第２ニューラルネットワークＮ２を構成する層として選択された第２層Ｌ２の複数の重みのうち、マスクデータＭが第１グループであると示している重みについては、第２ニューラルネットワークＮ２と第２教師データに基づき第２勾配が求められる。実施の形態に係る情報処理装置は、第１ニューラルネットワークＮ１の各層Ｌの重みのうち、第１勾配のみが求められた重みについては、第１勾配のみにより更新を行う。一方、第１ニューラルネットワークＮ１の複数の層のうち、第２ニューラルネットワークを構成する層として選択された層の重みのうち、第１勾配と第２勾配が求められた重みについては、第１勾配及び第２勾配に基づき、より詳しくは、第１勾配と第２勾配との和に基づき更新を行う。そして、第１ニューラルネットワークＮ１の各層Ｌの重みを更新すると、更新後の重みに基づき、再度、第２ニューラルネットワークＮ２の重み更新用ベクトルＷを求める。実施の形態に係る情報処理装置は、第２ニューラルネットワークＮ２の重み更新用ベクトルＷを求めることと、第１勾配の算出と、第２勾配の算出と、第１ニューラルネットワークＮ１の各重みの更新を繰り返すことで、目的タスクのための学習と透かし埋め込みのための学習とを同時に実現する。なお、最初に第２ニューラルネットワークＮ２の重み更新用ベクトルＷを求めた後、重み更新用ベクトルＷの重みについても、当該重みについて求めた第２勾配と、第１ニューラルネットワークＮ１において当該重みについて求めた第１勾配との和に基づき更新する構成とすることができる。この場合、実施の形態に係る情報処理装置は、第１勾配の算出と、第２勾配の算出と、第１ニューラルネットワークＮ１及び第２ニューラルネットワークＮ２の各重みの更新を繰り返すことになる。なお、以下では、前者の方法、つまり、第１ニューラルネットワークＮ１の重みのみを更新し、更新後、再度、第２ニューラルネットワークＮ２の重み更新用ベクトルＷを求めるものとする。なお、この場合、第２ニューラルネットワークＮ２の重み更新用ベクトルＷの元となる第１ニューラルネットワークの層（本例では、第２層Ｌ２）は、繰り返しにおいて同じものとする。

＜実施の形態に係る情報処理装置の機能構成＞
　以下、実施の形態に係る情報処理装置についてより詳細に説明する。図６は、実施の形態に係る情報処理装置１の機能構成を模式的に示す図である。情報処理装置１は、記憶部１０と制御部２０とを備える。制御部２０は、透かし用重み設定部２１、マスク設定部２２、勾配判定部２３及び重み更新部２４を備える。

　記憶部１０は、情報処理装置１を実現するコンピュータのＢＩＯＳ（Basic Input Output System）等を格納するＲＯＭ（Read Only Memory）や情報処理装置１の作業領域となるＲＡＭ（Random Access Memory）、ＯＳ（Operating System）やアプリケーションプログラム、当該アプリケーションプログラムの実行時に参照される種々の情報を格納するＨＤＤやＳＳＤ等の大容量記憶装置である。記憶部１０は、第１教師データ、第２教師データ、第１ニューラルネットワークＮ１の構成を示す情報、例えば、第１ニューラルネットワークＮ１の各重みフィルタの初期値等の情報を保持している。

　制御部２０は、情報処理装置１のＣＰＵやＧＰＵ等のプロセッサであり、記憶部１０に記憶されたプログラムを実行することによって透かし用重み設定部２１、マスク設定部２２、勾配判定部２３及び重み更新部２４として機能する。

　透かし用重み設定部２１は、第１ニューラルネットワークＮ１を構成する層Ｌの中から選択した１又はそれ以上の層Ｌの重みを、透かし埋め込みタスク用の第２ニューラルネットワークＮ２を構成する層Ｌの重みとして設定する。ここで、透かし用重み設定部２１は、第１ニューラルネットワークＮ１を構成する１又はそれ以上の層Ｌのうち、第１ニューラルネットワークＮ１の入力層Ｌに近い側に存在する層Ｌを優先して選択する。これにより、実施の形態に係る情報処理装置１が生成した学習モデルが事後的にファインチューニングによって改変されたとしても、透かしを埋め込んだ層Ｌが変更される可能性を減らすことができる。一般に、出力層に近い層Ｌであるほど、ファインチューニングによって改変される確率が高まるからである。

　図７は、実施の形態に係る透かし用重み設定部２１による重み設定処理を説明するための図である。具体的には、図７は、５×５×３個の要素からなる重みフィルタに基づいて、透かし用重み設定部２１が重み更新用ベクトルＷを生成する過程を示している。

　参照符号５０は、５×５×３個の要素からなる重みフィルタＦを示している。透かし用重み設定部２１は、５×５×３個の要素からなる重みフィルタを、まず縦５、横５合わせて２５個の要素からなる３つの２次元重みフィルタ（Ｆ１、Ｆ２、及びＦ３）に分割する。参照符号５１は、５×５×３個の要素からなる重みフィルタを分割して得られる第１重みフィルタＦ１、第２重みフィルタＦ２、及び第３重みフィルタＦ３を示している。

　続いて、透かし用重み設定部２１は、第１重みフィルタＦ１、第２重みフィルタＦ２、及び第３重みフィルタＦ３それぞれを、５×５＝２５個の要素からなる３つの列ベクトル（Ｖ１、Ｖ２、及びＶ３）に展開する。参照符号５２は、第１重みフィルタＦ１、第２重みフィルタＦ２、及び第３重みフィルタＦ３それぞれを展開して得られる第１列ベクトルＶ１、第２列ベクトルＶ２、及び第３列ベクトルＶ３を模式的に示す図である。

　最後に、透かし用重み設定部２１は、第１列ベクトルＶ１、第２列ベクトルＶ２、及び第３列ベクトルＶ３を順に連結して２５×３＝７５個の要素からなる一つの列ベクトルＶを生成し、これを重み更新用ベクトルＷとする。ここで、図４を参照して説明したように、透かし用重み設定部２１が選択した層ＬがＮ個の重みフィルタＮを備える場合、透かし用重み設定部２１は、各フィルタを同様に列ベクトルに展開したうえで順番につなげ、７５×Ｎ個の要素からなる新たな列ベクトルを生成する。透かし用重み設定部２１は、生成した列ベクトルを重み更新用ベクトルＷとする。

　マスク設定部２２は、マスクデータＭを設定する。図８Ａは、重み更新用ベクトルＷと、マスクデータＭと、第２ラベルＴ２との関係を示している。図８Ａに示すように、マスクデータＭの形状及びサイズは、重み更新用ベクトルＷと、同じである。図８Ａに示す重み更新用ベクトルＷにおいて、一つの矩形は一つの重みを示している。

　マスクデータＭにおいて、白抜きの矩形は、対応する重みが第１グループであることを示し、斜線を付した矩形は、対応する重みが第２グループであることを示している。なお、第１グループの重みは第２勾配を求める重みであり、第２グループの重みは第２勾配を求めない、或いは、強制的に０にする重みである。なお、第１グループに属する重みの数は、例えば、第２ラベルＴ２のビット数と同じとする。図８Ａに示す例では、重み更新用ベクトルＷの上部の６個の重みについては、第２勾配と、第１ニューラルネットワークの対応する重みについての第１勾配との和に基づき更新されることになる。一方、重み更新用ベクトルＷの上部の６個以外の重みについては、第２勾配を求めない、或いは、第２勾配を強制的に０とするため、第１ニューラルネットワークの対応する重みについての第１勾配のみに基づき更新されることになる。第２ラベルＴ２のビット長は、重み更新用ベクトルＷの長さ、埋め込むべき透かしの数、及び透かしデータの複雑性等を勘案して定めればよい。

　図８Ｂは、３つの異なるマスクデータＭと、それらに対応する３つの異なる第２ラベルＴ２を示す図である。より具体的には、図８Ｂは、第１マスクデータＭ１、第２マスクデータＭ２、及び第３マスクデータＭ３と、各マスクデータＭに対応する第２ラベルＴ２ａ、第２ラベルＴ２ｂ、及び第２ラベルＴ２ｃを示している。この様に、マスク設定部２３は、第２教師データが異なると、異なるマスクデータＭを設定する。図８Ｂに示すように、第１マスクデータＭ１、第２マスクデータＭ２、及び第３マスクデータＭ３が示す第１グループの重みは重複しない。マスク設定部２２は、異なる第２ラベルＴ２（すなわち、異なる透かし検出用の第２データＤ２）を学習する際には、異なるマスクデータＭを設定する。この構成により、第１ニューラルネットワークＮ１に、第２ラベルＴ２ａをまず埋め込み、その後、第１ニューラルネットワークＮ１のバージョンを更新する際に、第２ラベルＴ２ｂを埋め込むことができる。

　勾配判定部２３は、第１ニューラルネットワークＮ１の総ての層の各重みについて第１教師データに基づき第１勾配を求める。また、勾配判定部２３は、第２ニューラルネットワークＮ２の重み更新用ベクトルＷのうち、マスクデータが第１グループであると示している重みについて第２勾配を求める。或いは、勾配判定部２３は、第２ニューラルネットワークＮ２の重み更新用ベクトルＷの各重みについて第２勾配を求め、その後、第２グループの重みについては第２勾配を強制的に０とする。重み更新部２４は、第１ニューラルネットワークＮ１の複数の層の各重みのうち、第１勾配のみが求められている重みについては第１勾配に基づき更新を行う。一方、重み更新部２４は、第１ニューラルネットワークＮ１の複数の層の各重みのうち、第１勾配と第２勾配の両方が求められている重みについては第１勾配と第２勾配とに基づき更新を行う。第１ニューラルネットワークＮ１の更新後の重みは、透かし用重み設定部２１に通知され、透かし用重み設定部２１は、第１ニューラルネットワークＮ１の更新後の重みに基づき重み更新用ベクトルＷを生成する。以後、この処理が繰り返される。なお、繰り返しにおいて、透かし用重み設定部２１とマスク設定部２２の処理は同じである。つまり、透かし用重み設定部２１が重み更新用ベクトルＷを生成するために使用する第１ニューラルネットワークＮ１の層と、当該層の重み更新用ベクトルＷへの展開方法は同じである。また、マスク設定部２２が生成するマスクデータＭは同じである。

　ここで、勾配判定部２３は、マスクデータＭが第１グループであると示している重み更新用ベクトルＷの重みに対応する、第１ニューラルネットワークＮ１の重みについての第１勾配を強制的に０（或いは、第１勾配を求めない）としても良い。この場合、第１勾配を強制的に０とする（或いは、第１勾配を求めない）第１ニューラルネットワークＮ１の重みは、第２勾配のみより更新され、よって、目的タスクの学習に寄与せずに透かしの埋め込みのためにのみ用いられることになる。目的タスクの学習に寄与する重みが減少する分、第１ニューラルネットワークＮ１の学習能力が減少することになるが、透かし用重み設定部２１が選択した層Ｌよりも出力側に十分な数の層があれば、目的タスクの実質的な影響は少ないと考えられる。むしろ、当該重みを透かしの埋め込み専用に割り当てることになり、透かし埋め込みの信頼性を向上させることができる。

　また、第２ニューラルネットワークＮ２の出力である第２出力Ｏ２は、透かし検出用の第２データＤ２と、生成した重み更新用ベクトルＷとに対して所定の演算を行って求めるものとした。このとき、マスクデータＭが第２グループであると示している重み更新用ベクトルＷの重みについては、その値が０であるものとして第２データＤ２との演算を行う構成とすることができる。この場合には、第２勾配を求める際にも、第２グループの重みを０にして、第２データＤ２との演算を行う。第２グループの重みは、第１勾配のみにより更新され、第２ラベルＴ２の生成には寄与しない。したがって、第２グループの重みを０として演算を行うことで、第２出力Ｏ２を第２ラベルＴ２に近づけることができる。

　＜情報処理装置１が実行する情報処理の処理フロー＞
　図９は、実施の形態に係る情報処理装置１が実行する情報処理の流れを説明するためのフローチャートである。本フローチャートにおける処理は、例えば情報処理装置１が起動したときに開始する。

　制御部２０は、記憶部１０から目的タスク学習用の第１データＤ１及び第１ラベルＴ１を読み出して取得する（Ｓ２）。制御部２０は、記憶部１０から透かし検出用の第２データＤ２及び第２ラベルＴ２を読み出して取得する（Ｓ４）。

　透かし用重み設定部２１は、第１ニューラルネットワークＮ１を構成する層Ｌの中から選択した１又はそれ以上の層Ｌの重みを、透かし埋め込みタスク用の第２ニューラルネットワークＮ２を構成する層Ｌの重みとして選択する（Ｓ６）。マスク設定部２２は、マスクデータＭを設定する（Ｓ８）。

　勾配判定部２３は、第２ニューラルネットワークＮ２の出力と透かし検出用ラベルの誤差である第２誤差Ｅ２を最小化するように、重み更新用ベクトルＷの第１グループの重みについて第２勾配を求める。さらに、勾配判定部２３は、第１ニューラルネットワークＮ１の出力と第１ラベルＴ１との誤差である第１誤差Ｅ１を最小化するように、第１ニューラルネットワークＮ１の各重みについて第１勾配を求める。重み更新部２４は、上述した様に、第１ニューラルネットワークＮ１の複数の層それぞれの重みを更新する。（Ｓ１２）。

　情報処理装置１は、第１誤差Ｅ１と第２誤差Ｅ２とのそれぞれが所定の閾値以下となるまで、図９の処理を繰り返す。第１誤差Ｅ１と第２誤差Ｅ２とのそれぞれが所定の閾値以下となると、本フローチャートにおける処理は終了する。

＜情報処理装置１が奏する効果＞
　例えば、あるニューラルネットワークが使用している重みフィルタから図７で説明した様に重み更新ベクトルＷを生成し、この重み更新ベクトルＷと第２データＤ２とに対して第２ニューラルネットワークＮ２で定義された所定の演算を行って第２出力Ｏ２を求める。この第２出力Ｏ２と第２ラベルＴ２とを比較することで、あるニューラルネットワークの出所を特定することができる。具体的には、例えば、第２出力Ｏ２と第２ラベルＴ２との対応する要素の差が総て閾値以内であると、ニューラルネットワークは、透かしである第２ラベルＴ２が埋め込まれたものと判定することができる。また、マスク設定部２２は、透かし検出用の第２データＤ２及び第２ラベルＴ２を含む第２教師データに対応付けて、マスクデータＭを設定するので、複数の透かしデータを埋め込むことができる。これにより、例えば、学習モデルのバージョンや権利保有者毎に異なる透かしを学習モデルに挿入できる。

　また、上記では、目的タスクとして教師あり学習について説明したが、目的タスクとしては教師あり学習以外の学習方法（例えば、強化学習、教師なし学習、半教師あり学習等）において本手法を適用し学習させてもよい。

　本発明は上記実施の形態に制限されるものではなく、本発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、本発明の範囲を公にするために、以下の請求項を添付する。

　本願は、２０１７年３月３１日提出の日本国特許出願特願２０１７－０７１８７４を基礎として優先権を主張するものであり、その記載内容の全てを、ここに援用する。

Claims

　第１ニューラルネットワークの複数の層の中から選択した選択層の複数の重みを、第２ニューラルネットワークの複数の重みとして設定する重み設定手段と、
　前記選択層の複数の重みそれぞれを第１グループ又は第２グループに分類する分類手段と、
　前記第１ニューラルネットワークの複数の層の各重みについての第１勾配を第１教師データに基づき判定する第１判定手段と、
　前記第２ニューラルネットワークの複数の重みのうちの前記第１グループに属する重みについての第２勾配を第２教師データに基づき判定する第２判定手段と、
　前記選択層の複数の重みのうち、前記第１グループに属する重みについては、前記第１判定手段が判定した前記第１勾配と前記第２判定手段が判定した前記第２勾配と、に基づき更新し、前記選択層の複数の重みのうち、前記第２グループに属する重みと、前記第１ニューラルネットワークの複数の層のうちの前記選択層とは異なる層の重みについては、前記第１判定手段が判定した前記第１勾配に基づき更新する更新手段と、
を備える、情報処理装置。
　前記第１判定手段は、前記第１ニューラルネットワークの前記選択層の複数の重みのうち、前記第１グループに属する重みについては、前記第１勾配を０にする、請求項１に記載の情報処理装置。
　前記分類手段は、前記第２教師データに応じて前記選択層の複数の重みそれぞれを前記第１グループ又は前記第２グループに分類し、
　異なる前記第２教師データに対して前記第１グループが示す前記選択層の重みは重複しない、請求項１又は２に記載の情報処理装置。
　前記重み設定手段は、前記第１ニューラルネットワークの複数の層のうち、前記第１ニューラルネットワークの入力層に近い層を優先して前記選択層として選択する、請求項１から３のいずれか一項に記載の情報処理装置。
　前記第２判定手段は、前記第２ニューラルネットワークの複数の重みのうち、前記第２グループに属する重みについてはその値を０として前記第２勾配を判定する、請求項１から４のいずれか一項に記載の情報処理装置。
　プロセッサが、
　第１ニューラルネットワークの複数の層の中から選択層を選択することと、
　前記選択層を、第２ニューラルネットワークを構成する層として設定することと、
　前記選択層の複数の重みそれぞれを第１グループ又は第２グループに分類することと、
　前記第１ニューラルネットワークの複数の層の各重みについての第１勾配を第１教師データに基づき判定することと、
　前記第２ニューラルネットワークを構成する前記選択層の複数の重みのうち、前記第１グループに属する重みについての第２勾配を第２教師データに基づき判定することと、
　前記選択層の複数の重みのうち、前記第１グループに属する重みについては、前記第１勾配と前記第２勾配と、に基づき更新し、前記選択層の複数の重みのうち、前記第２グループに属する重みと、前記第１ニューラルネットワークの複数の層のうちの前記選択層とは異なる層の重みについては、前記第１勾配に基づき更新することと、
を実行する、情報処理方法。
　プログラムを格納するコンピュータ可読記憶媒体であって、
　前記プログラムは、１つ以上のプロセッサで実行されると、前記１つ以上のプロセッサに、
　第１ニューラルネットワークの複数の層の中から選択層を選択することと、
　前記選択層を、第２ニューラルネットワークを構成する層として設定することと、
　前記選択層の複数の重みそれぞれを第１グループ又は第２グループに分類することと、
　前記第１ニューラルネットワークの複数の層の各重みについての第１勾配を第１教師データに基づき判定することと、
　前記第２ニューラルネットワークを構成する前記選択層の複数の重みのうち、前記第１グループに属する重みについての第２勾配を第２教師データに基づき判定することと、
　前記選択層の複数の重みのうち、前記第１グループに属する重みについては、前記第１勾配と前記第２勾配と、に基づき更新し、前記選択層の複数の重みのうち、前記第２グループに属する重みと、前記第１ニューラルネットワークの複数の層のうちの前記選択層とは異なる層の重みについては、前記第１勾配に基づき更新することと、
を実行させる、コンピュータ可読記憶媒体。