WO2019130974A1

WO2019130974A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2019130974A1
Application number: PCT/JP2018/044108
Authority: WO
Inventors: 紘士飯田; 慎吾高松
Original assignee: ソニー株式会社
Priority date: 2017-12-25
Filing date: 2018-11-30
Publication date: 2019-07-04
Also published as: EP3588392A1; EP3588392A4; JPWO2019130974A1; US20200050932A1; JP7226320B2; CN110326005A

Abstract

【課題】予測モデルによる予測の根拠をより適切に特定することが可能な仕組みを提案する。【解決手段】非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、を備える情報処理装置。

Description

情報処理装置、情報処理方法及びプログラム

　本開示は、情報処理装置、情報処理方法及びプログラムに関する。

　近年、ニューラルネット等の非線形モデルにより構成された予測モデル（換言すると、認識モデル）を用いた予測が様々な分野で活用されている。非線形モデルにより構成された予測モデルは、内部の挙動が分からないブラックボックスとなっている。そのため、予測の根拠を特定すること、例えば予測モデルに入力されるデータの特徴量のうちどの特徴量がどれだけ予測結果に寄与しているのかを特定することが困難であった。

　特徴量の寄与度に関し、下記特許文献１には、教師データに含まれる説明変数から予測モデルの学習に用いる説明変数を抽出する際に、説明変数ごとに算出した寄与度の大きさに基づいて、説明変数を抽出する技術が開示されている。

特開２０１７－１２３０８８号公報

　しかし、上記特許文献１に開示された技術は、予測モデルの学習精度を高める方向に寄与する説明変数、換言すると正に寄与する特徴量を抽出するに過ぎなかった。即ち、上記特許文献１に開示された技術は、予測モデルに入力されるデータの特徴量の全てが正に寄与することが前提条件とされており、予測の根拠を特定する技術としては不十分であった。

　そこで、本開示では、予測モデルによる予測の根拠をより適切に特定することが可能な仕組みを提案する。

　本開示によれば、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、を備える情報処理装置が提供される。

　また、本開示によれば、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出すること、を含む、プロセッサにより実行される情報処理方法が提供される。

　また、本開示によれば、コンピュータを、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、として機能させるためのプログラムが提供される。

　以上説明したように本開示によれば、予測モデルによる予測の根拠をより適切に特定することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

非線形モデルのブラックボックス性を説明するための図である。比較例の概要を説明するための図である。比較例に係るアルゴリズムを説明するための図である。予測結果に対し負に寄与する特徴量が存在する予測問題を説明するための図である。図４に示した予測問題を比較例に係る情報処理装置が解く場合を説明するための図である。図４に示した予測問題を提案技術により解く場合を説明するための図である。本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。本実施形態に係る情報処理装置による特徴量抽出処理のアルゴリズムを説明するための図である。本実施形態に係る第１の寄与度算出方法を説明するための図である。本実施形態に係る第２の寄与度算出方法を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係るＵＩの一例を説明するための図である。本実施形態に係る情報処理装置により実行される予測根拠の提示処理の流れの一例を示すフローチャートである。本変形例に係るＵＩの一例を説明するための図である。本変形例に係る文章生成の流れを概略的に示す図である。本変形例に係る文章生成モデルの詳細を説明するための図である。本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　　１．はじめに
　　２．構成例
　　３．技術的特徴
　　４．ユースケース
　　５．変形例
　　６．ハードウェア構成例
　　７．まとめ

　＜＜１．はじめに＞＞
　（１）非線形モデルのブラックボックス性
　図１は、非線形モデルのブラックボックス性を説明するための図である。図１に示すように、予測モデル１０は、入力データ２０が入力されると、出力データ３０を出力する。例えば、入力データ２０として画像が入力されると、出力データ３０として当該画像は何が写っている画像かを示す情報が出力される。また、入力データ２０として文書が入力されると、出力データ３０として当該文書は何のカテゴリの文書かを示す情報が出力される。また、入力データ２０としてユーザ情報が入力されると、出力データ３０として当該ユーザ情報に対応するユーザは何の商品を購入するかを示す情報が出力される。

　予測モデル１０は、入力データと当該入力データが入力された場合に出力すべき出力データとの組み合わせを複数含む教師データに基づいて、予め学習される。予測モデル１０が非線形モデルにより構成される場合、予測モデル１０は、内部の挙動が分からないブラックボックスとなる。そのため、予測モデル１０による予測の根拠を特定することは困難である。そのような非線形モデルの一例として、ニューラルネットが挙げられる。

　ニューラルネットは、典型的には、入力層、中間層及び出力層の３種の層から成り、各層に含まれるノード同士がリンクで接続されたネットワーク構造を有する。入力層に入力データが入力されると、入力層から中間層へ、中間層から出力層への順に、ノードにおける演算とリンクにおける重み付けとが行われ、出力層から出力データが出力される。ニューラルネットのうち、所定数以上の層を有するものは、ディープラーニングとも称される。

　ニューラルネットは、任意の関数を近似できることが知られている。ニューラルネットは、バックプロパゲーション等の計算手法を用いることで、教師データに合うネットワーク構造を学習することができる。そのため、ニューラルネットにより予測モデルを構成することにより、予測モデルは、人が理解できる範囲内で設計される、という表現能力の制約から解放される。一方で、予測モデルは、人が理解できる範囲を超えて設計され得る。その場合、予測モデルが何を根拠にして予測を行っているかを理解するは困難である。

　（２）比較例
　以下では、図２及び図３を参照しながら、比較例として、正に寄与する特徴量のみを予測の根拠として特定する技術を説明する。なお、本明細書において、正に寄与するとは、予測モデルにより予測される予測確率を向上させることを意味し、負に寄与するとは、予測モデルにより予測される予測確率を低下させることを意味するものとする。

　図２は、比較例の概要を説明するための図である。図２に示した予測モデル１１は、非線形モデルにより構成された画像認識器である。予測モデル１１は、画像が入力されると、何が写っている画像かを示す情報を出力する。例えば、予測モデル１１は、犬の画像２１Ａを入力されると、犬が写った画像であることを示す情報３１Ａを出力する。予測モデル１１に、犬の画像２１Ａのうち一部の領域を隠した画像を入力すると、予測結果が変わり得る。比較例に係る情報処理装置は、隠す領域を逐次的に変更しながら予測モデル１１に入力して、予測モデル１１に画像２１Ａを入力したときと予測結果が変わらない領域を探索する。そして、比較例に係る情報処理装置は、探索された領域を画像２１Ａから隠して残る領域を、予測の根拠として出力する。例えば、探索の過程で、画像２１Ａのうち犬が写っていない部分を隠した画像２１Ｂが入力された場合に、画像２１Ａが入力された場合と同様に、犬が写った画像であることを示す情報３１Ｂが出力されたものとする。そうすると、比較例に係る情報処理装置は、画像２１Ｂを、予測の根拠として出力する。

　図３は、比較例に係るアルゴリズムを説明するための図である。まず、比較例に係る情報処理装置は、画像２１Ａをｍ個の特徴量に変換する。特徴量は、例えば画像２１Ａに含まれる各々の画素の画素値である。次いで、比較例に係る情報処理装置は、各々の特徴量に対し重みｗを適用し、予測モデル１１に入力することで、出力データ３１として０以上１以下の予測確率を得る。ここでの予測確率とは、入力された画像に犬が写っていると予測される確率である。

　重みｗは、０以上１以下（０≦ｗ≦１）の値をとり、予測モデル１３による予測結果に正に寄与する特徴量を残し、他を除去するためのマスクとして機能する。図３に示すように、重みｗにより、特徴量の一部がマスクされ、残った特徴量が予測モデル１１に入力される。具体的には、予測モデル１１に入力されるデータは、画像２１Ａのうち一部の領域が隠された画像２１Ｂとなる。重みｗにより正に寄与する特徴量がマスクされずに残るほど、即ち犬が写った領域がマスクされずに残るほど、入力された画像に犬が写っていると予測される確率は高くなる。

　そこで、比較例に係る情報処理装置は、予測確率を最大化する重みｗを求める。例えば、比較例に係る情報処理装置は、下記の数式（１）に示す損失関数を最小化するｗを探索する。

　なお、ｆは予測モデルである。

　上記数式（１）は、重みｗが適用された入力データｘが予測モデルｆに入力された場合の予測確率が大きいほど、換言すると、重みｗが適用された入力データｘが予測モデルｆによる予測結果に正に寄与するほど小さな値となる。従って、重みｗによるマスクにより除去されずに残った特徴量が正に寄与する特徴量であるほど、さらに当該特徴量が正に寄与する寄与度が大きいほど、損失が小さくなる。比較例に係る情報処理装置は、探索した重みｗによるマスクにより除去されずに残った特徴量を、予測の根拠として特定する。

　ただし、比較例に係る情報処理装置は、下記の数式（２）に示す制約条件下で上記数式（１）に示す損失関数を最小化する。

　上記数式（２）に示す制約条件は、重みｗのユーグリッドノルムが所定値ｃ以下であること、換言すると特徴量の数が閾値以下であることである。本制約条件により、抽出される特徴量の数が制限されるので、より寄与度の高い特徴量を抽出することが可能となる。

　上記数式（１）に示す損失関数を最小化する重みｗは、予測確率を最大化する重みｗである。そのため、比較例では、予測確率の向上に対し正に寄与する特徴量のみが、予測の根拠として特定されることとなる。しかし、予測モデルに入力されるデータの特徴量の全てが必ずしも正に寄与するとは限らない。予測モデルに入力されるデータの特徴量には、予測結果に対し負に寄与する特徴量も存在し得る。

　以下では、図４及び図５を参照して、予測結果に対し負に寄与する特徴量が存在する場合に、比較例では予測の根拠を特定することが困難になることについて説明する。

　図４は、予測結果に対し負に寄与する特徴量が存在する予測問題を説明するための図である。図４に示した予測モデル１２は、ユーザ情報が入力されると、当該ユーザ情報に対応するユーザが金融商品を購入する確率を出力する。入力されるユーザ情報は、年齢、性別、職業、家族構成、居住地、貯蓄額、家賃、借金及び趣味といった複数のデータ項目のデータを含む項目型データを含む。年齢が２４才である、といったデータ項目ごとのデータが、特徴量である。例えば、年齢が２４才、性別が男性、職業が公務員、家族構成が妻と子供一人、居住地が都市部、貯蓄額が４００万円、家賃が７万円、借金が３００万円、趣味が旅行であるユーザのユーザ情報が入力データ２２Ａとして入力されると、金融商品を購入する確率が３０％であるとする出力データ３２Ａが出力される。

　図５は、図４に示した予測問題を比較例に係る情報処理装置が解く場合を説明するための図である。比較例に係る情報処理装置は、予測確率の向上に対し正に寄与する特徴量を抽出する。従って、年齢が２４才、家族構成が妻と子供一人、貯蓄額が４００万円であるといった、金融商品を購入する確率を向上させる特徴量のみが抽出されることとなる。図５に示すように、このような抽出された特徴量が入力データ２２Ｂとして入力されると、金融商品を購入する確率が８０％であるとする出力データ３２Ｂが出力されてしまう。比較例では、金融商品を購入する確率を低下させる、即ち負に寄与する特徴量が重みｗにより隠されてしまい、正に寄与する特徴量のみが残ってしまうためである。この８０％という予測確率は、図４に示した、全てのユーザ情報が入力された場合に出力される予測確率である３０％とかけ離れている。従って、比較例により抽出される特徴量は、予測の根拠として不十分であると言える。

　そこで、本開示では、上記事情を一着眼点とし、予測モデルによる予測の根拠をより適切に特定することが可能な仕組みを提案する。具体的には、正に寄与する特徴量だけでなく、負に寄与する特徴量をも、予測の根拠として特定することが可能な技術を提案する。

　（３）提案技術の概要
　図６は、図４に示した予測問題を提案技術により解く場合を説明するための図である。提案技術では、予測確率の向上に対し正に寄与する特徴量と予測確率の向上に対し負に寄与する特徴量とが抽出される。具体的には、年齢が２４才、家族構成が妻と子供一人、貯蓄額が４００万円であるといった、金融商品を購入する確率を向上させる特徴量と、借金が３００万円で趣味が旅行であるといった、金融商品を購入する確率を低下させる特徴量とが抽出される。図６に示すように、提案技術により抽出された特徴量が入力データ２２Ｃとして入力されると、金融商品を購入する確率が３０％であるとする出力データ３２Ｃが出力される。この３０％という予測確率は、図４に示した、全てのユーザ情報が入力された場合に出力される予測確率である３０％と同一である。従って、提案技術により抽出される特徴量は、予測の根拠として十分であると言える。このように、提案技術は、ユーザ情報のうち、予測に寄与しない特徴量を隠し、予測に寄与する特徴量を適切に抽出することが可能である。

　以下、提案技術について詳しく説明する。

　＜＜２．構成例＞＞
　図７は、本開示の一実施形態に係る情報処理装置の論理的な構成の一例を示すブロック図である。図７に示すように、本実施形態に係る情報処理装置１００は、入力部１１０、出力部１２０、記憶部１３０及び制御部１４０を備える。

　入力部１１０は、情報を入力する機能を有する。入力部１１０は、予測モデル構築のための教師データ、予測モデルに入力される入力データ、及び特徴量抽出に関する設定情報等の様々な情報を入力する。入力部１１０は、入力した情報を制御部１４０に出力する。

　出力部１２０は、情報を出力する機能を有する。出力部１２０は、予測モデルから出力される出力データ及び予測の根拠等の様々な情報を出力する。出力部１２０は、制御部１４０から出力された情報を出力する。

　記憶部１３０は、情報を一時的に又は恒久的に記憶する機能を有する。例えば、記憶部１３０は、予測モデルに関する学習結果を記憶する。

　制御部１４０は、情報処理装置１００全体の動作を制御する機能を有する。図７に示すように、制御部１４０は、前処理部１４１、学習部１４３、抽出部１４５及び生成部１４７を備える。前処理部１４１は、入力データに対し前処理を適用する機能を有する。学習部１４３は、非線形モデルで構成される予測モデルを学習する機能を有する。抽出部１４５は、予測モデルに入力される入力データから特徴量を抽出する機能を有する。生成部１４７は、特徴量の抽出結果に基づいて出力情報を生成する機能を有する。これらの各構成要素の動作処理については、以下に詳しく説明する。

　＜＜３．技術的特徴＞＞
　（１）概要
　本実施形態に係る情報処理装置１００による動作処理の概要を説明する。情報処理装置１００は、学習済みの予測モデル、及び寄与度の算出対象の項目型データ（例えば、ユーザ情報）が入力される。情報処理装置１００は、入力された項目型データのうち正に寄与する特徴量及び負に寄与する特徴量を抽出し、抽出した特徴量の寄与度を算出する。さらには、情報処理装置１００は、入力された項目型データを用いた予測、及び抽出した特徴量を用いた予測を行ってもよい。そして、情報処理装置１００は、これらの処理結果に基づく出力情報を生成して出力する。

　本技術は、例えば、マーケティング、サービスの離脱防止、レコメンデーションの理由提示、又はユーザプロフィールの入力補助などに活用され得る。例えば、第１のユーザが、情報処理装置１００に対し、学習済みの予測モデル及び第２のユーザのユーザ情報を入力する。そして、第１のユーザは、第２のユーザに対し、出力情報に基づいて目的に応じた各種施策を行う。

　予測モデルの学習は、情報処理装置１００により行われてもよい。その場合、情報処理装置１００には、例えば項目型データと当該ユーザ情報に対応するラベルが付された教師データが入力されて、予測モデルの学習が行われる。

　以下、本実施形態に係る情報処理装置１００による動作処理を詳しく説明する。

　（２）前処理
　情報処理装置１００（例えば、前処理部１４１）は、予測モデルに入力される入力データに対し前処理を行う。例えば、情報処理装置１００は、ＯｎｅＨｏｔ化と称される前処理を行う。ＯｎｅＨｏｔ化とは、特徴量を、１つの要素が１でその他の要素が０である特徴量ベクトルに変換する処理である。

　例えば、性別というデータ項目については、男性、女性、その他（未入力）という３つの特徴量に拡張されて、３つの要素を有する特徴量ベクトルに変換される。そして、男性であれば１番目の要素が１、女性であれば２番目の要素が１、その他であれば３番目の要素が１である特徴量ベクトルが生成される。ＯｎｅＨｏｔ化は、男性／女性といった離散値にも、年齢のような連続値にも適用可能である。予測モデルには、このように変換された項目ごとの特徴量ベクトルが全て連結された特徴量ベクトルが入力される。

　（３）学習処理
　情報処理装置１００（例えば、学習部１４３）は、予測モデルの学習を行う。情報処理装置１００は、バックプロパゲーション等の計算手法を用いることで、教師データに合う予測モデルを構築するパラメータ（リンク、重み、バイアス、活性化関数等の各種パラメータ）を学習する。教師データにも、上述した前処理が行われる。

　情報処理装置１００は、予測モデルの学習の際に、全ての要素が１である特徴量ベクトルを用いた学習、即ちバイアスのみを用いた学習を行ってもよい。これにより、全ての要素が０である特徴量ベクトルが予測モデルに入力された場合、平均値が出力されるような予測モデルを学習することが可能となる。

　予測モデルは、非線形モデルにより構成される。本技術が対象とする予測モデルは、ブラックボックス性を有するモデル（ブラックボックスモデルとも称される）である。例えば、予測モデルは、ニューラルネット、サポートベクタマシン又は隠れマルコフモデル等の任意の非線形モデルにより構成され得る。以下では、予測モデルはニューラルネットで構成されるものとして説明する。

　（４）特徴量の抽出処理
　情報処理装置１００（例えば、抽出部１４５）は、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、予測モデルから出力される予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する。より詳しくは、情報処理装置１００は、入力データの特徴量のうち、正に寄与し且つ寄与度の比較的大きな特徴量を第１の特徴量として抽出し、負に寄与し且つ寄与度の比較的大きな特徴量を第２の特徴量として抽出する。これにより、情報処理装置１００は、正に寄与する第１の特徴量だけでなく、負に寄与する第２の特徴量をも、予測モデルによる予測の根拠として特定することが可能となる。以下、図８を参照しながら、情報処理装置１００による特徴量抽出処理のアルゴリズムを説明する。

　図８は、本実施形態に係る情報処理装置１００による特徴量抽出処理のアルゴリズムを説明するための図である。図８に示した予測モデル１３は、図４等に示した予測モデル１２と同様に、ユーザ情報が入力データとして入力されると、出力データ３３として金融商品を購入する確率（０以上１以下の値）を出力する。詳しくは、まず、情報処理装置１００（前処理部１４１）は、入力データ２３Ａをｎ個の特徴量に変換する。次いで、情報処理装置１００（抽出部１４５）は、各々の特徴量に対し重みｗ_ｐ（第１の重み）を適用し、適用後の特徴量を予測モデル１３に入力することで、予測確率を得る。同様に、情報処理装置１００は、各々の特徴量に対し重みｗ_ｎ（第２の重み）を適用し、適用後の特徴量を予測モデル１３に入力することで、予測確率を得る。なお、情報処理装置１００は、重みｗ_ｐを適用後の特徴量と重みｗ_ｎを適用後の特徴量とを同時に予測モデル１３に入力することで、予測確率を得てもよい。

　重みｗ_ｐは、０以上１以下（０≦ｗ_ｐ≦１）の値をとり、予測モデル１３による予測結果に正に寄与する特徴量を残し、他を除去するためのマスクとして機能する。図８に示すように、重みｗ_ｐにより、特徴量の一部がマスクされ、残った特徴量が予測モデル１３に入力される。重みｗ_ｐにより、正に寄与する特徴量がマスクされずに残るほど、予測モデル１３から出力される予測確率は高くなる。

　重みｗ_ｎは、０以上１以下（０≦ｗ_ｎ≦１）の値をとり、予測モデル１３による予測結果に負に寄与する特徴量を残し、他を除去するためのマスクとして機能する。図８に示すように、重みｗ_ｎにより、特徴量の一部がマスクされ、残った特徴量が予測モデル１３に入力される。重みｗ_ｎにより、負に寄与する特徴量がマスクされずに残るほど、予測モデル１３から出力される予測確率は低くなる。

　そこで、情報処理装置１００は、予測確率を最大化する重みｗ_ｐと予測確率を最小化する重みｗ_ｎとを両立する重みｗ_ｐ及びｗ_ｎを求める。例えば、情報処理装置１００は、下記の数式（３）に示す損失関数を最小化するｗ_ｐ及びｗ_ｎを求める。

　上記数式（３）の第１項は、重みｗ_ｐが適用された入力データｘが予測モデルｆに入力された場合の予測確率が大きいほど、換言すると、重みｗ_ｐが適用された入力データｘが予測モデルｆによる予測結果に正に寄与するほど小さな値となる。従って、重みｗ_ｐによるマスクにより除去されずに残った特徴量が正に寄与する特徴量であるほど、さらに当該特徴量が正に寄与する寄与度が大きいほど、損失が小さくなる。

　一方で、上記数式（３）の第２項は、重みｗ_ｎが適用された入力データｘが予測モデルｆに入力された場合の予測確率が小さいほど、換言すると、重みｗ_ｎが適用された入力データｘが予測モデルｆによる予測結果に負に寄与するほど損失が小さな値となる。従って、重みｗ_ｎによるマスクにより除去されずに残った特徴量が負に寄与する特徴量であるほど、さらに当該特徴量が負に寄与する寄与度が大きいほど、損失が小さくなる。

　情報処理装置１００は、このような第１項及び第２項を含む予測関数を最小化する重みｗ_ｐ及びｗ_ｎを求める。そして、情報処理装置１００は、重みｗ_ｐによるマスクにより除去されずに残った特徴量を第１の特徴量として抽出し、重みｗ_ｎによるマスクにより除去されずに残った特徴量を第２の特徴量として抽出する。損失関数に、正に寄与する特徴量を評価する第１の項と負に寄与する特徴量を評価する第２の項との双方が含まれているので、正に寄与する特徴量と負に寄与する特徴量とを適切に抽出することが可能である。情報処理装置１００は、このようにして抽出した第１の特徴量及び第２の特徴量を、予測の根拠として特定する。

　ただし、情報処理装置１００は、下記の数式（４）に示す制約条件下で上記数式（３）に示す損失関数を最小化する。

　上記数式（４）に示す制約条件は、重みｗ_ｐ及び重みｗ_ｎのユーグリッドノルムが各々所定値ｃ_１及びｃ_２以下であること、換言すると、第１の特徴量の数が第１の閾値以下であること、及び第２の特徴量の数が第２の閾値以下であることを含む。本制約条件により、抽出される特徴量の数が制限されるので、第１の特徴量及び第２の特徴量として、より寄与度の高い特徴量を抽出することが可能となる。

　さらに、上記数式４に示す制約条件は、第１の特徴量を予測モデルに入力して得られる予測結果と第２の特徴量を予測モデルに入力して得られる予測結果との差分と、入力データを予測モデルに入力して得られる予測結果と、の差分が所定値ｃ_３（第３の閾値）以下であること、を含む。本制約条件により、抽出された第１の特徴量と第２の特徴量のみを用いた場合の予測確率と元の予測確率（ユーザ情報を全て用いた予測結果）とが、できるだけ近くなるように学習が行われる。従って、本制約条件により、重みｗ_ｐ及び重みｗ_ｎの確からしさを担保することが可能となる。

　なお、所定値ｃ_１、ｃ_２及びｃ_３の値は、任意に指定され得る。とりわけ、所定値ｃ_１及びｃ_２を指定することで、抽出すべき第１の特徴量の数及び第２の特徴量の数を指定することが可能である。

　（５）寄与度の算出処理
　情報処理装置１００（例えば、抽出部１４５）は、第１の特徴量及び第２の特徴量の寄与度を計算する。寄与度とは、予測モデルによる予測結果に寄与する度合いである。寄与度の算出方法は多様に考えられる。以下では一例として２種類の算出方法を説明する。

　・第１の寄与度算出方法
　第１の寄与度算出方法は、寄与度の算出対象の特徴量を予測モデルへの入力に追加して、追加する前後での予測結果の変化に基づいて寄与度を算出する方法である。詳しくは、情報処理装置１００は、第１の特徴量及び第２の特徴量の寄与度として、予測モデルによる予測結果の平均値と、寄与度の算出対象のひとつの特徴量のみを予測モデルに入力して得られる予測結果と、の差を算出する。以下、図９を参照しながら、第１の寄与度算出方法について具体的に説明する。

　図９は、本実施形態に係る第１の寄与度算出方法を説明するための図である。ここでは、寄与度の算出対象の特徴量は年齢が２４才であることであるものとする。

　図９に示すように、まず、情報処理装置１００は、入力データの特徴量ベクトル２３Ｄに、全ての重みがゼロである重み２４Ｄを適用して、全ての要素が０である特徴量ベクトル２５Ｄを生成し、予測モデル１３に入力する。これにより、情報処理装置１００は、出力データ３３Ｄとして、予測モデル１３から出力される予測確率の平均値を得る。例えば、金融商品を購入する確率の平均値が１２％であると算出される。

　次いで、情報処理装置１００は、入力データの特徴量ベクトル２３Ｅに、重み２４Ｄから、寄与度の算出対象のひとつの特徴量に対応する重みを１に変更した重み２４Ｅを適用する。これにより、寄与度の算出対象のひとつの特徴量に対応する要素が１で、他の要素が全て０である特徴量ベクトル２５Ｅが得られる。情報処理装置１００は、特徴量ベクトル２５Ｅを予測モデル１３に入力する。これにより、情報処理装置１００は、出力データ３３Ｅとして、寄与度の算出対象のひとつの特徴量のみを予測モデル１３に入力した場合の予測確率を得る。例えば、年齢が２４才であるユーザが金融商品を購入する確率が２０％であると算出される。

　そして、情報処理装置１００は、これらの予測確率の差を、特徴量の寄与度として算出する。詳しくは、情報処理装置１００は、予測確率が向上した場合は特徴量が正に寄与し、予測確率が低下した場合は特徴量が負に寄与し、差の絶対値が寄与度の大きさである、と判定する。本例では、金融商品を購入する確率が１２％から２０％に向上しているので、情報処理装置１００は、年齢が２４才であるという特徴量の寄与度は、８％の正の寄与度を有すると判定する。

　・第２の寄与度算出方法
　第２の寄与度算出方法は、寄与度の算出対象の特徴量を予測モデルへの入力から除去して、除去する前後での予測結果の変化に基づいて寄与度を算出する方法である。詳しくは、情報処理装置１００は、第１の特徴量及び第２の特徴量の寄与度として、第１の特徴量及び第２の特徴量を予測モデルに入力して得られる予測結果と、第１の特徴量及び第２の特徴量から寄与度の算出対象の特徴量を除去した上で予測モデルに入力して得られる予測結果と、の差を計算する。以下、図１０を参照しながら、第２の寄与度算出方法について具体的に説明する。

　図１０は、本実施形態に係る第２の寄与度算出方法を説明するための図である。ここでは、第１の特徴量及び第２の特徴量として、性別が男性であること、年齢が２４才であること、及び職業が公務員であることが抽出されたものとし、寄与度の算出対象の特徴量は年齢が２４才であることであるものとする。

　図１０に示すように、まず、情報処理装置１００は、入力データの特徴量ベクトル２３Ｆに、全ての重みが１である重み２４Ｆを適用して、第１の特徴量及び第２の特徴量のみを含む特徴量ベクトル２５Ｆを生成し、予測モデル１３に入力する。これにより、情報処理装置１００は、出力データ３３Ｆとして、第１の特徴量及び第２の特徴量を予測モデルに入力して得られる予測確率を得る。例えば、性別が男性であり、年齢が２４才であり、職業が公務員であるユーザが金融商品を購入する確率が３２％であると算出される。なお、本例では、入力データの項目すべてが第１の特徴量又は第２の特徴量に相当しているので、重み２４Ｆの重みは全て１である。一部のみが第１の特徴量又は第２の特徴量に相当する場合には、重み２４Ｆとして、第１の特徴量又は第２の特徴量に相当する重みが１で、他が０の重みが適用される。

　次いで、情報処理装置１００は、入力データの特徴量ベクトル２３Ｇに、重み２４Ｆから、寄与度の算出対象のひとつの特徴量に対応する重みを０に変更した重み２４Ｇを適用する。これにより、第１の特徴量及び第２の特徴量のうち寄与度の算出対象の特徴量が０である特徴量ベクトル２５Ｇが得られる。情報処理装置１００は、特徴量ベクトル２５Ｇを予測モデル１３に入力する。これにより、情報処理装置１００は、出力データ３３Ｇとして、第１の特徴量及び第２の特徴量から寄与度の算出対象の特徴量を除去した上で予測モデル１３に入力した場合の予測確率を得る。例えば、性別が男性であり、職業が公務員であるユーザが金融商品を購入する確率が２４％であると算出される。

　そして、情報処理装置１００は、これらの予測確率の差を、特徴量の寄与度として算出する。詳しくは、情報処理装置１００は、予測確率が低下した場合は特徴量が正に寄与し、予測確率が向上した場合は特徴量が負に寄与し、差の絶対値が寄与度の大きさである、と判定する。本例では、金融商品を購入する確率が３２％から２４％に低下しているので、年齢が２４才であるという特徴量の寄与度は、８％の正の寄与度を有すると判定する。

　（６）出力処理
　情報処理装置１００（例えば、生成部１４７）は、出力情報を生成して、出力部１２０から出力する。情報処理装置１００は、上述した特徴量の抽出処理及び寄与度の算出処理の結果に基づいて、出力情報を生成する。

　出力情報は、第１の特徴量、第２の特徴量、各々の特徴量の寄与度、入力されたユーザ情報を予測モデルに入力して得られる予測確率、又は第１の特徴量及び第２の特徴量を予測モデルに入力して得られる予測確率の、少なくともいずれかに基づく情報を含む。これらの情報が出力情報に含まれることで、出力情報を参照した第１のユーザは、ユーザ情報に対応する第２のユーザに対し適切な施策を行うことが可能となる。

　また、情報処理装置１００に、複数のユーザ（例えば、１００００人のユーザ）のユーザ情報が入力されて、各々のユーザ情報に関し特徴量の抽出及び寄与度の算出が行われてもよい。そして、情報処理装置１００は、各々の特徴量の寄与度の大きさ及び寄与度の正負に関する全体的な傾向を集計し、集計結果に基づく出力情報を生成してもよい。このような出力情報は、複数のユーザの全体的な傾向に基づく施策を行う場合に特に有効である。

　以下、情報処理装置１００により生成される出力情報の一例として、図１１～図１５を参照しながら、ディスプレイ等に表示可能な画像として生成されるＵＩ（User　Interface）の例を説明する。

　図１１は、本実施形態に係るＵＩの一例を説明するための図である。図１１に示したＵＩ２１０は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。ＵＩ２１０は、ＵＩ要素２１１、２１２及び２１３を含む。ＵＩ要素２１１では、入力されたユーザ情報のうち購入確率を上げているユーザ情報、即ち正に寄与する第１の特徴量が列挙されている。ＵＩ要素２１１は、列挙された第１の特徴量が予測結果（金融商品の購入確率）に正に寄与することを示している。ＵＩ要素２１２では、入力されたユーザ情報のうち購入確率を下げているユーザ情報、即ち負に寄与する第２の特徴量が列挙されている。ＵＩ要素２１２は、列挙された第２の特徴量が予測結果に負に寄与することを示している。ＵＩ要素２１３では、入力されたユーザ情報のうち予測に最低限必要なユーザ情報、即ち第１の特徴量及び第２の特徴量が列挙されている。ＵＩ要素２１３は、列挙された第１の特徴量及び第２の特徴量が予測結果に寄与することを示している。このようなＵＩ２１０により、第１のユーザは、第１の特徴量及び第２の特徴量を容易に認識することができる。

　図１２は、本実施形態に係るＵＩの一例を説明するための図である。図１２に示したＵＩ２２０は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。ＵＩ２２０は、ＵＩ要素２２１、２２２及び２２３を含む。ＵＩ要素２２１は、入力されたユーザ情報に対応するユーザが金融商品を購入する確率を、矢印を用いて示している。詳しくは、矢印の数が多いほど購入確率が高いことを示し、上方向への矢印は平均より購入確率が高いことを示し、下方向への矢印は平均より購入確率が低いことを示している。ＵＩ要素２２２は、入力されたユーザ情報の第１の特徴量及び第２の特徴量、並びに各々の特徴量の寄与度を、矢印を用いて示している。詳しくは、矢印の数が多いほど寄与度が大きいことを示し、上方向への矢印は正の寄与度を有すること（即ち、購入確率を向上させること）を示し、下方向への矢印は負の寄与度を有すること（即ち、購入確率を低下させること）を示している。ＵＩ要素２２３は、第２のユーザのどの特徴量が購入確率を向上させ、どの特徴量が購入確率を低下させているのかを、第１のユーザに対し分かりやすく説明する説明文を含んでいる。このようなＵＩ２２０により、第１のユーザは、第１の特徴量及び第２の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。

　図１３は、本実施形態に係るＵＩの一例を説明するための図である。図１３に示したＵＩ２３０は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。ＵＩ２３０は、ＵＩ要素２３１を含む。とりわけ、ＵＩ要素２３１Ａは、第１の特徴量の寄与度及び第２の特徴量の寄与度を定量的に示す棒グラフである。詳しくは、横軸が寄与度を示し、棒グラフが０の軸よりも右側に延びることは特徴量が正に寄与することを示し、棒グラフが０の軸よりも左側に延びることは特徴量が負に寄与することを示し、棒グラフの長さは寄与度の大きさを示している。各々の棒グラフには、寄与度が数字で併記されている。また、ＵＩ要素２３１Ｂは、第１の特徴量及び第２の特徴量の寄与度の合計値を示す棒グラフである。例えば、平均の購入確率に寄与度の合計値を足すことで、入力されたユーザ情報に対応する第２のユーザの購入確率が算出される。このようなＵＩ２３０により、第１のユーザは、第１の特徴量及び第２の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。

　図１４は、本実施形態に係るＵＩの一例を説明するための図である。図１４に示したＵＩ２４０は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。ＵＩ２４０は、ＵＩ要素２４１、２４２及び２４３を含む。ＵＩ要素２４１は、入力されたユーザ情報に対応する第２のユーザが金融商品を購入する確率を示している。ＵＩ要素２４２は、第１の特徴量の寄与度及び第２の特徴量の寄与度を定量的に示す棒グラフである。詳しくは、棒グラフの模様は特徴量の寄与度の正負を示し、棒グラフの長さは寄与度の大きさを示している。ＵＩ要素２４３は、第２のユーザのどの特徴量が購入確率を向上させ、どの特徴量が購入確率を低下させているのかを、第１のユーザに対し分かりやすく説明する説明文を含んでいる。このようなＵＩ２４０により、第１のユーザは、第１の特徴量及び第２の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。

　図１５は、本実施形態に係るＵＩの一例を説明するための図である。図１５に示したＵＩ２５０は、金融商品の購入確率の予測に寄与する特徴量に関する出力情報である。ＵＩ２５０は、ＵＩ要素２５１、２５２及び２５３を含む。ＵＩ要素２５１は、入力されたユーザ情報に対応する第２のユーザが金融商品を購入する確率を示している。ＵＩ要素２５２は、第１の特徴量の寄与度及び第２の特徴量の寄与度を定量的に示す円グラフである。詳しくは、円グラフの扇形の模様は特徴量の寄与度の正負を示し、円グラフの扇形の大きさは寄与度の大きさを示している。ＵＩ要素２５３は、第２のユーザのどの特徴量が購入確率を向上させ、どの特徴量が購入確率を低下させているのかを、第１のユーザに対し分かりやすく説明する説明文を含んでいる。このようなＵＩ２５０により、第１のユーザは、第１の特徴量及び第２の特徴量、各々の特徴量の寄与度、並びに予測の根拠を容易に認識することができる。

　（７）処理の流れ
　図１６は、本実施形態に係る情報処理装置１００により実行される予測根拠の提示処理の流れの一例を示すフローチャートである。図１６に示すように、まず、情報処理装置１００は、入力データを入力し、抽出すべき特徴量の数を設定する（ステップＳ１０２）。例えば、入力データとして項目型データであるユーザ情報が入力される。抽出すべき特徴量の数を設定は、数式（４）に示した制約条件における所定値ｃ_１及びｃ_２の値を設定することに相当する。他にも、ｃ_３等の他の設定が行われてもよい。次いで、情報処理装置１００は、重みｗ_ｐ及びｗ_ｎを初期化する（ステップＳ１０４）。

　次に、情報処理装置１００は、重みｗ_ｐ、ｗ_ｎと学習済みの予測モデルｆとを用いて、数式（３）に示した損失関数を計算する（ステップＳ１０６）。次いで、情報処理装置１００は、数式（４）に示した制約条件下で、勾配方向に重みｗ_ｐ、ｗ_ｎを更新する。そして、情報処理装置１００は、重みｗ_ｐ、ｗ_ｎは収束したか否かを判定する（ステップＳ１１０）。情報処理装置１００は、収束したと判定されるまで、損失関数の計算（ステップＳ１０６）、及び重みｗ_ｐ、ｗ_ｎの更新（ステップＳ１０８）を繰り返す（ステップＳ１１０／ＮＯ）。このような最適化問題の計算アルゴリズムとしては、勾配降下法、AdaGrad及びAdam等の確率的勾配降下法、ニュートン法、直線探索法、パーティクルフィルタ、又は遺伝的アルゴリズム等の任意のアルゴリズムが採用され得る。

　収束したと判定された場合（ステップＳ１１０／ＹＥＳ）、情報処理装置１００は、重みｗ_ｐに基づいて、正に寄与する特徴量である第１の特徴量を抽出し、当該第１の特徴量の寄与度を計算する（ステップＳ１１２）。詳しくは、重みｗ_ｐによるマスクにより除去されずに残った特徴量を、第１の特徴量として抽出する。そして、情報処理装置１００は、当該第１の特徴量の寄与度を、上述した第１又は第２の寄与度算出方法により算出する。

　次いで、情報処理装置１００は、重みｗ_ｎに基づいて、負に寄与する特徴量である第２の特徴量を抽出し、当該第２の特徴量の寄与度を計算する（ステップＳ１１４）。詳しくは、重みｗ_ｎによるマスクにより除去されずに残った特徴量を、第２の特徴量として抽出する。そして、情報処理装置１００は、当該第２の特徴量の寄与度を、上述した第１又は第２の寄与度算出方法により算出する。

　次に、情報処理装置１００は、正に寄与する特徴量である第１の特徴量と負に寄与する特徴量である第２の特徴量とを用いて予測を行う（ステップＳ１１６）。詳しくは、情報処理装置１００は、第１の特徴量と第２の特徴量とを予測モデルに入力して、予測確率を得る。

　そして、情報処理装置１００は、出力情報を生成して出力する（ステップＳ１１８）。例えば、情報処理装置１００は、上記ステップＳ１１２～Ｓ１１６における処理結果に基づいてＵＩを生成して出力する。

　＜＜４．ユースケース＞＞
　以下、本実施形態に係る情報処理装置１００のユースケースの一例を説明する。

　（１）第１のユースケース
　本ユースケースは、どの金融商品をどのような顧客に対し売り込むか、というマーケティングに関する。

　まず、金融商品販売の担当者（即ち、第１のユーザ）は、過去のユーザデータ及び金融商品の購入結果を教師データとして情報処理装置１００に入力することで、どのような顧客が何の金融商品を購入しやすいかを予測する予測モデルを学習させる。

　次いで、担当者は、新規顧客（即ち、第２のユーザ）のユーザ情報を情報処理装置１００に入力する。これにより、担当者は、新規顧客がどんな金融商品をどの位の確率で購入するか、及びその予測の根拠（第１の特徴量、第２の特徴量、及び各々の特徴量の寄与度）を知ることができる。担当者は、これらの情報に基づいて、新規顧客に対し販促活動を行うことができる。

　また、担当者は、複数の顧客のユーザ情報に基づく集計処理により得られた特徴量の全体的な傾向に基づいて施策を行ってもよい。例えば、ある金融商品が、ある年代、職業、地域の顧客に好まれることが全体的な傾向として判定された場合、担当者は、該当する顧客層を中心に販促活動を行う等の施策を行うことで、売上向上を目指すことができる。また、担当している担当者が負に寄与していると判定された場合には、担当者は、他者に担当を変更する等に施策をとることも可能である。

　（２）第２のユースケース
　本ユースケースは、音楽配信サービスの離脱率予測、及び離脱防止のための施策に関する。

　まず、音楽配信サービスの担当者（即ち、第１のユーザ）は、過去のユーザデータ及び音楽配信サービスの離脱結果を教師データとして情報処理装置１００に入力することで、どのような顧客が離脱しやすいかを予測する予測モデルを学習させる。

　次いで、担当者は、注目顧客（即ち、第２のユーザ）のユーザ情報を情報処理装置１００に入力する。これにより、担当者は、注目顧客の離脱確率、及びその予測の根拠（第１の特徴量、第２の特徴量、及び各々の特徴量の寄与度）を知ることができる。担当者は、これらの情報に基づいて、注目顧客に対し離脱防止のための施策を行うことができる。

　また、担当者は、複数の顧客のユーザ情報に基づく集計処理により得られた特徴量の全体的な傾向に基づいて施策を行ってもよい。例えば、契約してから３か月以内の顧客の離脱率が高いと判定された場合、担当者は、それらのユーザに割引キャンペーンなどの施策を実施する。また、メールマガジンなどの配信が離脱に対して負に寄与していると判定された場合、担当者は、メールマガジンなどの配信を停止する。

　（３）第３のユースケース
　本ユースケースは、ＥＣ（electronic　commerce）サイトでのレコメンデーションの理由提示、及びユーザプロフィールの入力アシストに関する。

　まず、ＥＣサイトの担当者（即ち、第１のユーザ）は、過去のユーザデータ及び商品購入結果を教師データとして情報処理装置１００に入力することで、どのような顧客がどのような商品を購入しやすいかを予測する予測モデルを学習させる。なお、本例における担当者は、典型的にはＡＩ（artificial　intelligence）である。

　次いで、担当者は、新規顧客（即ち、第２のユーザ）のユーザ情報を情報処理装置１００に入力する。これにより、担当者は、新規顧客がどんな商品をどの位の確率で購入するか、及びその予測の根拠（第１の特徴量、第２の特徴量、及び各々の特徴量の寄与度）を知ることができる。担当者は、これらの情報に基づいて、新規顧客に対し商品の推薦を行うことができる。その際に、担当者は、なぜその商品を推薦するのか、という予測の根拠を新規顧客に提示する（例えば、過去にある商品を購入したから、等）。

　また、担当者は、複数の顧客のユーザ情報に基づく集計処理により得られた特徴量の全体的な傾向に基づいて、ユーザプロフィールの入力アシストを行ってもよい。例えば、ある未入力のデータ項目に関し、寄与度が大きい傾向がある場合には、担当者は、当該未入力のデータ項目を入力するよう、新規顧客に促す。これにより、予測精度を向上させて、商品推薦の精度を向上させることができる。

　（４）第４のユースケース
　本ユースケースは、不動産物件サイトの多変量Ａ／Ｂテストにおける効果の分析に関する。

　例えば、Ｗｅｂページを閲覧した閲覧者が不動産物件について問い合わせすることをＫＰＩ（Key　Performance　Indicator）として、ＷｅｂページのＡ／Ｂテストが実施されるものとする。具体的には、不動産物件の表示する写真を変える、物件の紹介文書を変える、導線を変える、文字のフォントを変える、等の様々な設定変更が行われながら、Ａ／Ｂテストが実施される。

　不動産物件サイトの担当者（即ち、第１のユーザ）は、閲覧者がどの設定が採用されたＷｅｂページを閲覧していたか、及び不動産物件への問い合わせ有無を教師データとして情報処理装置１００に入力する。これにより、どの設定が採用された場合に不動産物件への問い合わせがされやすいかを予測する予測モデルが学習される。

　これにより、どの設定が不動産物件の問い合わせのされやすさに寄与するかが抽出される。よって、担当者は、負に寄与する設定をＡ／Ｂテストの対象から除外したり、正に寄与する設定を本実装として採用して全ユーザに公開したりすることができる。

　＜＜５．変形例＞＞
　本変形例は、抽出された特徴量及びその寄与度に基づく文章が自動的に生成される例である。本変形例によれば、例えば、図１２におけるＵＩ要素２２３、図１４におけるＵＩ要素２４３、及び図１５におけるＵＩ要素２５３の各々に含まれる説明文を、自動的に生成することができる。

　出力情報は、第１の特徴量及び当該第１の特徴量の寄与度、並びに／又は第２の特徴量及び当該第２の特徴量の寄与度に基づいて生成される文章を含み得る。例えば、情報処理装置１００（例えば、生成部１４７）は、寄与度の大きい第１の特徴量及び／又は第２の特徴量に基づいて、予測の根拠を説明する文章を生成する。これにより、予測の根拠として特に説明すべき、寄与度の大きい特徴量に言及した説明文が自動的に生成される。よって、第１のユーザは、予測の根拠を容易に認識することができる。生成される文章の具体例については、後に図１７を参照しながら説明する。

　出力情報は、第１の特徴量及び／又は第２の特徴量に関する複数の入力データ全体の統計量に基づいて生成される文章を含み得る。例えば、情報処理装置１００（例えば、生成部１４７）は、特定の特徴量を有する入力データ全体の統計量と、当該特定の特徴量の有無を問わない入力データ全体の統計量との比較結果に基づいて、予測の根拠を説明する文章を説明する。これにより、特定の特徴量を有する顧客に共通する傾向であって、全体平均と相違する傾向に言及した説明文が自動的に生成される。よって、第１のユーザは、顧客の特徴量が予測にどう影響する傾向にあるかを、容易に認識することができる。生成される文章の具体例については、以下に図１７を参照しながら説明する。

　図１７は、本変形例に係るＵＩの一例を説明するための図である。表２６１は、ひとりの顧客の入力データの特徴量、各々の特徴量の寄与度、及び成約確率（即ち、予測確率）から成る、データの内容を示している。表２６１に示したデータを、以下では個別データとも称する。表２６２は、予測対象である顧客全体の入力データの統計量の内容を示している。表２６２は、顧客全体の入力データにおける、特徴量ごとの該当人数、成約人数、成約率、及び不成約率を含む。表２６２に示したデータを、以下では共通データとも称する。情報処理装置１００は、これら個別データ及び共通データに基づいて、説明文２６３を生成する。具体的には、個別データにおける、特徴量「第一子：有り」が「＋２７．４％」の正の寄与度を有することに基づいて、説明文「第一子がいることが成約確率の向上に２７．４％寄与しています。」が生成される。また、共通データにおける、特徴量「第一子：有り」を有する顧客の成約率「３０％」と顧客全体の成約率「１４％」との差分に基づいて、説明文「第一子が有りの場合、成約率は全体平均よりも１６％大きいです。」が生成される。

　情報処理装置１００は、文章生成モデルを学習し、学習済みの文章生成モデルを用いて、予測の根拠を説明する文章を生成する。これら一連の流れについて、図１８を参照しながら説明する。

　図１８は、本変形例に係る文章生成の流れを概略的に示す図である。図１８に示すように、まず、抽出部１４５は、複数の入力データの各々について、寄与度を算出し、正に寄与する特徴量及び負に寄与する特徴量の各々を抽出する（ステップＳ２０２）。次いで、学習部１４３は、複数の入力データの各々についての、入力データ、特徴量、及び寄与度、並びにこれらの情報から生成されるべき予測の根拠を示す説明文（即ち、教師ラベル）を教師データとして、文章生成モデルを学習する（ステップＳ２０４）。なお、教師ラベルは、人力で生成され得る。以上説明した処理が、文章生成モデルの学習ステップである。

　次いで、学習済みの文章生成モデルを用いた文章生成ステップについて説明する。まず、抽出部１４５は、予測対象の入力データについて、寄与度を算出し、正に寄与する特徴量及び負に寄与する特徴量の各々を抽出する（ステップＳ２０６）。次いで、生成部１４７は、予測対象の入力データ、予測対象の入力データから抽出及び算出された特徴量及び寄与度を、学習済みの文章生成モデルに入力することで、予測の根拠を示す説明文を生成する（ステップＳ２０８）。

　ここで、文章の生成には、Ｔａｂｌｅ－ｔｏ－ｔｅｘｔと称される、表形式データを文章に変換する技術が用いられ得る。Ｔａｂｌｅ－ｔｏ－ｔｅｘｔ技術の一手法として、Ｓｅｑ２Ｓｅｑ法がある。Ｓｅｑ２Ｓｅｑ法は、表形式データを潜在変数に落とし込むエンコーダと、潜在変数に基づいて文章を構成するデコーダとを用いる手法である。Ｓｅｑ２Ｓｅｑ法では、表形式データの項目名と項目値とを（Ｋｅｙ，Ｖａｌｕｅ）としてＬＳＴＭ（Long　short-term　memory）に入力して、教師データの文章を出力するような、文章生成モデルが学習される。学習済みの文章生成モデルに表形式データを入力すると、表形式データを説明する説明文が出力される。Ｓｅｑ２Ｓｅｑ法については、「Tianyu　Liu,　Kexiang　Wang,　Lei　Sha,　Baobao　Chang　and　Zhifang　Sui，“Table-to-text　Generation　by　Structure-aware　Seq2seq　Learning”，AAAI，2018．」に詳しく説明されている。以下では一例として、図１９を参照しながら、Ｓｅｑ２Ｓｅｑ法を用いた文章生成について説明する。

　図１９は、本変形例に係る文章生成モデルの詳細を説明するための図である。図１９では、ＬＳＴＭにより構成されたエンコーダが示されている。変数間の矢印での接続は、時系列関係を示している。Ｓｅｑ２Ｓｅｑ法においては、フィールド変数ｚ_ｉにはデータ項目が入力され、潜在変数ｈ_ｉにはフィールド変数ｚ_ｉに入力されるデータ項目に対応するデータ値が入力される。本変形例では、エンコーダに個別データ（特徴量、寄与度、又は予測確率）が入力される。詳しくは、フィールド変数ｚ_ｉ及び潜在変数ｈ_ｉに個別データのデータ項目及びデータ値が入力される。例えば、ｚ_１にはデータ項目「第一子有無」が入力され、ｈ_１には当該データ項目「第一子有無」の特徴量「有り」が入力される。さらに、本変形例では、潜在変数ｈ_ｉの各々に、共通データが入力される。詳しくは、本変形例では、共通データがより少ない次元の特徴量ベクトルｈ_０に変換された上で、潜在変数ｈ_ｉの各々に入力される。潜在変数ｈ_ｉへの入力の際には、重みａ_ｉが適用される。なお、ｉはインデックスであり、０≦ｉ≦ｍの整数であり、ｍは個別データに含まれるデータ項目の個数に相当する。

　本変形例では、上記説明したようにエンコーダに個別データ及び共通データが入力されて、エンコーダの学習が行われる。重みａ_ｉも、学習対象のひとつである。学習の結果得られたエンコーダを用いることで、顧客個人の入力データの特徴量、当該特徴量の寄与度、及び当該特徴量に関する顧客全体の統計量に基づいた文章を、自動的に生成することが可能となる。

　＜＜６．ハードウェア構成例＞＞
　最後に、図２０を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図２０は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図２０に示す情報処理装置９００は、例えば、図７に示した情報処理装置１００を実現し得る。本実施形態に係る情報処理装置１００による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。

　図２０に示すように、情報処理装置９００は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３及びホストバス９０４ａを備える。また、情報処理装置９００は、ブリッジ９０４、外部バス９０４ｂ、インタフェース９０５、入力装置９０６、出力装置９０７、ストレージ装置９０８、ドライブ９０９、接続ポート９１１及び通信装置９１３を備える。情報処理装置９００は、ＣＰＵ９０１に代えて、又はこれとともに、電気回路、ＤＳＰ若しくはＡＳＩＣ等の処理回路を有してもよい。

　ＣＰＵ９０１は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置９００内の動作全般を制御する。また、ＣＰＵ９０１は、マイクロプロセッサであってもよい。ＲＯＭ９０２は、ＣＰＵ９０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ９０３は、ＣＰＵ９０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。ＣＰＵ９０１は、例えば、図７に示す制御部１４０を形成し得る。本実施形態では、ＣＰＵ９０１は、入力データへの前処理、予測モデルの学習、特徴量の抽出、特徴量の寄与度の算出、及び出力情報の生成を行う。

　ＣＰＵ９０１、ＲＯＭ９０２及びＲＡＭ９０３は、ＣＰＵバスなどを含むホストバス９０４ａにより相互に接続されている。ホストバス９０４ａは、ブリッジ９０４を介して、ＰＣＩ（Ｐｅｒｉｐｈｅｒａｌ　Ｃｏｍｐｏｎｅｎｔ　Ｉｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス９０４ｂに接続されている。なお、必ずしもホストバス９０４ａ、ブリッジ９０４および外部バス９０４ｂを分離構成する必要はなく、１つのバスにこれらの機能を実装してもよい。

　入力装置９０６は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置９０６は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置９００の操作に対応した携帯電話やＰＤＡ等の外部接続機器であってもよい。さらに、入力装置９０６は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、ＣＰＵ９０１に出力する入力制御回路などを含んでいてもよい。情報処理装置９００のユーザは、この入力装置９０６を操作することにより、情報処理装置９００に対して各種のデータを入力したり処理動作を指示したりすることができる。入力装置９０６は、例えば、図７に示す入力部１１０を形成し得る。本実施形態では、入力装置９０６は、教師データ、特徴量の抽出及び寄与度の算出対象の入力データの入力、抽出すべき特徴量の数の設定等の入力を受け付ける。

　出力装置９０７は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、ＣＲＴディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ＥＬディスプレイ装置、レーザープロジェクタ、ＬＥＤプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置９０７は、例えば、情報処理装置９００が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置９００が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置９０７は、例えば、図７に示す出力部１２０を形成し得る。本実施形態では、出力装置９０７は、出力情報を出力する。

　ストレージ装置９０８は、情報処理装置９００の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置９０８は、例えば、ＨＤＤ等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置９０８は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置９０８は、ＣＰＵ９０１が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置９０８は、例えば、図７に示す記憶部１３０を形成し得る。本実施形態では、ストレージ装置９０８は、予測モデルの学習結果、特徴量の抽出結果及び特徴量の寄与度を記憶する。

　ドライブ９０９は、記憶媒体用リーダライタであり、情報処理装置９００に内蔵、あるいは外付けされる。ドライブ９０９は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、ＲＡＭ９０３に出力する。また、ドライブ９０９は、リムーバブル記憶媒体に情報を書き込むこともできる。

　接続ポート９１１は、外部機器と接続されるインタフェースであって、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）などによりデータ伝送可能な外部機器との接続口である。

　通信装置９１３は、例えば、ネットワーク９２０に接続するための通信デバイス等で形成された通信インタフェースである。通信装置９１３は、例えば、有線若しくは無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード等である。また、通信装置９１３は、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ又は各種通信用のモデム等であってもよい。この通信装置９１３は、例えば、インターネットや他の通信機器との間で、例えばＴＣＰ／ＩＰ等の所定のプロトコルに則して信号等を送受信することができる。

　なお、ネットワーク９２０は、ネットワーク９２０に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク９２０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク９２０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　以上、本実施形態に係る情報処理装置９００の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。

　なお、上述のような本実施形態に係る情報処理装置９００の各機能を実現するためのコンピュータプログラムを作製し、ＰＣ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。

　＜＜７．まとめ＞＞
　以上、図１～図２０を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る情報処理装置１００は、非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する。情報処理装置１００は、正に寄与する第１の特徴量だけでなく、負に寄与する第２の特徴量をも抽出することができる。従って、情報処理装置１００は、予測結果に対し負に寄与する特徴量が存在する場合であっても、予測の根拠を適切に特定することができる。また、情報処理装置１００は、予測に寄与する必要最小限の特徴量を特定することができる。

　情報処理装置１００は、第１の特徴量及び第２の特徴量の各々の寄与度を算出する。これにより、情報処理装置１００は、予測の根拠をより詳細に特定することができる。

　情報処理装置１００は、抽出した第１の特徴量、第２の特徴量、及び／又は算出した各々の特徴量の寄与度等を含む出力情報を生成して、出力する。これにより、出力情報を参照した第１のユーザは、出力情報に基づいて、ユーザ情報に対応する第２のユーザに対し適切な施策を行うことが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、上記実施形態では、対象とするデータが項目型データである例を説明したが、本技術はかかる例に限定されない。例えば、対象とするデータは画像であってもよい。例えば、金融商品の購入確率の予測に関しては、情報処理装置１００は、顧客が写った画像のうち、購入確率を向上させる要素が写った領域と購入確率を低下させる要素が写った領域とを特定し、各々を予測の根拠として提示してもよい。

　また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、
を備える情報処理装置。
（２）
　前記制御部は、前記第１の特徴量が前記予測結果に正に寄与すること、及び前記第２の特徴量が前記予測結果に負に寄与することを示す出力情報を生成する、前記（１）に記載の情報処理装置。
（３）
　前記出力情報は、前記第１の特徴量の寄与度及び前記第２の特徴量の寄与度を示す情報を含む、前記（２）に記載の情報処理装置。
（４）
　前記出力情報は、前記第１の特徴量の寄与度及び前記第２の特徴量の寄与度を定量的に示すグラフを含む、前記（３）に記載の情報処理装置。
（５）
　前記出力情報は、前記第１の特徴量及び前記第１の特徴量の寄与度、並びに／又は前記第２の特徴量及び前記第２の特徴量の寄与度に基づいて生成される文章を含む、前記（３又は（４）に記載の情報処理装置。
（６）
　前記制御部は、
　第１の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第１の項と、
　第２の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第２の項と、
を含む損失関数を最小化する前記第１の重み及び前記第２の重みを求め、
　前記第１の重みにより除去されない特徴量を前記第１の特徴量として抽出し、
　前記第２の重みにより除去されない特徴量を前記第２の特徴量として抽出する、前記（１）～（５）のいずれか一項に記載の情報処理装置。
（７）
　前記制御部は、所定の制約条件下で前記損失関数を最小化し、
　前記所定の制約条件は、前記第１の特徴量の数が第１の閾値以下であること、及び前記第２の特徴量の数が第２の閾値以下であることを含む、前記（６）に記載の情報処理装置。
（８）
　前記所定の制約条件は、前記第１の特徴量を前記予測モデルに入力して得られる予測結果と前記第２の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第３の閾値以下であることをさらに含む、前記（７）に記載の情報処理装置。
（９）
　前記制御部は、前記第１の特徴量及び前記第２の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出する、前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１０）
　前記制御部は、前記第１の特徴量及び前記第２の特徴量の寄与度として、前記第１の特徴量及び前記第２の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第１の特徴量及び前記第２の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出する、前記（１）～（８）のいずれか一項に記載の情報処理装置。
（１１）
　前記非線形モデルは、ニューラルネットである、前記（１）～（１０）のいずれか一項に記載の情報処理装置。
（１２）
　前記入力データは、複数のデータ項目のデータを含む、前記（１）～（１１）のいずれか一項に記載の情報処理装置。
（１３）
　非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出すること、
を含む、プロセッサにより実行される情報処理方法。
（１４）
　第１の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第１の項と、
　第２の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第２の項と、
を含む損失関数を最小化する前記第１の重み及び前記第２の重みを求め、
　前記第１の重みにより除去されない特徴量を前記第１の特徴量として抽出し、
　前記第２の重みにより除去されない特徴量を前記第２の特徴量として抽出すること、
をさらに含む、前記（１３）に記載の情報処理方法。
（１５）
　所定の制約条件下で前記損失関数を最小化することをさらに含み、
　前記所定の制約条件は、前記第１の特徴量の数が第１の閾値以下であること、及び前記第２の特徴量の数が第２の閾値以下であることを含む、前記（１４）に記載の情報処理方法。
（１６）
　前記所定の制約条件は、前記第１の特徴量を前記予測モデルに入力して得られる予測結果と前記第２の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第３の閾値以下であることをさらに含む、前記（１５）に記載の情報処理方法。
（１７）
　前記第１の特徴量及び前記第２の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、前記（１３）～（１６）のいずれか一項に記載の情報処理方法。
（１８）
　前記第１の特徴量及び前記第２の特徴量の寄与度として、前記第１の特徴量及び前記第２の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第１の特徴量及び前記第２の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、前記（１３）～（１６）のいずれか一項に記載の情報処理方法。
（１９）
　コンピュータを、
　非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、
として機能させるためのプログラム。

　１００　　情報処理装置
　１１０　　入力部
　１２０　　出力部
　１３０　　記憶部
　１４０　　制御部
　１４１　　前処理部
　１４３　　学習部
　１４５　　抽出部
　１４７　　生成部

Claims

　非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、
を備える情報処理装置。
　前記制御部は、前記第１の特徴量が前記予測結果に正に寄与すること、及び前記第２の特徴量が前記予測結果に負に寄与することを示す出力情報を生成する、請求項１に記載の情報処理装置。
　前記出力情報は、前記第１の特徴量の寄与度及び前記第２の特徴量の寄与度を示す情報を含む、請求項２に記載の情報処理装置。
　前記出力情報は、前記第１の特徴量の寄与度及び前記第２の特徴量の寄与度を定量的に示すグラフを含む、請求項３に記載の情報処理装置。
　前記出力情報は、前記第１の特徴量及び前記第１の特徴量の寄与度、並びに／又は前記第２の特徴量及び前記第２の特徴量の寄与度に基づいて生成される文章を含む、請求項３に記載の情報処理装置。
　前記制御部は、
　第１の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第１の項と、
　第２の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第２の項と、
を含む損失関数を最小化する前記第１の重み及び前記第２の重みを求め、
　前記第１の重みにより除去されない特徴量を前記第１の特徴量として抽出し、
　前記第２の重みにより除去されない特徴量を前記第２の特徴量として抽出する、請求項１に記載の情報処理装置。
　前記制御部は、所定の制約条件下で前記損失関数を最小化し、
　前記所定の制約条件は、前記第１の特徴量の数が第１の閾値以下であること、及び前記第２の特徴量の数が第２の閾値以下であることを含む、請求項６に記載の情報処理装置。
　前記所定の制約条件は、前記第１の特徴量を前記予測モデルに入力して得られる予測結果と前記第２の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第３の閾値以下であることをさらに含む、請求項７に記載の情報処理装置。
　前記制御部は、前記第１の特徴量及び前記第２の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出する、請求項１に記載の情報処理装置。
　前記制御部は、前記第１の特徴量及び前記第２の特徴量の寄与度として、前記第１の特徴量及び前記第２の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第１の特徴量及び前記第２の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出する、請求項１に記載の情報処理装置。
　前記非線形モデルは、ニューラルネットである、請求項１に記載の情報処理装置。
　前記入力データは、複数のデータ項目のデータを含む、請求項１に記載の情報処理装置。
　非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出すること、
を含む、プロセッサにより実行される情報処理方法。
　第１の重みが適用された前記入力データが前記予測結果に正に寄与するほど損失が小さい第１の項と、
　第２の重みが適用された前記入力データが前記予測結果に負に寄与するほど損失が小さい第２の項と、
を含む損失関数を最小化する前記第１の重み及び前記第２の重みを求め、
　前記第１の重みにより除去されない特徴量を前記第１の特徴量として抽出し、
　前記第２の重みにより除去されない特徴量を前記第２の特徴量として抽出すること、
をさらに含む、請求項１３に記載の情報処理方法。
　所定の制約条件下で前記損失関数を最小化することをさらに含み、
　前記所定の制約条件は、前記第１の特徴量の数が第１の閾値以下であること、及び前記第２の特徴量の数が第２の閾値以下であることを含む、請求項１４に記載の情報処理方法。
　前記所定の制約条件は、前記第１の特徴量を前記予測モデルに入力して得られる予測結果と前記第２の特徴量を前記予測モデルに入力して得られる予測結果との差分と、前記入力データを前記予測モデルに入力して得られる予測結果と、の差分が第３の閾値以下であることをさらに含む、請求項１５に記載の情報処理方法。
　前記第１の特徴量及び前記第２の特徴量の寄与度として、前記予測結果の平均値と、前記寄与度の算出対象のひとつの特徴量のみを前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、請求項１３に記載の情報処理方法。
　前記第１の特徴量及び前記第２の特徴量の寄与度として、前記第１の特徴量及び前記第２の特徴量を前記予測モデルに入力して得られる前記予測結果と、前記第１の特徴量及び前記第２の特徴量から前記寄与度の算出対象の特徴量を除去した上で前記予測モデルに入力して得られる前記予測結果と、の差を算出することをさらに含む、請求項１３に記載の情報処理方法。
　コンピュータを、
　非線形モデルで構成された予測モデルに入力される入力データの特徴量のうち、前記予測モデルによる予測結果に正に寄与する第１の特徴量と負に寄与する第２の特徴量とを抽出する制御部、
として機能させるためのプログラム。