WO2020255634A1

WO2020255634A1 - 情報処理システム及び情報処理方法

Info

Publication number: WO2020255634A1
Application number: PCT/JP2020/020427
Authority: WO
Inventors: 井手　直紀
Original assignee: ソニー株式会社
Priority date: 2019-06-17
Filing date: 2020-05-22
Publication date: 2020-12-24

Abstract

情報処理システムは、学習用データに基づいて、ニューラルネットを用いた学習を行う学習部（１５２）を備える。ニューラルネットは、所定のパラメータを算出するパラメータ算出ネットと、パラメータ算出ネットによって算出されたパラメータに基づいて所定の最適化計算を実行する最適化レイヤと、を含む。学習部（１５２）は、最適化レイヤによる最適化計算の実行結果に基づく誤差を逆伝搬することで、ニューラルネットのパラメータを更新する。

Description

情報処理システム及び情報処理方法

　本開示は、情報処理システム及び情報処理方法に関する。

　近年、ニューラルネットを用いた深層学習等の機械学習によってモデルを構築し、分類や認識等の演算を行う技術が盛んに研究されている。例えば、深層学習と、量子計算とを融合する技術が提案されている（例えば、非特許文献１）。

Masayuki　Ohzeki,　Shuntaro　Okada,　Masayoshi　Terabe,　and　Shinichiro　Taguchi,　"Optimization　of　neural　networks　via　finite-value　quantum　fluctuations"　Scientific　Reports　8,　9950　(2018)

　深層学習は、ニューラルネットのパラメータを学習することで、比較的簡単な式で目的関数を表現できる回帰や分類に適した中間表現を獲得することができる。しかしながら、深層学習では、より複雑な目的関数を持つ問題の場合は、計算時間が長くなり学習することが困難となる。そのため、深層学習では、複雑な目的関数を持つ問題を高速に解くことが困難であるという問題がある。

　そこで、本開示では、複雑な目的関数を持つ問題を高速に解くことのできる情報処理システム及び情報処理方法を提案する。

　上記の課題を解決するために、本開示に係る一態様の情報処理システムは、学習用データに基づいて、ニューラルネットを用いた学習を行う学習部を備え、前記ニューラルネットは、所定のパラメータを算出するパラメータ算出ネットと、前記パラメータ算出ネットによって算出されたパラメータの元で最適化を実行する最適化レイヤと、を含み、前記学習部は、前記最適化レイヤによる最適化の実行結果に基づく誤差を逆伝搬することで、前記ニューラルネットのパラメータを更新する。

本開示のニューラルネット設計支援のＧＵＩの例を示す図である。イジングモデルを模式的に示す図である。本開示の実施形態に係る情報処理システムの構成の例を示す図である。本開示の実施形態に係るイジングレイヤを説明するための図である。本開示の実施形態に係るパラメータを学習する処理の流れを説明するための図である。本開示の実施形態に係る情報処理装置の構成の一例を示すブロック図である。本開示の実施形態に係る量子計算機の構成の一例を示すブロック図である。本開示の実施形態に係る学習処理の流れの一例を示すフローチャートである。本開示の実施形態に係る予測処理の流れの一例を示すフローチャートである。本開示の実施形態に係るニューラルネットを設計する方法を説明するための図である。本開示の実施形態に係るニューラルネットを学習させる処理を説明するための図である。本開示の実施形態に係るニューラルネットの変形例を説明するための図である。クラスタリングの最適化問題を説明するための図である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　１．概要
　　１－１．深層学習
　　　１－１－１．回帰問題
　　　１－１－２．分類問題
　　　１－１－３．表現学習・特徴学習
　　１－２．ニューラルネットの設計
　　１－３．量子アニーリング
　　１－４．離散最適化問題
　　１－５．量子アニーラ
　２．情報処理システム
　　２－１．情報処理システムの構成
　　２－２．イジングレイヤ
　　２－３．イジングモデルの係数
　　２－４．誤差逆伝搬
　　２－５．パラメータの学習
　３．実施形態
　　３－１．情報処理装置の構成
　　３－２．量子計算機の構成
　　３－３．学習処理
　　３－４．予測処理
　　３－５．深層学習フレームワーク
　　３－６．問題の種類
　　　３－６－１．巡回セールスマン問題
　　　３－６－２．クラスタリング

［１．概要］
［１－１．深層学習］
　本開示を説明する前に、本開示に係る概要について説明する。

　深層学習（ディープラーニング）は、ニューラルネットの学習に関する技術全般を表す用語である。昨今、深層学習は、物体認識、音声認識、行動認識等の認識に関する機能を有する機能モジュールの性能の向上に大きな変革をもたらしている。例えば、物体が映っている画像から物体のクラスをあてる「一般物体認識」における性能は、人の性能を超えるに至った。

［１－１－１．回帰問題］
　回帰問題は、データから連続値を予測する問題である。深層学習の場合、データを入力して、ニューラルネットを用いて連続値を出力する。このニューラルネットのパラメータ（線形層の重みやバイアス）は、予測値とラベル値のロス（損失関数）を小さくするように予め学習されている。二乗誤差をロスとして用いる場合は、以下の式（１）のように書き下せる。

　式（１）において、ｘ_１～ｘ_Ｎは学習データ、t_１～t_Ｎは教師データ（ラベル）である。θはニューラルネットのパラメータである。ｎは入力の通し番号である。ｔ_ｎはラベル値である。ｘ_ｎは入力データである。ｆ_θ（ｘ_ｎ）は予測値である。

［１－１－２．分類問題］
　分類問題は、入力データを離散化されたクラスに分類する問題である。深層学習の場合、データを入力して、ニューラルネットを用いてクラスの予測確率（予測分布）を出力する。このニューラルネットのパラメータは、予測確率と、ラベル値の経験分布の間のロスを小さくするように予め学習されている。多クラス分類問題で、クロスエントロピーをロスとして用いる場合は、例えば、以下の式（２）のように書き下せる。

　式（２）において、ｋはクラスの通し番号である。ｔ_ｎはクラスのラベル値である。ｘ_ｎは入力データ値である。ｐ（ｋ｜ｘ_ｎ，θ）は、クラスｋの予測確率である。多クラス分類問題では、予測確率は以下の式（３）のようにソフトマックス関数で近似することが多い。

　式（３）において、ｆ_ｋ，θ（ｘ_ｎ）は、ニューラルネットによって算出されたクラスｋのロジット値である。

［１－１－３．表現学習・特徴学習］
　表現学習・特徴学習とは、データを入力して、回帰問題や分類問題などの問題に適した特徴ベクトルを出力するようにニューラルネットを学習することである。

［１－２．ニューラルネットの設計］
　ニューラルネットは、入力層と、隠れ層と、出力層とで構成される。これらの層（レイヤ）の間には、線形関数、非線形関数による層が存在する。これらを線形層、非線形層とよぶこともある。すなわち、線形層、非線形層はニューラルネットの一部である。

　三層ニューラルネットは、入力層と、隠れ層と、出力層とを含む。最近では、このような三層ニューラルネットを二層ニューラルネットと呼ぶことが多い。例えば、入力層と、出力層との間には、２つの線形層と、１つの非線形層（活性層とも呼ばれる）がある。このように、ニューラルネットでは、線形層と、非線形層とを組み合わせて合成関数を構成する。

　一般に、深層学習のニューラルネットは線形層と非線形層とを複雑に多段に組み合わせて構成する。そこで、複雑なニューラルネットを設計する手間を省けるようにＧＵＩ（Graphical　User　Interface）等を用いた設計ツールなども提供されている。

　図１を用いて、ＧＵＩの一例について説明する。図１は、ＧＵＩの一例を説明するための図である。

　図１に示す画面ＩＭ１の上方にはツールの選択に用いられるボタンが並ぶツールバーが表示され、その下に、第１領域ＡＲ１と第２領域ＡＲ２が設けられる。

　図１中の左端部に設けられる矩形状の第１領域ＡＲ１は、ニューラルネットを構成する各種のコンポーネント等の選択に用いられる領域である。図１の例においては、各コンポーネントが、「IO」、「Loss」、「Parameter」、「Basic」、「Pooling」等のカテゴリ毎に表示される。

　例えば、「Loss」のコンポーネントには、「SquaredError」、「HuberLoss」、「AbsoluteError」等が含まれる。「Parameter」のコンポーネントには、「Parameter」、「WorkingMemory」等が含まれる。また、「Basic」のコンポーネントには、「Affine」、「Convolution」、「Deconvolution」、「Embed」等が含まれる。

　第２領域ＡＲ２は、第１領域ＡＲ１に示すようなコンポーネントを用いて設計したニューラルネットが表示される領域である。図１の例においては、「Input」、「Affine」、「Sigmoid」、「BinaryCrossEntropy」の各コンポーネントが順に選択された場合を示し、各コンポーネントを表すブロックＢＫ１～ＢＫ４が並べて表示されている。図１に示すブロックＢＫ１は、入力層に対応し、ブロックＢＫ２は、線形層に対応し、ブロックＢＫ３は、活性化層に対応し、ブロックＢＫ４は、ロス関数層に対応する。このように、図１に示すブロックＢＫ１～ＢＫ４は、入力層、線形層、活性化層、ロス関数層を含む学習用ニューラルネットを表す。

　そして、学習用データセットが指定され、学習の実行をユーザが指示した場合、このニューラルネットを用いた学習が行われる。このように、ユーザは、第１領域ＡＲ１からコンポーネントを選択することでニューラルネットの設計を行うことができる。

　図１に示すようにロス関数もニューラルネットを構成する層とみなしてＧＵＩで表すこともできる。例えば、回帰問題用のロス関数の代表例である二乗誤差ロスを１つのレイヤとしてもよい。また、分類問題用のロス関数の代表例であるクロスエントロピーロスを１つのレイヤとしてもよい。ニューラルネットにロス関数が設定されていると、そのニューラルネットを学習に用いることができる。すなわち、ロス関数の誤差を算出して逆伝搬することで、線形層などにあるニューラルネットのパラメータを更新することができる。

［１－３．量子アニーリング］
　量子アニーリングは、量子ビットと呼ばれる量子状態を実現したデバイスを用いて数値計算を行う量子計算の一種である。量子計算は、ゲート方式と、アニーリング方式とがよく知られている。

　ゲート方式は、予め決められたいくつかの基本的なゲートデバイスをプログラムに沿って組み合わせる方式である。ゲート方式は様々な計算に使用できることから汎用量子計算機と呼ばれることもある。ゲート方式で困難な課題は、計算中に量子状態を維持することである。現時点では、計算に量子状態を維持したまま使用できる量子ビットが数十ビットと数が少ないため、実用的な問題を解法するためには不十分であるとされている。

　アニーリング方式は、量子ビットを統計的に制御する方式である。アニーリング方式の主な用途は、離散最適化問題の解法である。アニーリング方式は、ゲート方式と比べると厳密に量子状態を維持することが求められていない。このため、現時点でも使用できる量子ビットが数千ビットを達成している。このため、アニーリング方式は、離散最適化の実用的な問題を解けるレベルにかなり近づいている。

　量子計算は、通常ゲート方式にユニバーサル量子計算を指すことが多い。アニーリング方式を発展させてゲート方式を実現でき、ゲート方式からアニーリング方式を実現できることが知られている。しかし、以下では、便宜的にアニーリング方式も含めて量子計算、量子計算機と呼ぶものとする。

［１－４．離散最適化問題］
　量子アニーリングは、離散最適化問題を最適化することができる。特に、量子アニーリングは、二値二次形式の目的関数の最適化問題を最適化することができる。二値二次形式の目的関数の最適化問題は、以下の式（４）のように記載することができる。

　式（４）において、Ｊ_ｉｊとｈ_ｋとをあわせて以下の式（５）のようにイジングモデルのパラメータを、λと定義する。

　式（５）のように記載されるλは、問題を最適化する間は固定されるパラメータである。目的関数を最小化するように最適化したい変数σは、以下の式（６）のように記載することができる。

　式（６）のように記載されるσは、－１または１のいずれかの値をとる二値離散変数の組み合わせである。

　離散最適化問題としては、後述するが、巡回セールスマン問題、クラスタリング、辞書学習、ブースティングなどが挙げられる。

　巡回セールスマン問題を最適化することで最適な経路を探索することができるため、例えば工場内などにおける工場内の配送技術や、製造工程などを最適に設計することができる。

　クラスタリングや辞書学習では、遺伝子・抗体の発現を予測することができるため、フローサイトメトリなどに適用することができる。クラスタリングや辞書学習では、消費者の嗜好性を分類することができるので、顧客の行動を予測することができる。

　ブースティングでは、高速に判別学習が行えるので、製品検査技術などに適用することができる。

［１－５．量子アニーラ］
　量子アニーラは、イジングモデルのエネルギーが最小となる解を、量子効果を使って効率的に探索する装置である。イジングモデルは、スピンが格子状に配置されたモデルである。図２は、イジングモデルを模式的に示す図である。イジングモデルとは、複数のスピンＳが格子状に配列されたモデルである。イジングモデルでは、スピンＳは、上向きまたは下向きのいずれか一方の状態をとる。詳細には、イジングモデルのハミルトニアンは、以下の式（７）のように記載される。

　式（７）において、σ_ｉは、ｉ番目のスピンである、Ｊ_ｉｊは、ｉ番目のスピンとｊ番目のスピンとの間に働く結合エネルギーである。ｈ_ｋは、ｋ番目のスピンに働く上下方向の磁場である。Ｊ_ｉｊまたはｈ_ｋのことを、単に、イジングモデルのパラメータまたはイジングモデルの係数と呼ぶこともある。

　イジングモデルでは、Ｊ_ｉｊは、隣接するスピン間にのみ０でない値をとるモデルである。量子アニーラでは、イジングモデルを一般化したスピングラスモデルを扱う。本明細書では、スピングラスモデルのことを通例に倣ってイジングモデルと呼んでいる。

　イジングモデルのスピン群の配置σは、式（８）のようにギブスボルツマン分布にしたがう。

　βは絶対温度の逆数であり、逆温度と呼ばれる。逆温度を大きくする（絶対零度に近づける）と、イジングモデルのスピン配置は基底状態をとる。すなわち、ハミルトニアンが最小とするスピン配置となる。このため、イジングモデルの温度を絶対零度にして、基底状態のスピン配置を観測すれば、ハミルトニアンを最小にするスピン配置を観測することができる。

　ここで、上述した二値二次形式の最適化問題を考える。二値二次形式の最適化問題の目的関数は、イジングモデルのハミルトニアン（エネルギー関数）と等価である。このため、量子アニーラでは、目的関数と同形式のハミルトニアンで表されるイジングモデルを物理デバイスとして設計する。言い換えれば、量子アニーラでは、Ｊ_ｉｊとｈ_ｋとを人工的に設計することができる。そして、設計した物理デバイスを絶対零度に近づけてからスピン配置を観測する。観測された値を二値変数の解とすることで、二値二次形式問題の最適化の解を得ることができる。

　しかしながら、問題に応じて、イジングモデルのパラメータを決定することは容易ではないことが多い。そのため、量子計算と深層学習とを融合させた技術で、最適化問題を解くことが望ましい。

　量子計算と深層学習の融合として、２つの技術が挙げられる。１つ目の技術は、量子アニーラによる最適化ソルバーの置き換えである。２つ目の技術は、量子ボルツマン機械学習である。

　深層学習のソルバーとして、合成関数の勾配法（最急降下法：ＳＧＤ（Steepest　Gradient　Descent））である誤差逆伝搬法を発展させた様々な手法がある。特に、Ａｄａｍ（Adaptive　Moment　Estimation）と呼ばれる手法では、ＳＧＤの持つ様々な問題（データスケールへの依存や時間応答性）が修正されている。そのため、現在ではＡｄａｍが、深層学習で最も使用されているソルバーである。

　深層学習のソルバーも、最適化アルゴリズムと捉えることができる。このため、深層学習のソルバーで、量子アニーラが実行する最適化の手法を使用するというアイデアがある。しかしながら、深層学習が扱えるパラメータは連続値であるが、量子アニーラが最適化できるパラメータは二値離散値である。深層学習において、連続値をデジタル化し離散値とすることも考えられるが、構成が複雑になり実現は困難であることが想定される。

　上述の非特許文献１では、通称「ＱＡｄａｍ」と呼ばれる技術が記載されている。非特許文献１では、量子アニーラが連続値を最適化できるようになったことを仮定している。そして、非特許文献１では、量子アニーラを深層学習のソルバーに利用したらどのような振る舞いをするかを、Ａｄａｍに類似したアルゴリズムでシミュレートしている。そのため、非特許文献１に記載の技術は、最適化ソルバーを実際に置き換えている訳ではないので、量子計算と深層学習の融合であるとは言えない。

　また、最適化ソルバーの置き換え自体は、深層学習で回帰や分類の様々な複雑な目的関数を持つ問題に対応するという課題には対応していない問題がある。

　ボルツマン機械学習は、ボルツマンマシンと呼ばれるモデルに対する学習であり、ボルツマンマシン自体は生成モデルによく用いられる。量子ボルツマンマシン機械学習は、ボルツマンマシンの学習や推論処理に量子アニーラを用いるものである。しかしながら、ボルツマンマシンは、現在では殆ど使われることはない。ボルツマンマシンは、イジングモデルのパラメータを直接学習するが、そのままでは構造が簡単であるため、現在の深層学習のような表現力をもっていない。一方、表現力を大きくするために構造を複雑にすると今度は、急激に学習が難しくなるという問題がある。

　そこで、本開示では、量子計算と深層学習を融合させることで、イジングモデルのパラメータを容易に求める方法を提案する。

［２．情報処理システム］
（２－１．情報処理システムの構成）
　図３を用いて、本開示の実施形態に係る情報処理システム１０の構成について説明する。図３は、本開示の実施形態に係る情報処理システム１０の構成の一例を示す図である。

　図３に示すように、情報処理システム１０は、情報処理装置１００と、量子計算機２００とを含む。情報処理装置１００は、有線または無線のネットワークＮＷを介して、量子計算機２００と通信可能に接続されている。ネットワークＮＷは、例えばインターネット等の通信回線である。

　情報処理装置１００は、種々の処理を実行する。情報処理装置１００は、例えば深層学習を実行する。情報処理装置１００は、コンピュータで実現することができる。量子計算機２００は、種々の量子計算を実行する。量子計算機２００は、例えば量子アニーラで実現することができる。なお、量子計算機２００は、イジングモデルを模した計算機であってもよい。

（２－２．イジングレイヤ）
　図４を用いて、本開示の実施形態に係る最適化レイヤを実現するイジングレイヤについて説明する。イジングレイヤは、イジングモデルを使って最適化を行うレイヤである。図４は、イジングレイヤを説明するための図である。

　情報処理システム１０は、量子計算機２００または量子計算機２００の表すイジングモデルを、深層学習のレイヤの１つとして扱うことができる。例えば、情報処理システム１０は、図１に示す画面ＩＭ１の第１領域ＡＲ１から、量子計算機２００または量子計算機２００の表すイジングモデルを、深層学習のレイヤの１つとして選択することができる。

　図４に示す例では、ブロックＢＫ１１と、ブロックＢＫ１２と、ブロックＢＫ１３とを含むニューラルネットが示されている。ブロックＢＫ１１は、入力されたデータＸから特徴量を抽出する特徴抽出ネットである。ブロックＢＫ１２は、所定のイジングモデルのパラメータを算出するパラメータ算出ネットである。ブロックＢＫ１３は、量子計算機２００に対応するイジングレイヤである。

　イジングレイヤの中には、量子アニーラまたはそれに準ずる二値二次形式最適化を実行するモジュールが配置されている。このため、イジングレイヤは、イジングモデルのスピン配置を求める構造を有している。

　深層学習のニューラルネットにおいて、１つ以上のレイヤがイジングレイヤ（イジングレイヤ）で構成されていることが、本開示の第１のポイントである。このような、ニューラルネットをイジングネットと呼ぶものとする。

　非特許文献１では、深層学習の最適化ソルバー自体を量子アニーラで置き換えようとしているのに対して、本開示では深層学習の最適化ソルバーは、ＳＧＤまたはＡｄａｍなどの深層学習の標準的なソルバーを用い、量子アニーラは、深層学習のレイヤの一つとして利用している。

　本開示では、例えばイジングレイヤを深層学習のロス関数層として利用する。言い換えれば、本開示では、ロス関数層がイジングレイヤで構成されたイジングネットを用いて学習する。これにより、本開示は深層学習が解ける問題を、分類および回帰に制限されず、量子アニーラが解けるとされる二値二次形式の目的関数をもつ問題全般に拡張することができる。すなわち、本開示は、イジングレイヤに内包されるイジングモデルが解ける問題全般を最適に解くことを可能にする。

（２－３．イジングモデルの係数）
　情報処理システム１０においては、イジングレイヤに接続されたニューラルネットからイジングモデルの係数（パラメータ）が入力される。詳細には、イジングレイヤには上述の式（７）のハミルトニアンで表されるイジングモデルのパラメータＪ_ｉｊとｈ_ｋが入力される。

　イジングレイヤの順方向の出力は、二値二次形式ロスの値である。情報処理システム１０においては、まず、イジングレイヤ内で量子アニーラまたはそれに準ずるアルゴリズムでイジングモデルの最適化されたスピン配置を求める。すなわち、式（７）で表されるハミルトニアン（目的関数）の値は、イジングモデルの最適化されたスピン配置のもとで計算した最小値のロスの値となる。イジングレイヤを量子アニーラで構成した場合には、例えばマイクロ秒オーダーでスピンの値を算出することができる。なお、イジングレイヤをロス関数層として用いる場合は、その出力が必要ないのであればロスの値を出力しなくともよい。

　量子ボルツマンマシンは、イジングモデルのパラメータを直接学習する。それに対し、本開示では、イジングモデルのパラメータをニューラルネットの出力として計算する。すなわち、イジングモデルのパラメータを、ニューラルネットのパラメータの学習を介して、動的に様々に変化させることができることが本開示の第２のポイントとなる。

（２－４．誤差逆伝搬）
　情報処理システム１０においては、イジングモデルの最適化されたスピン配置に基づく誤差がイジングレイヤに接続されたニューラルネットへ逆伝搬される。目的関数の誤差勾配は、以下の式（９）で表される。

　式（９）において、σ_ｉ、σ_ｊ、σ_ｋは、式（７）を最適化したスピン配置である。誤差逆伝搬のチェーンルールにより、イジングレイヤにおけるロスからの誤差が、ニューラルネットへの誤差勾配として配分されることが第３のポイントとなる。本開示では、式（９）で表される誤差勾配に基づいて、深層学習の標準的なソルバーを使って、ニューラルネットのパラメータを更新する。

（２－５．パラメータの学習）
　情報処理システム１０においては、イジングレイヤに接続されているニューラルネットのパラメータは、イジングレイヤから逆伝搬された誤差勾配をもとに、深層学習の標準的なソルバーで繰り替えし、学習されることが第４のポイントとなる。

　図５を用いて、本開示の実施形態に係るパラメータを学習する処理の流れについて説明する。図５は、本開示の実施形態に係るパラメータを学習する処理の流れを説明するための図である。

　図５に示すように、イジングネットＩＮは、特徴抽出ネットＲ１と、パラメータ算出ネットＲ２と、イジングレイヤＲ３とを含む。イジングレイヤＲ３は、ニューラルネットのロス関数層として機能する。

　学習部１５２は、深層学習処理部１５２１と、特徴抽出ネットＲ１と、パラメータ算出ネットＲ２とを含む。深層学習処理部１５２１は、イジングネットＩＮからの出力に基づいて学習を実行する。深層学習処理部１５２１は、学習用データをイジングネットＩＮに入力することで、学習を開始する。

（順方向処理）
　まず、イジングネットＩＮに入力された学習用データは、順方向に伝搬する。特徴抽出ネットＲ１は、特徴ベクトルｕをパラメータ算出ネットＲ２に出力する。パラメータ算出ネットＲ２は、イジングモデルのパラメータλ（J_ｉｊ、ｈ_ｋ）をイジングレイヤＲ３に出力する。イジングレイヤＲ３は、与えられたイジングモデルのパラメータのもとでイジングモデルの最適スピン配置を探索し、最適スピン配置における誤差（ロス）Ｌを求める。

（逆方向処理）
　続いて、イジングレイヤＲ３で得られた誤差情報が、逆方向に伝搬される。まず、イジングレイヤＲ３は、最適スピン配置の情報を、パラメータ算出ネットＲ２に逆伝搬する。パラメータ算出ネットＲ２は、イジングレイヤから受け取った最適スピン配置と、内部で算出したイジングモデルのパラメータごとの誤差勾配から、式（９）に従って、特徴ベクトルｕに関する誤差勾配を求め、特徴抽出ネットＲ１に誤差勾配を逆伝搬する。もし、パラメータ算出ネットＲ２にも学習パラメータがあれば、この学習パラメータに関する誤差勾配を求め、学習パラメータ毎に記憶しておく。この誤差勾配の計算は式（９）のｕを学習パラメータで置き換えた式で実行される。特徴抽出ネットＲ１では、特徴ベクトルｕに関する誤差勾配から、特徴抽出ネットＲ１内の学習パラメータに関する誤差勾配を求め、学習パラメータ毎に記憶しておく。この誤差勾配の計算は、通常のニューラルネットの誤差勾配の計算と同じである。

（パラメータ更新処理）
　深層学習処理部１５２１は、ニューラルネットのパラメータごとに蓄積された誤差勾配を、ＳＧＤやＡｄａｍなどの深層学習の標準的なソルバーを用いてニューラルネットのパラメータを更新する。これらの処理を繰り返すことで、ニューラルネットとイジングモデルのパラメータを更新していく。すなわち、本開示では、深層学習と量子計算を融合しているが、通常の深層学習と同様の手法でニューラルネットのパラメータを更新することができる。

　情報処理システム１０においては、イジングレイヤ以外のニューラルネットの順方向および逆方向の処理は通常の計算機で行い、イジングレイヤの処理は、量子計算機などの専用計算機で行う。このため、本開示では、通常の計算機から専用計算機への通信がなされる。

　詳細には、図３に示すように、情報処理システム１０は、情報処理装置１００と、量子計算機２００とを含む。情報処理装置１００と、量子計算機２００とは、ネットワークＮＷを介して、互いに通信可能に接続されている。この場合、情報処理装置１００がイジングレイヤ以外の処理を行い、量子計算機２００がイジングレイヤの処理を行う。

　情報処理装置１００は、ネットワークＮＷを介して、ニューラルネットの順方向の計算で算出されたイジングモデルのパラメータを量子計算機２００に送信する。そして、量子計算機２００は、情報処理装置１００から受けたイジングモデルのパラメータをもとにイジングモデルの最適スピン配置を探索することが第５のポイントとなる。量子計算機２００は、ネットワークＮＷを介して、最適スピン配置の探索結果を情報処理装置１００に送信する。すなわち、本開示では、情報処理装置１００と、量子計算機２００とによって、１つのニューラルネットを構成している。

［３．実施形態］
（３－１．情報処理装置の構成）
　次に、図６を用いて、本開示の実施形態に係る情報処理装置１００の構成の一例について説明する。図６は、本開示の実施形態に係る情報処理装置１００の構成の一例を示すブロック図である。

　図６に示すように、情報処理装置１００は、通信部１１０と、入力部１２０と、出力部１３０と、記憶部１４０と、制御部１５０とを備える。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）や通信回路等によって実現される。通信部１１０は、ネットワークＮＷと有線又は無線で接続されている。通信部１１０は、ネットワークＮＷを介して、通信制御部１５４の制御に従って他の装置等との間で情報の送受信を行う。

　入力部１２０は、ユーザから各種の操作を受け付ける。入力部１２０は、例えば、ユーザによる学習方法の選択を受け付ける。入力部１２０は、例えば、ユーザから情報処理装置１００で解くための問題を受け付ける。入力部１２０は、例えば、ユーザによるパラメータの値の入力を受け付ける。入力部１２０は、例えば、情報処理装置１００に設けられたキーボードやマウスやタッチパネルなどの電子機器で構成されている。なお、入力部１２０は、ユーザによる発話を入力として受け付けてもよい。この場合、入力部１２０は、マイクなどの音声入力装置で構成すればよい。

　出力部１３０は、各種の情報を出力する。出力部１３０は、各種の情報を表示する。出力部１３０は、例えば液晶ディスプレイ（ＬＣＤ：Liquid　Crystal　Display）または有機ＥＬ（Organic　Electro-Luminescence）ディスプレイ等を含むディスプレイで構成される。出力部１３０は、例えば、図１に図示の画面ＩＭ１を表示する。出力部１３０は、例えば、イジングモデルの最適化されたスピン配置のもとで計算したロスの値を表示する。出力部１３０は、ユーザから受け付けた問題の解を表示する。なお、出力部１３０は、音声を出力する機能を有してもよい。この場合、出力部１３０は、例えば、音声を出力するスピーカーで構成すればよい。

　記憶部１４０は、例えば、ＲＡＭ（Random　Access　Memory)、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４０は、データ記憶部１４１と、モデル記憶部１４２とを有する。

　データ記憶部１４１は、各種のデータを記憶する。データ記憶部１４１は、例えば、学習に用いるための各種の学習データを記憶する。モデル記憶部１４２は、学習済みのモデルを記憶する。モデル記憶部１４２は、例えば、学習部１５２によって学習されたモデルを記憶する。なお、モデル記憶部１４２は、学習部１５２によって学習される前の初期モデルを記憶してもよい。

　制御部１５０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、情報処理装置１００内部に記憶されたプログラムがＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１５０は、コントローラ（Controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現されてもよい。

　制御部１５０は、取得部１５１と、学習部１５２と、予測部１５３と、通信制御部１５４とを有する。なお、制御部１５０の内部構成は、図６に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部１５１は、各種の情報を取得する。取得部１５１は、外部の情報処理装置から各種の情報を取得する。取得部１５１は、外部の量子計算機２００から各種の情報を取得する。取得部１５１は、記憶部１４０から各種の情報を取得する。取得部１５１は、入力部１２０により受け付けられた入力情報を取得する。

　取得部１５１は、例えば、情報処理システム１０で解くための問題を取得する。取得部１５１は、例えば、学習前の初期モデルを取得する。取得部１５１は、例えば、学習に用いるための学習データを取得する。取得部１５１は、学習済みの学習モデルに入力するための実行用データを取得する。取得部１５１は、例えば、外部の量子計算機２００からイジングモデルの最適スピン配置に関する情報を取得する。

　学習部１５２は、各種学習を行う。学習部１５２は、取得部１５１により取得された情報に基づいて、各種情報を学習する。学習部１５２は、記憶部１４０のデータ記憶部１４１に記憶された学習データに基づいて、各種情報を学習する。学習部１５２は、初期モデルと学習データに基づいて学習し学習モデルを生成する。学習部１５２は、例えば学習モデルとして、例えば、イジングモデルのパラメータを計算するニューラルネットを生成する。

　学習部１５２は、取得部１５１により取得された情報に基づいて、学習モデルを更新する。学習部１５２は、記憶部１４０に記憶された情報に基づいて、学習モデルを更新する。例えば、学習部１５２は、ニューラルネットのパラメータを学習する。また、学習部１５２は学習したニューラルネットを用いて、イジングモデルのパラメータを算出する。学習部１５２は、外部の量子計算機２００から取得したイジングモデルの最適スピン配置に基づく誤差を逆伝搬して、ニューラルネットのパラメータを更新する。

　予測部１５３は、各種の情報を予測する。予測部１５３は、例えば、取得部１３１により取得された各種情報に基づいて、種々の情報を予測する。予測部１５３は、例えば、データ記憶部１４１と、モデル記憶部１４２に記憶された情報を用いて種々の情報を予測する。詳細には、予測部１５３は、データ記憶部１４１に記憶された実行用データと、モデル記憶部１４２に記憶された学習モデルに基づいて実行結果を予測する。

　通信制御部１５４は、通信部１１０を介した情報の送受信を制御する。通信制御部１５４は、通信部１１０を制御して、他の情報処理装置と通信を行う。通信制御部１５４は、通信部１１０を制御して、量子計算機２００と通信を行う。

（３－２．量子計算機の構成）
　次に、図７を用いて、本開示の実施形態に係る量子計算機２００の構成の一例について説明する。図７は、本開示の実施形態に係る量子計算機２００の構成の一例を示すブロック図である。

　図７に示すように、量子計算機２００は、通信部２１０と、入力部２２０と、量子デバイス部２３０と、制御部２４０とを備える。

　通信部２１０は、例えば、ＮＩＣや通信回路等によって実現される。通信部２１０は、ネットワークＮＷと有線又は無線で接続されている。通信部１１０は、ネットワークＮＷを介して、通信制御部１５４の制御に従って他の装置等との間で情報の送受信を行う。

　入力部２２０は、ユーザから量子計算機２００に対する各種の入力を受け付ける。入力部２２０は、例えば、ユーザから量子デバイス部２３０を測定するための指示を受け付ける。

　量子デバイス部２３０は、種々の量子計算を実行する。量子デバイス部２３０は、例えば、情報処理装置１００から受け付けたイジングモデルのパラメータに基づいて、そのイジングモデルの基底状態を実現する。言い換えれば、量子デバイス部２３０は、イジングモデルが基底エネルギー状態となる最適スピン配置を実現する。すなわち、量子デバイス部２３０は、最適化問題を最適化した状態を実現する。

　量子デバイス部２３０は、例えば、複数の量子ビットから構成される。量子デバイス部２３０は、予め絶対零度付近まで冷却しておく。量子デバイス部２３０にイジングモデルのパラメータが入力された後、量子デバイス部２３０は内部でイジングモデルと横磁場モデル（量子ゆらぎモデル）の比率を時間発展させることで、量子デバイス部２３０上で、イジングモデルのパラメータに応じた最適なスピン配置が実現する。すなわち、本開示では、量子デバイス２３０部上でイジングモデルの最適なスピン配置が物理的に実現されている。そのため、本開示はイジングモデルの最適なスピン配置を得るためのデジタル計算アルゴリズムを用いることなく、量子デバイス部２３０を測定することだけでイジングモデルの最適なスピン配置を得ることができる。これより、量子デバイス部２３０は、例えば、離散最適化問題を最適化することができる。特に、量子デバイス部２３０は、二値二次形式の目的関数の最適化問題を最適化することができる。

　制御部２４０は、例えば、ＣＰＵやＭＰＵ等によって、情報処理装置１００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部２４０は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

　制御部２４０は、取得部２４１と、測定部２４２と、通信制御部２４３とを有する。なお、制御部２４０の内部構成は、図７に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　取得部２４１は、各種の情報を取得する。取得部２４１は、外部の情報処理装置１００から各種の情報を取得する。取得部２４１は、入力部２２０により受け付けられた入力情報を取得する。取得部２４１は、例えば、外部の情報処理装置からイジングモデルのパラメータに関する情報を取得する。取得部２４１は、測定部２４２による量子デバイス部２３０の測定結果を取得する。

　測定部２４２は、量子デバイス部２３０を測定する。測定部２４２は、イジングモデルの最適スピン配置が実現された量子デバイス部２３０を測定する。

　通信制御部２４３は、通信部２１０を介した情報の送受信を制御する。通信制御部２４３は、通信部２１０を制御して、他の情報処理装置と通信を行う。通信制御部２４３は、通信部２１０を制御して、情報処理装置１００と通信を行う。

（３－３．学習処理）
　次に、図８を用いて、本開示の実施形態に係る情報処理システム１０の学習処理の流れについて説明する。図８は、本開示の実施形態に係る情報処理システム１０の学習処理の流れの一例を示すフローチャートである。

　まず、制御部１５０は、初期モデルを取得する（ステップＳ１０１）。詳細には、取得部１５１が外部の情報処理装置またはモデル記憶部１４２から初期モデルを取得する。そして、ステップＳ１０２に進む。

　制御部１５０と、制御部２４０とは、情報処理装置１００と、量子計算機２００との間で通信を確立する（ステップＳ１０２）。詳細には、通信制御部１５４と、通信制御部２４３とによって、情報処理装置１００と、量子計算機２００との間において、通信可能な状態に情報処理装置１００と、量子計算機２００とをセットアップする。そして、ステップＳ１０３に進む。

　制御部１５０は、モデル（ニューラルネット）を学習するための学習用データを取得する（ステップＳ１０３）。詳細には、取得部１５１が外部の情報処理装置またはデータ記憶部１４１から学習用データを取得する。そして、ステップＳ１０４に進む。

　制御部１５０は、学習用データをニューラルネットに入力する（ステップＳ１０４）。詳細には、学習部１５２が学習部１５２のニューラルネットに学習用データを入力する。そして、ステップＳ１０５に進む。

　制御部１５０は、イジングモデルのパラメータを算出する（ステップＳ１０５）。詳細には、学習部１５２が学習用データをニューラルネットに順方向に伝搬することで、ニューラルネットからイジングモデルのパラメータを算出する。そして、ステップＳ１０６に進む。

　制御部１５０は、イジングモデルのパラメータを量子計算機２００に入力する（ステップＳ１０６）。詳細には、通信制御部１５４が、通信部１１０を介して、イジングモデルのパラメータを量子計算機２００に入力する。また、量子計算機２００に入力されたイジングモデルのパラメータは量子デバイス部２３０に入力される。そして、ステップＳ１０７に進む。

　制御部２４０は、情報処理装置１００から入力されたイジングモデルのパラメータに応じた、イジングモデルの最適スピン配置を探索する（ステップＳ１０７）。詳細には、測定部２４２が量子デバイス部２３０を測定することで、イジングモデルの最適スピン配置を探索する。そして、ステップＳ１０８に進む。

　制御部２４０は、最適スピン配置の探索結果を情報処理装置１００に入力する（ステップＳ１０８）。詳細には、通信制御部２５３が、通信部２１０を介して、最適スピン配置の探索結果を情報処理装置１００に入力する。また、情報処理装置１００に入力された最適スピン配置の探索結果は学習部１５２に入力される。そして、ステップＳ１０９に進む。

　制御部１５０は、目的関数の誤差を算出する（ステップＳ１０９）。詳細には、学習部１５２が最適スピン配置をもとに目的関数の誤差を算出する。そして、ステップＳ１１０に進む。

　制御部１５０は、目的関数の誤差をニューラルネットに入力する（ステップＳ１１０）。詳細には、学習部１５２が学習部１５２のニューラルネットに目的関数の誤差を入力し逆伝搬する。そして、ステップＳ１１１に進む。

　制御部１５０は、イジングモデルのパラメータを更新する（ステップＳ１１１）。詳細には、学習部１５２が予め設定された深層学習のソルバーを用いて、誤差逆伝搬で得られたパラメータごとの誤差勾配を使ってニューラルネットのパラメータを更新する。そして、ステップＳ１１２に進む。

　制御部１５０は、学習が収束したか否かを判定する（ステップＳ１１２）。詳細には、学習部１５２が、学習が収束したか否かを判定する。学習が収束していないと判定された場合（ステップＳ１１２のＮｏ）、ステップＳ１０３に進む。一方、学習が収束したと判定された場合（ステップＳ１１２のＹｅｓ）、ステップＳ１１３に進む。

　ステップＳ１１２でＹｅｓと判定された場合、制御部１５０は、学習モデルを出力する（ステップＳ１１３）。詳細には、学習部１５２が学習モデルを出力する。学習部１５２が出力した学習モデルは、例えばモデル記憶部１４２に格納される。そして、図８の処理は終了する。

（３－４．予測処理）
　次に、図９を用いて、本開示の実施形態に係る情報処理システム１０の予測処理の流れについて説明する。図９は、本開示の実施形態に係る情報処理システム１０の予測処理の流れの一例を示すフローチャートである。

　まず、制御部１５０は、学習モデルを取得する（ステップＳ２０１）。詳細には、取得部１５１がモデル記憶部１４２から学習モデルを取得する。そして、ステップＳ２０２に進む。

　制御部１５０と、制御部２４０とは、情報処理装置１００と、量子計算機２００との間で通信を確立する（ステップＳ２０２）。詳細には、通信制御部１５４と、通信制御部２４３とによって、情報処理装置１００と、量子計算機２００との間において、通信可能な状態に情報処理装置１００と、量子計算機２００とをセットアップする。そして、ステップＳ２０３に進む。

　制御部１５０は、実行用データを取得する（ステップＳ２０３）。詳細には、取得部１５１が外部の情報処理装置またはデータ記憶部１４１から実行用データを取得する。そして、ステップＳ２０４に進む。

　制御部１５０は、実行用データをニューラルネットに入力する（ステップＳ２０４）。詳細には、学習部１５２が学習部１５２のニューラルネットに実行用データを入力する。そして、ステップＳ２０５に進む。

　制御部１５０は、イジングモデルのパラメータを算出する（ステップＳ２０５）。詳細には、学習部１５２が実行用データをニューラルネットの順方向に伝搬することで、イジングモデルのパラメータを算出する。すなわち、学習部１５２は、最適化問題のパラメータを算出する。そして、ステップＳ２０６に進む。

　制御部１５０は、イジングモデルのパラメータを量子計算機２００に入力する（ステップＳ２０６）。詳細には、通信制御部１５４が、通信部１１０を介して、イジングモデルのパラメータを量子計算機２００に入力する。また、量子計算機２００に入力されたイジングモデルのパラメータは量子デバイス部２３０に入力される。そして、ステップＳ２０７に進む。

　制御部２４０は、情報処理装置１００から入力されたイジングモデルのパラメータに応じた、イジングモデルの最適スピン配置を探索する（ステップＳ２０７）。詳細には、測定部２４２が量子デバイス部２３０を測定することで、イジングモデルの最適スピン配置を探索する。そして、ステップＳ２０８に進む。

　制御部２４０は、最適スピン配置の探索結果を情報処理装置１００に入力する（ステップＳ２０８）。詳細には、通信制御部２５３が、通信部２１０を介して、最適スピン配置の探索結果を情報処理装置１００に入力する。また、情報処理装置１００に入力された最適スピン配置の探索結果は予測部１５３に入力される。そして、ステップＳ２０９に進む。

　制御部１５０は、イジングモデルの最適スピン配置に基づいて、予測結果を出力する（ステップＳ２０９）。詳細には、予測部１５３がイジングモデルの最適スピン配置に基づいて予測結果を出力する。そして、図９の処理は終了する。

（３－５．深層学習フレームワーク）
　次に、図１０を用いて、本開示の実施形態に係るニューラルネットを生成する方法について説明する。図１０は、本開示のニューラルネットを設計する方法を説明するための図である。

　本開示では、学習部１５２で学習するニューラルネットは、深層学習フレームワークを用いて設計する。例えば、イジングレイヤを含む場合のニューラルネットは図１０に示すニューラルネットＮＮ１で表すことができる。図１０に示す例は、周知の深層学習ライブラリを利用する例を示している。

　ニューラルネットＮＮ１には、「nn.Variable([n1,])」「feature_net」、「problem_net」、および「F.ising」との４つの関数が含まれている。

　「nn.Variable([n1,])」は、入力されるデータを意味している。

　ニューラルネットＮＮ１において、「feature_net」は、入力されたデータ「nn.Variable([n1,])」を、解きたい問題を解くために必要となる特徴量ｆに変換するニューラルネットに、ビルドする関数である。「feature_net」には、学習可能なニューラルネットのパラメータが含まれている（内包されている）。

　「problem_net」は、特徴量をもとに、解きたい問題からイジングモデルのパラメータを算出するレイヤである。「problem_net」は、解きたい問題に依存しており、詳細は後述する。

　「F.ising」は、入力されたパラメータに応じて、内部でイジングモデルをビルドする関数である。「problem_net」で得られたイジングモデルのパラメータは、「F.ising」に入力される。

　次に、図１１を用いて、ニューラルネットを学習させる処理について説明する。図１１は、本開示の実施形態に係るニューラルネットを学習させる処理を説明するための図である。

　図１０に示されるような、ニューラルネットＮＮ１を学習するには、図１１に示すような学習Ｌ１のようにフレームワークを記載する。

　学習Ｌ１には、「solver.zero_grad()」、「l.forward()」、「l.backward()」、および「solver.update()」の４つの処理が含まれている。

　「solver.zero_grad()」は、誤差勾配をゼロにする処理を実行する。

　「l.forward()」は、入力ｘからロスlを算出するまでの順方向の処理を実行する。この処理において、「feature_net」や、「problem_net」でビルドされたニューラルネットの処理は、通常のニューラルネットの順方向の処理と同等の処理を行う。一方、「F.ising」でビルドされたイジングレイヤは、内部で二値二次形式のロスを最小化するためのアニーリングによる最適化の処理を行い、得られたスピン配置をもとに計算したロスを出力する。

　「l.backward()」は、ロスを最小化するための勾配を逆伝搬する処理を行う。「l.forward()」の場合と同様、「feature_net」や、「problem_net」でビルドされたニューラルネットの処理は、通常のニューラルネットの誤差逆伝搬の処理と同等の処理を行う。一方、「F.ising」でビルドされたイジングレイヤは、「l.forward()」処理ですでに計算されたスピン配置を記憶しておき、その、スピン配置をもとに前のレイヤに逆伝搬する勾配を算出する。

　「solver.update()」は、ニューラルネットのパラメータの更新をすでに得られた誤差勾配を利用して行う処理である。この処理は、通常の深層学習と同様に、予め決められたソルバーに基づいて、予め決められたニューラルネットのパラメータを更新する。ここでは、イジングレイヤのパラメータは学習しない。

　図１に示すようなグラフィカルユーザインターフェースを用いて、ニューラルネットワークコンソールを利用する場合には、図１に示すようなグラフィカルユーザインターフェースを用いて、図４に示すようにニューラルネットの設計を行うようにしても良い。

　図４において、特徴抽出ネットは、図１０に図示の「feature_net」の関数でビルドされるニューラルネットである。特徴抽出ネットは、実際には、様々なレイヤがスタックされた構成を有しているが簡略化して１つのブロックで示している。特徴抽出ネットは、入力されたデータから解きたい問題に用いられる特徴量を算出する。

　パラメータ算出ネットは、図１０に図示の「problem_net」の関数でビルドされるニューラルネットである。パラメータ算出ネットは、所定の最適化問題のパラメータを算出する。

　パラメータ算出ネットの役割は、最適化問題のパラメータを算出することである。すなわち、パラメータ算出ネットは、最適化問題のパラメータである二値二次形式ロスの各項に係る係数を算出する。なお、二値二次形式のかわりに、Ｎ値Ｄ次形式と一般化しても良い。このように、パラメータ算出ネットは、ニューラルネットで計算された特徴量からイジングモデルのパラメータを算出する。

　一方、パラメータ算出ネットには、イジングレイヤからイジングモデルの基底状態の最適スピン配置に基づいて算出された誤差勾配が逆伝搬される。この誤差勾配は、チェーンルールに基づいて、パラメータ算出ネットへの入力である特徴ベクトルｆに関する誤差勾配が算出され、特徴算出ネットへ逆伝搬される。もし、パラメータ算出ネットの中に、学習可能なパラメータがあれば、そのパラメータに関する誤差勾配が逆伝搬される。

　パラメータ算出ネットは、簡略化して１つのブロックで示しているが、様々なレイヤをスタックして構成することも考えられる。また、パラメータ算出ネットは、解きたい問題に依存するため一意には決まらない。しかし、最適化問題を解くためのイジングモデルのパラメータを算出する点においてはどのような場合であっても同じである。

　解きたい問題については、代表的な最適化問題について、それぞれ名前を付与してリストアップされていて、共通に使えるようになっていてもよい。代表的な問題とは、たとえば、巡回セールスマン問題(TSP:Traveling　Salesman　Problem)、クラスタリング問題(Clustering)、グラフ彩色問題などである。たとえば、F.tsp(f)、F.clustering(f)などのレイヤとしてもよい。さらに、これらの代表的問題レイヤは、イジングレイヤと予め結合しているレイヤであってもよい。

　イジングレイヤには、イジングモデルのパラメータが入力される。イジングレイヤは、入力されたパラメータに基づいて、イジングモデルの最適スピン配置を算出する。イジングレイヤは、算出した最適スピン配置を用いて、イジングモデルのパラメータに関する誤差勾配をパラメータ算出ネットに逆伝搬する。イジングレイヤは、例えば図１に図示のグラフィカルユーザインターフェースの画面ＩＭ１から選択できるようになっている。イジングレイヤは、ユーザが画面ＩＭ１から選択することで利用することができる。同様にパラメータ算出レイヤも、前述の代表的な問題が選択できるようになっているものとする。たとえば、前述のような巡回セールスマン問題、クラスタリング問題、グラフ彩色問題である。また、画面上に、これらのレイヤのカテゴリとして、最適化問題レイヤなどの名前が付与されているようにしてもよい。

　なお、イジングモデルの係数は二次の項と一次の項とでは、テンソルの次元が異なるのでパラメータ算出ネットＢＫ１２は２つのブロックに分けてもよい。

　図１２を用いて、ニューラルネットの変形例について説明する。図１２は、本開示に係るニューラルネットの変形例を説明するための図である。

　図１２に示すように、ニューラルネットＮＮ１Ａは、ブロックＢＫ１１と、ブロックＢＫ１２１と、ブロックＢＫ１２２と、ブロックＢＫ１３とを含む。ブロックＢＫ１２１は、二次係数算出ネットである。ブロックＢＫ１２２は、一次係数算出ネットである。

　二次係数算出ネットは、イジングモデルの二次係数を算出するブロックである。一次係数算出ネットは、イジングモデルの一次係数を算出するブロックである。二次係数算出ネットと、一次係数算出ネットとは、簡略化して１つのブロックで示しているが、様々なレイヤをスタックして構成することも考えられる。

　深層学習と量子アニーラの融合について説明する。

　情報処理システム１０においては、量子アニーラが扱う問題を深層学習で学習できる。量子アニーラは、問題の最適化処理を実行する。深層学習で、量子アニーラで扱う問題を表現学習する場合、量子アニーラが実行する最適化処理を内包しながら、その外側で学習しなければならない。このため、量子アニーラが扱う問題の最適化処理の時間がかかると、外側の学習は更に時間がかかるため、現状の最適化アルゴリズムでは、実用な時間で学習できないという問題があった。

　本開示では、最適化処理を量子アニーラで実行することで、実用的な時間で学習することができる。

　本開示では、イジングレイヤ以外の順方向および逆方向の処理は情報処理装置１００で行い、量子計算機２００で行う。

　情報処理装置１００は、ニューラルネットの順方向の計算でイジングモデルのパラメータを算出する。情報処理装置１００は、算出したイジングモデルのパラメータを量子計算機２００に送信する。量子計算機２００は、イジングモデルのパラメータに応じた最適なスピン配置を探索する。量子計算機２００は、最適なスピン配置の探索結果を情報処理装置１００に送信する。

　量子計算機２００は、必ずしもオンプレミスなサーバ上に構築する必要はない。例えば、量子計算機２００は、クラウドコンピューティングによって、遠隔で整備されるようにしてもよい。

　また、量子計算機２００を使うことは、量子計算機２００を使用するユーザに対してメリットを享受する。そのため、量子計算機２００の使用に、課金システムを導入してもよい。課金の方法としては、例えば量子計算機２００をイジングレイヤとして使用する１回あたりの金額、またはイジングレイヤの規模に応じた金額という設定が考えられる。

　また、イジングレイヤをグラフィカルユーザインターフェースによって使用する際に、「このレイヤを使用すると課金されます。」といったメッセージが提示されるようにしてもよい。課金額は、例えばイジングレイヤの規模や、繰り返し回数などで決まる。

　さらに、量子計算機２００は、必ずしも量子アニーラのような量子計算機でなくてもよい。量子アニーラのようにイジングモデルのエネルギー最小化を用いて二値二次形式最適化を行う機械をイジングマシンと呼ぶ。量子計算機２００の代わりに、イジングマシンとして知られるデジタルアニーラ、ＣＭＯＳアニーリングマシンであってもよい。あるいは、量子計算機２００の代わりに、二次計画問題の古典ソルバーであってもよい。そのため、イジングレイヤとして、量子アニーラ、デジタルアニーラ、ＣＭＯＳアニーリングマシン、および古典ソルバーのいずれを使用するかをユーザが選択できるインターフェースがあってもよい。また、量子アニーラ、デジタルアニーラ、ＣＭＯＳアニーリングマシン、および古典ソルバーのそれぞれについて、計算見込時間と、課金額を提示して、ユーザが選択する際の指針となる情報を提示してもよい。

（３－６．問題の種類）
　次に、量子計算機で解くことのできる問題の種類について説明する。

　量子計算機２００は、例えば巡回セールスマン問題、グラフ彩色問題、クラスタリング問題などを解くことができる。

　量子計算機２００は、例えば分割問題（Partitioning　Problems）を解くことができる。分割問題としては、例えば数分割（Number　Partitioning）、グラフ分割（Graph　Partitioning）、最大クリーク問題（Cliques）を挙げることができる。

　また、量子計算機２００は、例えば二値整数線型計画（Binary　Integer　Linear　Programming）を解くことができる。

　また、量子計算機２００は、例えば被覆・パッキング問題（Covering　and　Packing　Problems）を解くことができる。被服・パッキング問題としては、例えば厳密被覆問題（Exact　Cover）、集合パッキング問題（Set　Packing）、頂点被覆問題（Vertex　Cover）、充足可能性問題（SAT;　Satisfiability）、最小重み最大マッチング問題（Minimal　Maximal　Matching）を挙げることができる。

　また、量子計算機２００は、例えば不等式を伴う問題を解くことができる。不等式を扱う問題としては、例えば集合被覆問題（Set　Cover）、整数重みナップサック問題（Knapsack　with　Integer　Weights）を挙げることができる。

　また、量子計算機２００は、例えば彩色問題（Coloring　Problems）を解くことができる。彩色問題としては、例えばグラフ彩色問題（Graph　Coloring）、クリーク被覆問題（Clique　Cover）、ジョブスケジューリング問題（Job　Sequencing　with　Integer　Lengths）を挙げることができる。

　また、量子計算機２００は、例えばハミルトンサイクル（Hamiltonian　Cycles）を解くことができる。ハミルトンサイクルとしては、例えばハミルトンサイクル・ハミルトン路探索（Hamiltonian　Cycles　and　Paths）、巡回セールスマン問題（Traveling　Salesman）を挙げることができる。

　また、量子計算機２００は、例えば木問題（Tree　Problems）を解くことができる。木問題としては、例えば最大次数制約付き最小全域木（スパニング・ツリー）問題（Minimal　Spanning　Tree　with　a　Maximal　Degree　Constraint）、シュタイナー木（Steiner　Trees）、有向フィードバック頂点集合問題（Directed　Feedback　Vertex　Set）、無向フィードバック頂点集合問題（Undirected　Feedback　Vertex　Set）、フィードバック辺集合問題（Feedback　Edge　Set）を挙げることができる。

　また、量子計算機２００は、グラフ同型性判定問題（Graph　Isomorphism）を解くことができる。

　量子計算機２００が解くことのできる問題は、いずれも、ある種の特徴量の関数としてイジングモデルのハミルトニアンが決められている。本開示は、学習を利用して特徴量を求める必要がある場合に、用いられる。

（３－６－１．巡回セールスマン問題）
　以下では、量子アニーリングの代表的なアプリケーションの１つである巡回セールスマン問題を例に説明する。

　巡回セールスマン問題を、二値二次係数のロス関数で定式化する場合、以下の式（１０）のように表すことができる。

　式（１０）において、Ｌは総距離、ｄ_ｉ,ｊは都市ｉと都市ｊの間の距離、ａは訪問の順番を表す。また、ｎ_ａ,ｉは０または１を取る変数である。そのため、ｎ_ａ,ｉはイジングモデルのスピン変数σ_ａ,ｉに変換（σ_ａ,ｉ＝２ｎ_ａ,ｉ－１）できる。

　通常の巡回セールスマン問題であれば、ｄ_ｉ,ｊの値は一定値である。しかしながら、例えば距離ｄ_ｉ,ｊがパラメータにより可変である場合を考える。通常は、距離ｄ_ｉ,ｊは変化しないので、距離ｄ_ｉ.ｊが変化することは都市ｉから都市ｊまでの移動に要する所要時間が変化すると解釈することが適切である。移動に要する所要時間に影響を与えそうなパラメータは、例えば移動速度や時間帯などである。移動に要する所要時間に影響を与えそうなパラメータは、移動速度や時間帯以外であってもよい。また、都市計画や公共事業などで距離ｄ_ｉ,ｊが変わることを考えてもよい。これらの入力をまとめてｘと表すことにする。ここで、式（１０）の距離ｄ_ｉ,ｊを以下の式（１１）に置き換える。

　式（１１）において、θは入力から実行距離ｆ_θ（ｘ，｛ｄ_ｉ,ｊ｝）への非線形変換を表すパラメータである。また、実行距離ｆ_θ（ｘ，｛ｄ_ｉ、,ｊ｝）は、距離を満たすように正の値とする。実行距離ｆ_θ（ｘ，｛ｄ_ｉ,ｊ｝）は、様々なデータを用意して、補正値を最小にするパラメータθを学習することで得られる。なお、ｆ_θは正の値にすることなどを含めて構造は設計者が決定する。

　巡回セールスマン問題の場合、ニューラルネットとイジングレイヤの間には、巡回セールスマン問題係数レイヤが挟まれことになる。ここで、ニューラルネットは式（１１）の処理をするニューラルネットである。また、巡回セールスマン問題係数レイヤは、式（１１）から式（１０）を経て、イジングモデルのパラメータを生成するレイヤである。これは、前述のパラメータ算出レイヤに相当する。このレイヤは、解きたい問題の種別に依存するレイヤである。このレイヤの典型的な引数を持つものを代表的なレイヤとして、深層学習開発フレームワークなどで利用できるようにしてもよい。

（３－６－２．クラスタリング）
　以下では、量子アニーリングでクラスタリングを行う場合について説明する。

　クラスタリングに適したイジングモデルのハミルトニアンは、以下の式（１２）のように表すことができる。

　式（１２）において、ｄ_ｉｊは、点ｉと点ｊとの間の距離である。ｑ_ｉｋは、点ｉがクラスタｋに属する場合に１、そうでない場合は０を取る変数である。そのため、ｑ_ｉｋはイジングモデルのスピン変数σ_ｉkに変換（σ_ｉｋ＝２ｑ_ｉk－１）できる。第二項は、各点はクラスタのどれにも所属していない、複数のクラスタに所属する場合にペナルティを課す役割を果たしている。

　式（１２）の変数ｑ_ｉｋをスピン変数σ_ｉkに置き換えた上で、展開すると、スピン変数に関して一次の項と二次の項に分解される。このうち二次の項の係数には、距離ｄ_ｉｊが含まれる。すなわち、距離ｄ_ｉｊは、イジングモデルのハミルトニアンのパラメータを決める値である。

　クラスタリングをする場合、クラスタリングしたいデータは、データの空間内で固定されていることが多い。しかし、深層学習では、たとえば、データが特徴空間内の点（ベクトル）である場合も多い。また、学習により、データが特徴空間の別の点に移動する、あるいは、特徴空間自体が変貌し、結果としてデータの特徴ベクトルが変化する、といったことが起こることもしばしばある。深層学習における特徴空間上の距離は以下の式（１３）のように表すことができる。

　式（１３）において、ｘ_ｉおよびｘ_ｊは、ニューラルネットへの入力（例えば、画像）である。θはニューラルネットのパラメータである。ｆ_θは、ニューラルネットで構成された入力から特徴空間へのマッピングを表す関数である。式（１３）の距離を使って、式（１２）にある距離ｄ_ｉｊを置き換えることを考える。このとき、式（１２）は、ニューラルネットが算出した特徴ベクトル間の距離という変数を、イジングモデルのパラメータに変換する役割を担っている。これが、前述のパラメータ算出レイヤの処理である。このレイヤは、たとえば、代表的なレイヤとして、開発フレームワークから簡単に利用できるようにしてあってもよい。あるいは、パラメータ算出レイヤとイジングレイヤをあわせて、クラスタリングレイヤとして、開発フレームワークから簡単に利用できるようにしてあってもよい。

　このようなクラスタリングと深層学習の組み合わせは、普通の深層学習と同じように、一般的なミニバッチ学習を用いる。ミニバッチ学習は、学習データからミニバッチをサンプリングしてミニバッチ内でニューラルネットのパラメータ更新を行う学習である。イジングレイヤは、ニューラルネットのほかのレイヤと同じ使い方ができるため、学習処理は、特段大きな変更を加えず実行できる。

　図１３を用いてクラスタリングの最適化問題について説明する。図１３は、クラスタリングの最適化問題を説明するための図である。

　図１３は、画像データＩＤ１と、画像データＩＤ２と、画像データＩＤ３と、画像データＩＤ４と、画像データＩＤ５と、画像データＩＤ６と、画像データＩＤ７と、画像データＩＤ８とを特徴空間にマッピングした図である。画像データＩＤ１～画像データＩＤ８とのそれぞれの間の距離ｄ_ｉｊを式（１３）に従って算出し、画像データＩＤ１～画像データＩＤ８をクラスタリングする。

　図１３では、画像データＩＤ１～画像データＩＤ４が同一のクラスに分類され、画像データＩＤ５～画像データＩＤ８が同一のクラスに分類されている。ここで、クラスタリングを行いながら特徴空間を生成する処理は、負荷が大きく処理が終了するまでに時間がかかる。また、バッチデータのサイズが大きくなることによっても負荷が大きくなり、処理が終了するまでに時間がかかる。本開示では、ニューラルネットで距離ｄ_ｉｊを算出後、量子アニーラに出力する。上述したように、量子アニーラでは、式（１２）で示されるようなハミルトニアンを瞬間的に最適化することができる。言い換えれば、ニューラルネットに量子アニーラを内包することによって、深層学習の特徴空間上でのクラスタリング問題をエンドtoエンドで高速に解くことができる。

　クラスタリングでは、学習時は学習データセットからミニバッチをサンプルして、それらで最適なクラスタリングを実現するようなニューラルネットのマッピングを学習する。この学習により、最適にクラスタリングができるようなメトリック学習が実現できる。

　クラスタリングは学習技術の中では教師なし学習に分類される。このクラスタリングを応用する例の一つとして、半教師学習が考えられる。

　半教師学習は、教師なし学習と教師あり学習を組み合わせる学習技術である。たとえば、半教師学習は、教師ありデータが不十分で教師あり学習では十分な学習ができないときに、教師なしデータを使って学習を促進するために使われる。たとえば、教師なしデータはたくさん集められるが、教師ありデータを集めるのが困難な場合に、使うことができる。

　半教師学習は、以下の式（１４）で示されるような教師なし学習の目的関数と、教師あり学習の目的関数を足し合わせた目的関数を小さくするようにニューラルネットのパラメータを学習する。

　式（１４）において、左辺は、半教師学習の目的関数であり、Ｘ_Ｓは教師ありデータ、Ｙ_Ｓは対応する教師データ（ラベル）、Ｘ_ｕは教師（ラベル）なしデータ、θはニューラルネットのパラメータである。また、右辺第一項は、教師あり学習の目的関数で、教師ありデータとラベルを用いて算出し、第二項は、教師なし学習の目的関数である。

　右辺の第一項の教師あり学習は、教師あり学習用のニューラルネットをビルドして、普通の学習で行う。教師あり学習用のニューラルネットは、データを特徴空間にマッピングして、これをクラス確率に変換して、ラベルとのクロスエントロピーをロスとするニューラルネットである。学習は、教師あり学習用データセットからデータとラベルのミニバッチをサンプリングして、データから特徴空間へのマッピングをするニューラルネットのパラメータを更新することで行う。

　これに対して、第二項の教師なし学習は、様々な手法が知られているが、ここでは、前述の特徴空間上でのクラスタリングを用いる方法を説明する。

　教師なし学習用のニューラルネットは、データを特徴空間にマッピングして、これら特徴ベクトル間の距離からイジングモデルのパラメータを算出し、そのパラメータをイジングレイヤに接続したニューラルネットである。学習は、教師なし学習用データセットから、データのミニバッチをサンプリングして、このミニバッチを用いて学習する。学習の仕方は、通常のミニバッチ学習である。以上のようにして教師なしデータからの学習を行う。

　教師ありデータのミニバッチ学習と教師なしデータのミニバッチ学習を繰り返していくことで、教師なしデータを正しくクラスタリングしつつ、各クラスタにはクラスラベルを付与する半教師学習が実現できる。

　なお、ここでは、教師なし学習にクラスタリングを用いることで分類モデルの半教師学習を実現したが、半教師学習ができるのは、分類モデルには限らない。たとえば、ランキングモデルの半教師学習として、教師なし学習に二値二次形式を利用したソーティングを用いることができる。あるいは、マルチインスタンスのモデルや時系列モデルの半教師学習として、教師なし学習に二値二次形式を用いたマッチングやアラインメントなどを用いても良い。

［ハードウェア構成］
　上述してきた情報処理装置１００等の情報機器は、例えば図１４に示すような構成のコンピュータ１０００によって実現される。図１４は、情報処理装置１００等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係る情報処理装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１５０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１４０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

（効果）
　情報処理システム１０は、学習用データに基づいて、ニューラルネットモデルを用いた学習を行う学習部１５２を備える。学習部１５２は、所定のパラメータを算出するパラメータ算出ネットと、パラメータ算出ネットによって算出されたパラメータに基づいて所定の最適化を実行する最適化レイヤと、を含む。学習部１５２は、最適化レイヤによる最適化の実行結果に基づく誤差を逆伝搬して、ニューラルネットのパラメータを更新する。

　この構成によれば、深層学習と量子計算を融合させることができるので、複雑な目的関数を持つ問題を高速に解くことができる。

　最適化レイヤは、イジングモデルを模した計算機で構成される。

　この構成によれば、ニューラルネット中の最適化レイヤを、イジングモデルを模した計算機で構成することができる。

　最適化レイヤは、量子計算機２００で構成される。

　この構成によれば、ニューラルネット中の最適化レイヤを量子計算機２００で構成することができる。

　量子計算機２００は、量子アニーリング計算機である。

　この構成によれば、量子計算機２００を既存の装置で構成することができる。そのため、情報処理システム１０を既存の装置で構成することができる。

　学習部１５２と、量子計算機２００とは、ネットワークを介して通信可能に接続されている。

　この構成によれば、情報処理装置１００で量子計算以外の処理の実行し、量子計算機２００で量子計算を実行することができる。そのため、情報処理装置１００と、量子計算機２００とによって深層学習と量子計算を融合させ、複雑な目的関数を持つ問題を高速に解くことができる。

　パラメータは、所定の最適化問題に関するパラメータである。

　この構成によれば、情報処理システム１０を用いて最適化問題を最適化することができる。そのため、所定の最適化問題を高速に解くことができる。

　最適化問題は、離散最適化問題である。

　この構成によれば、情報処理システム１０を用いて最適化問題を最適化することができる。そのため、離散最適化問題を高速に解くことができる。

　離散最適化問題は、二値二次形式の目的関数の最適化問題である。

　この構成によれば、情報処理システム１０を用いて二値二次形式の目的関数を最適化することができる。そのため、二値二次形式の目的関数の最適化問題を高速に解くことができる。

　最適化レイヤは、二値二次形式の目的関数の最適化問題として、イジングモデルのハミルトニアンに基づいて、イジングモデルが基底エネルギー状態となる最適スピン配置を算出する。

　この構成によれば、特定のアルゴリズムによらずに、イジングレイヤで実現されたイジングモデルの基底状態を観測することで、二値二次形式の目的関数を最適化することができる。

　パラメータ算出ネットは、最適スピン配置に基づいて、イジングモデルのパラメータに相当する一次および二次のスピン変数項の係数を算出する。

　この構成によれば、ニューラルネットのロス関数をイジングレイヤで置き換えたニューラルネットを構築することができる。

　学習部１５２は、最適化レイヤから最適スピン配置から算出された誤差勾配が逆伝搬されることでニューラルネットのパラメータを更新する。

　この構成によれば、情報処理装置１００は、量子計算機２００で計算された最適スピン配置に基づいて、通常の逆伝搬法を用いてニューラルネットのパラメータを更新することができる。

　更新されたニューラルネットを用いて実行用データの実行結果を予測する予測部１５３をさらに備える。

　この構成によれば、情報処理装置１００と、量子計算機２００とによって更新されたニューラルネットを用いて、実行用データを予測することができる。

　予測部１５３は、イジングレイヤによる所定の最適化の実行結果に基づいて実行用データの実行結果を予測する。

　この構成によれば、情報処理装置１００は、量子計算機２００の計算結果に基づいて、実行用データの実行結果を予測することができる。

　情報処理方法は、所定のパラメータを算出し、パラメータ算出ネットによって算出された前記パラメータに基づいて所定の最適化を実行し、最適化の実行結果に基づいて、ニューラルネットのパラメータを更新する。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　学習用データに基づいて、ニューラルネットを用いた学習を行う学習部を備え、
　前記ニューラルネットは、
　所定のパラメータを算出するパラメータ算出ネットと、
　前記パラメータ算出ネットによって算出された前記パラメータに基づいて所定の最適化を実行する最適化レイヤと、を含み、
　前記学習部は、前記最適化レイヤによる最適化の実行結果に基づく誤差を逆伝搬することで、前記ニューラルネットのパラメータを更新する、
　情報処理システム。
（２）
　前記最適化レイヤは、イジングモデルを模した計算機で構成される、
　前記（１）に記載の情報処理システム。
（３）
　前記最適化レイヤは、量子計算機で構成される、
　前記（１）または（２）に記載の情報処理システム。
（４）
　前記量子計算機は、量子アニーリング計算機である、
　前記（３）に記載の情報処理システム。
（５）
　前記学習部と、前記量子計算機とは、ネットワークを介して通信可能に接続されている、
　前記（３）または（４）に記載の情報処理システム。
（６）
　前記パラメータは、所定の最適化問題に関するパラメータである、
　前記（１）～（５）のいずれか１つに記載の情報処理システム。
（７）
　前記最適化問題は、離散最適化問題である、
　前記（６）に記載の情報処理システム。
（８）
　前記離散最適化問題は、二値二次形式の目的関数の最適化問題である、
　前記（７）に記載の情報処理システム。
（９）
　前記最適化レイヤは、前記二値二次形式の目的関数の最適化問題として、イジングモデルのハミルトニアンに基づいて、前記イジングモデルが基底エネルギー状態となる最適スピン配置を算出する、
　前記（８）に記載の情報処理システム。
（１０）
　前記パラメータ算出ネットは、前記最適スピン配置に基づいて、前記イジングモデルのパラメータに相当する一次および二次のスピン変数項のロスを算出する、
　前記（９）に記載の情報処理システム。
（１１）
　前記学習部は、前記最適化レイヤから前記最適スピン配置から算出された誤差勾配が逆伝搬されることで前記ニューラルネットのパラメータを更新する、
　前記（１０）に記載の情報処理システム。
（１２）
　更新された前記ニューラルネットを用いて実行用データの実行結果を予測する予測部をさらに備える、
　前記（１）～（１１）のいずれか１つに記載の情報処理システム。
（１３）
　前記予測部は、前記最適化レイヤによる所定の最適化の実行結果に基づいて前記実行用データの実行結果を予測する、
　前記（１２）に記載の情報処理システム。
（１４）
　所定のパラメータを算出し、
　前記パラメータ算出ネットによって算出された前記パラメータに基づいて所定の最適化処理を実行し、
　前記最適化の実行結果に基づいて、ニューラルネットのパラメータを更新する、
　情報処理方法。

　１０　情報処理システム
　１００　情報処理装置
　１１０，２１０　通信部
　１２０，２２０　入力部
　１３０　出力部
　１４０　記憶部
　１４１　データ記憶部
　１４２　モデル記憶部
　１５０，２４０　制御部
　１５１，２４１　取得部
　１５２　学習部
　１５３　予測部
　１５４，２４３　通信制御部
　２００　量子計算機
　２３０　量子デバイス部
　２４２　測定部

Claims

　学習用データに基づいて、ニューラルネットを用いた学習を行う学習部を備え、
　前記ニューラルネットは、
　所定のパラメータを算出するパラメータ算出ネットと、
　前記パラメータ算出ネットによって算出された前記パラメータに基づいて所定の最適化を実行する最適化レイヤと、を含み、
　前記学習部は、前記最適化レイヤによる最適化の実行結果に基づく誤差を逆伝搬することで、前記ニューラルネットのパラメータを更新する、
　情報処理システム。
　前記最適化レイヤは、イジングモデルを模した計算機で構成される、
　請求項１に記載の情報処理システム。
　前記最適化レイヤは、量子計算機で構成される、
　請求項１に記載の情報処理システム。
　前記量子計算機は、量子アニーリング計算機である、
　請求項３に記載の情報処理システム。
　前記学習部と、前記量子計算機とは、ネットワークを介して通信可能に接続されている、
　請求項３に記載の情報処理システム。
　前記パラメータは、所定の最適化問題に関するパラメータである、
　請求項１に記載の情報処理システム。
　前記最適化問題は、離散最適化問題である、
　請求項６に記載の情報処理システム。
　前記離散最適化問題は、二値二次形式の目的関数の最適化問題である、
　請求項７に記載の情報処理システム。
　前記最適化レイヤは、前記二値二次形式の目的関数の最適化問題として、イジングモデルのハミルトニアンに基づいて、前記イジングモデルが基底エネルギー状態となる最適スピン配置を算出する、
　請求項８に記載の情報処理システム。
　前記パラメータ算出ネットは、前記最適スピン配置に基づいて、前記イジングモデルのパラメータに相当する一次および二次のスピン変数項の係数を算出する、
　請求項９に記載の情報処理システム。
　前記学習部は、前記最適化レイヤから前記最適スピン配置から算出された誤差勾配が逆伝搬されることで前記ニューラルネットのパラメータを更新する、
　請求項１０に記載の情報処理システム。
　更新された前記ニューラルネットを用いて実行用データの実行結果を予測する予測部をさらに備える、
　請求項１に記載の情報処理システム。
　前記予測部は、前記最適化レイヤによる所定の最適化の実行結果に基づいて前記実行用データの実行結果を予測する、
　請求項１２に記載の情報処理システム。
　所定のパラメータを算出し、
　算出された前記パラメータに基づいて所定の最適化処理を実行し、
　前記最適化処理の実行結果に基づいて、ニューラルネットのパラメータを更新する、
　情報処理方法。